## Introducci√≥n a la Regresi√≥n - Lecci√≥n 1

#### Poni√©ndolo en perspectiva

‚úÖ Hay muchos tipos de m√©todos de regresi√≥n, y cu√°l elijas depende de la respuesta que est√°s buscando. Si quieres predecir la altura probable de una persona dada su edad, usar√≠as `regresi√≥n lineal`, ya que est√°s buscando un **valor num√©rico**. Si est√°s interesado en descubrir si un tipo de cocina deber√≠a considerarse vegana o no, est√°s buscando una **asignaci√≥n de categor√≠a**, por lo que usar√≠as `regresi√≥n log√≠stica`. Aprender√°s m√°s sobre la regresi√≥n log√≠stica m√°s adelante. Piensa un poco en algunas preguntas que podr√≠as hacerle a los datos y cu√°l de estos m√©todos ser√≠a m√°s apropiado.

En esta secci√≥n, trabajar√°s con un [peque√±o conjunto de datos sobre diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Imagina que quisieras probar un tratamiento para pacientes diab√©ticos. Los modelos de aprendizaje autom√°tico podr√≠an ayudarte a determinar qu√© pacientes responder√≠an mejor al tratamiento, bas√°ndote en combinaciones de variables. Incluso un modelo de regresi√≥n muy b√°sico, cuando se visualiza, podr√≠a mostrar informaci√≥n sobre variables que te ayudar√≠an a organizar tus ensayos cl√≠nicos te√≥ricos.

Dicho esto, ¬°vamos a comenzar con esta tarea!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Obra de @allison_horst</figcaption>

<!--![Obra de \@allison_horst](../../../../../../translated_images/encouRage.e75d5fe0367fb9136b78104baf4e2032a7622bc42a2bc34c0ad36c294eeb83f5.es.jpg)<br>Obra de @allison_horst-->


## 1. Cargando nuestro conjunto de herramientas

Para esta tarea, necesitaremos los siguientes paquetes:

-   `tidyverse`: El [tidyverse](https://www.tidyverse.org/) es una [colecci√≥n de paquetes de R](https://www.tidyverse.org/packages) dise√±ada para hacer la ciencia de datos m√°s r√°pida, f√°cil y divertida.

-   `tidymodels`: El marco de trabajo [tidymodels](https://www.tidymodels.org/) es una [colecci√≥n de paquetes](https://www.tidymodels.org/packages/) para modelado y aprendizaje autom√°tico.

Puedes instalarlos con el siguiente comando:

`install.packages(c("tidyverse", "tidymodels"))`

El script a continuaci√≥n verifica si tienes los paquetes necesarios para completar este m√≥dulo y los instala por ti en caso de que falte alguno.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Ahora, carguemos estos paquetes incre√≠bles y hag√°moslos disponibles en nuestra sesi√≥n actual de R. (Esto es solo para ilustraci√≥n, `pacman::p_load()` ya lo hizo por ti)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. El conjunto de datos de diabetes

En este ejercicio, pondremos en pr√°ctica nuestras habilidades de regresi√≥n haciendo predicciones sobre un conjunto de datos de diabetes. El [conjunto de datos de diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) incluye `442 muestras` de datos relacionados con la diabetes, con 10 variables predictoras: `edad`, `sexo`, `√≠ndice de masa corporal`, `presi√≥n arterial promedio` y `seis mediciones de suero sangu√≠neo`, as√≠ como una variable de resultado `y`: una medida cuantitativa de la progresi√≥n de la enfermedad un a√±o despu√©s del punto de referencia.

|N√∫mero de observaciones|442|
|-----------------------|:---|
|N√∫mero de predictores|Las primeras 10 columnas son num√©ricas predictivas|
|Resultado/Objetivo|La columna 11 es una medida cuantitativa de la progresi√≥n de la enfermedad un a√±o despu√©s del punto de referencia|
|Informaci√≥n de los predictores|- edad en a√±os
||- sexo
||- bmi √≠ndice de masa corporal
||- bp presi√≥n arterial promedio
||- s1 tc, colesterol total en suero
||- s2 ldl, lipoprote√≠nas de baja densidad
||- s3 hdl, lipoprote√≠nas de alta densidad
||- s4 tch, colesterol total / HDL
||- s5 ltg, posiblemente logaritmo del nivel de triglic√©ridos en suero
||- s6 glu, nivel de az√∫car en sangre|

> üéì Recuerda, esto es aprendizaje supervisado, y necesitamos un objetivo llamado 'y'.

Antes de poder manipular datos con R, necesitas importar los datos a la memoria de R o establecer una conexi√≥n con los datos para que R pueda acceder a ellos de forma remota.

> El paquete [readr](https://readr.tidyverse.org/), que forma parte de Tidyverse, proporciona una forma r√°pida y amigable de leer datos rectangulares en R.

Ahora, carguemos el conjunto de datos de diabetes proporcionado en esta URL fuente: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Adem√°s, realizaremos una verificaci√≥n b√°sica de nuestros datos usando `glimpse()` y mostraremos las primeras 5 filas usando `slice()`.

Antes de continuar, tambi√©n introduzcamos algo que encontrar√°s con frecuencia en el c√≥digo de R ü•Åü•Å: el operador pipe `%>%`

El operador pipe (`%>%`) realiza operaciones en secuencia l√≥gica pasando un objeto hacia adelante dentro de una funci√≥n o expresi√≥n de llamada. Puedes pensar en el operador pipe como si dijera "y luego" en tu c√≥digo.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` nos muestra que estos datos tienen 442 filas y 11 columnas, y todas las columnas son del tipo de dato `double`.

<br>

> glimpse() y slice() son funciones de [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, que forma parte de Tidyverse, es una gram√°tica para la manipulaci√≥n de datos que proporciona un conjunto consistente de verbos que te ayudan a resolver los desaf√≠os m√°s comunes en la manipulaci√≥n de datos.

<br>

Ahora que tenemos los datos, vamos a centrarnos en una caracter√≠stica (`bmi`) como objetivo para este ejercicio. Esto requerir√° que seleccionemos las columnas deseadas. Entonces, ¬øc√≥mo hacemos esto?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) nos permite *seleccionar* (y opcionalmente renombrar) columnas en un marco de datos.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Datos de entrenamiento y prueba

Es una pr√°ctica com√∫n en el aprendizaje supervisado *dividir* los datos en dos subconjuntos: un conjunto (generalmente m√°s grande) para entrenar el modelo, y un conjunto m√°s peque√±o de "reserva" para evaluar c√≥mo se desempe√±√≥ el modelo.

Ahora que tenemos los datos listos, podemos ver si una m√°quina puede ayudar a determinar una divisi√≥n l√≥gica entre los n√∫meros de este conjunto de datos. Podemos usar el paquete [rsample](https://tidymodels.github.io/rsample/), que forma parte del marco Tidymodels, para crear un objeto que contenga la informaci√≥n sobre *c√≥mo* dividir los datos, y luego dos funciones adicionales de rsample para extraer los conjuntos de entrenamiento y prueba creados:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Entrenar un modelo de regresi√≥n lineal con Tidymodels

¬°Ahora estamos listos para entrenar nuestro modelo!

En Tidymodels, se especifican los modelos utilizando `parsnip()` definiendo tres conceptos:

-   El **tipo** de modelo diferencia entre modelos como la regresi√≥n lineal, la regresi√≥n log√≠stica, los modelos de √°rboles de decisi√≥n, entre otros.

-   El **modo** del modelo incluye opciones comunes como regresi√≥n y clasificaci√≥n; algunos tipos de modelos admiten cualquiera de estos modos, mientras que otros solo tienen un modo disponible.

-   El **motor** del modelo es la herramienta computacional que se utilizar√° para ajustar el modelo. A menudo, estos son paquetes de R, como **`"lm"`** o **`"ranger"`**.

Esta informaci√≥n del modelo se captura en una especificaci√≥n de modelo, ¬°as√≠ que vamos a construir una!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Despu√©s de que un modelo ha sido *especificado*, el modelo puede ser `estimado` o `entrenado` utilizando la funci√≥n [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), generalmente usando una f√≥rmula y algunos datos.

`y ~ .` significa que ajustaremos `y` como la cantidad/objetivo predicho, explicado por todos los predictores/caracter√≠sticas, es decir, `.` (en este caso, solo tenemos un predictor: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

A partir del resultado del modelo, podemos observar los coeficientes aprendidos durante el entrenamiento. Representan los coeficientes de la l√≠nea de mejor ajuste que nos proporciona el menor error global entre la variable real y la predicha.
<br>

## 5. Realizar predicciones en el conjunto de prueba

Ahora que hemos entrenado un modelo, podemos usarlo para predecir la progresi√≥n de la enfermedad y para el conjunto de datos de prueba utilizando [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Esto se utilizar√° para trazar la l√≠nea entre los grupos de datos.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

¬°Qu√© emoci√≥n! üíÉüï∫ ¬°Acabamos de entrenar un modelo y lo usamos para hacer predicciones!

Al hacer predicciones, la convenci√≥n de tidymodels es siempre generar un tibble/data frame de resultados con nombres de columnas estandarizados. Esto facilita combinar los datos originales con las predicciones en un formato √∫til para operaciones posteriores, como la creaci√≥n de gr√°ficos.

`dplyr::bind_cols()` une de manera eficiente m√∫ltiples data frames por columna.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Graficar los resultados del modelo

Ahora es momento de verlo de forma visual üìà. Crearemos un diagrama de dispersi√≥n con todos los valores de `y` y `bmi` del conjunto de prueba, y luego utilizaremos las predicciones para dibujar una l√≠nea en el lugar m√°s adecuado, entre los agrupamientos de datos del modelo.

R tiene varios sistemas para crear gr√°ficos, pero `ggplot2` es uno de los m√°s elegantes y vers√°tiles. Esto te permite componer gr√°ficos **combinando componentes independientes**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

‚úÖ Piensa un poco en lo que est√° sucediendo aqu√≠. Una l√≠nea recta atraviesa muchos peque√±os puntos de datos, pero ¬øqu√© est√° haciendo exactamente? ¬øPuedes ver c√≥mo deber√≠as poder usar esta l√≠nea para predecir d√≥nde deber√≠a encajar un nuevo punto de datos no visto en relaci√≥n con el eje y del gr√°fico? Intenta expresar en palabras el uso pr√°ctico de este modelo.

¬°Felicidades, construiste tu primer modelo de regresi√≥n lineal, creaste una predicci√≥n con √©l y la mostraste en un gr√°fico!



---

**Descargo de responsabilidad**:  
Este documento ha sido traducido utilizando el servicio de traducci√≥n autom√°tica [Co-op Translator](https://github.com/Azure/co-op-translator). Si bien nos esforzamos por lograr precisi√≥n, tenga en cuenta que las traducciones autom√°ticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para informaci√≥n cr√≠tica, se recomienda una traducci√≥n profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones err√≥neas que puedan surgir del uso de esta traducci√≥n.
