# Construir un modelo de regresi√≥n: preparar y visualizar datos

## **Regresi√≥n Lineal para Calabazas - Lecci√≥n 2**
#### Introducci√≥n

Ahora que tienes las herramientas necesarias para comenzar a construir modelos de aprendizaje autom√°tico con Tidymodels y el Tidyverse, est√°s listo para empezar a formular preguntas sobre tus datos. Al trabajar con datos y aplicar soluciones de aprendizaje autom√°tico, es muy importante saber c√≥mo hacer las preguntas correctas para desbloquear adecuadamente el potencial de tu conjunto de datos.

En esta lecci√≥n, aprender√°s:

-   C√≥mo preparar tus datos para la construcci√≥n de modelos.

-   C√≥mo usar `ggplot2` para la visualizaci√≥n de datos.

La pregunta que necesitas responder determinar√° qu√© tipo de algoritmos de aprendizaje autom√°tico utilizar√°s. Y la calidad de la respuesta que obtengas depender√° en gran medida de la naturaleza de tus datos.

Veamos esto trabajando en un ejercicio pr√°ctico.


<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Obra de @allison_horst</figcaption>


<!--![Obra de \@allison_horst](../../../../../../translated_images/unruly_data.0eedc7ced92d2d919cf5ea197bfe0fe9a30780c4bf7cdcf14ff4e9dc5a4c7267.es.jpg)<br>Obra de \@allison_horst-->


## 1. Importar datos de calabazas y convocar el Tidyverse

Necesitaremos los siguientes paquetes para desglosar y analizar esta lecci√≥n:

-   `tidyverse`: El [tidyverse](https://www.tidyverse.org/) es una [colecci√≥n de paquetes de R](https://www.tidyverse.org/packages) dise√±ada para hacer la ciencia de datos m√°s r√°pida, sencilla y divertida.

Puedes instalarlos con el siguiente comando:

`install.packages(c("tidyverse"))`

El script a continuaci√≥n verifica si tienes los paquetes necesarios para completar este m√≥dulo y los instala por ti en caso de que falte alguno.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

¬°Ahora, vamos a activar algunos paquetes y cargar los [datos](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) proporcionados para esta lecci√≥n!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

Un vistazo r√°pido con `glimpse()` muestra inmediatamente que hay espacios en blanco y una mezcla de cadenas de texto (`chr`) y datos num√©ricos (`dbl`). La columna `Date` es de tipo car√°cter y tambi√©n hay una columna extra√±a llamada `Package`, donde los datos son una mezcla entre `sacks`, `bins` y otros valores. En realidad, los datos est√°n un poco desordenados üò§.

De hecho, no es muy com√∫n recibir un conjunto de datos que est√© completamente listo para usar y crear un modelo de ML directamente. Pero no te preocupes, en esta lecci√≥n aprender√°s c√≥mo preparar un conjunto de datos en bruto utilizando bibliotecas est√°ndar de R üßë‚Äçüîß. Tambi√©n aprender√°s varias t√©cnicas para visualizar los datos. üìàüìä
<br>

> Un repaso: El operador pipe (`%>%`) realiza operaciones en secuencia l√≥gica pasando un objeto hacia adelante dentro de una funci√≥n o expresi√≥n. Puedes pensar en el operador pipe como si dijera "y luego" en tu c√≥digo.


## 2. Verificar datos faltantes

Uno de los problemas m√°s comunes que los cient√≠ficos de datos deben enfrentar es la falta o ausencia de datos. R representa los valores faltantes o desconocidos con un valor especial llamado `NA` (No Disponible).

Entonces, ¬øc√≥mo podr√≠amos saber si el marco de datos contiene valores faltantes?  
<br>
-   Una forma sencilla ser√≠a usar la funci√≥n base de R `anyNA`, que devuelve los valores l√≥gicos `TRUE` o `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

¬°Genial, parece que falta algo de informaci√≥n! Ese es un buen punto de partida.

-   Otra forma ser√≠a usar la funci√≥n `is.na()` que indica qu√© elementos individuales de la columna est√°n ausentes con un valor l√≥gico `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Bien, trabajo hecho, pero con un marco de datos tan grande como este, ser√≠a ineficiente y pr√°cticamente imposible revisar todas las filas y columnas individualmenteüò¥.

-   Una forma m√°s intuitiva ser√≠a calcular la suma de los valores faltantes para cada columna:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Mucho mejor. Faltan algunos datos, pero tal vez no importe para la tarea en cuesti√≥n. Veamos qu√© m√°s nos revela el an√°lisis.

> Adem√°s de los incre√≠bles conjuntos de paquetes y funciones, R tiene una documentaci√≥n muy buena. Por ejemplo, usa `help(colSums)` o `?colSums` para obtener m√°s informaci√≥n sobre la funci√≥n.


## 3. Dplyr: Una gram√°tica para la manipulaci√≥n de datos

<p>
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Ilustraci√≥n de @allison_horst</figcaption>


<!--¬°Ilustraci√≥n de \@allison_horst](../../images/dplyr_wrangling.png)<br/>Ilustraci√≥n de \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), un paquete del Tidyverse, es una gram√°tica para la manipulaci√≥n de datos que ofrece un conjunto consistente de verbos que te ayudan a resolver los desaf√≠os m√°s comunes en la manipulaci√≥n de datos. En esta secci√≥n, ¬°exploraremos algunos de los verbos de dplyr!  
<br>


#### dplyr::select()

`select()` es una funci√≥n del paquete `dplyr` que te ayuda a elegir columnas para mantener o excluir.

Para que tu marco de datos sea m√°s f√°cil de manejar, elimina varias de sus columnas utilizando `select()`, manteniendo solo las columnas que necesitas.

Por ejemplo, en este ejercicio, nuestro an√°lisis incluir√° las columnas `Package`, `Low Price`, `High Price` y `Date`. Vamos a seleccionar estas columnas.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` es una funci√≥n del paquete `dplyr` que te ayuda a crear o modificar columnas, mientras mantienes las columnas existentes.

La estructura general de `mutate` es:

`data %>%   mutate(new_column_name = what_it_contains)`

Vamos a probar `mutate` utilizando la columna `Date` realizando las siguientes operaciones:

1. Convertir las fechas (actualmente de tipo car√°cter) a un formato de mes (estas son fechas de EE.UU., por lo que el formato es `MM/DD/YYYY`).

2. Extraer el mes de las fechas a una nueva columna.

En R, el paquete [lubridate](https://lubridate.tidyverse.org/) facilita el trabajo con datos de tipo fecha y hora. Entonces, vamos a usar `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` y ver c√≥mo lograr los objetivos mencionados. Podemos eliminar la columna `Date` ya que no la necesitaremos nuevamente en operaciones posteriores.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

¬°Genial! ü§©

A continuaci√≥n, vamos a crear una nueva columna `Price`, que representar√° el precio promedio de una calabaza. Ahora, tomemos el promedio de las columnas `Low Price` y `High Price` para llenar la nueva columna Price.  
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

¬°Sii√≠! üí™

"¬°Pero espera!", dir√°s despu√©s de echar un vistazo r√°pido a todo el conjunto de datos con `View(pumpkins)`, "¬°Aqu√≠ hay algo raro!" ü§î

Si miras la columna `Package`, las calabazas se venden en muchas configuraciones diferentes. Algunas se venden en medidas de `1 1/9 bushel`, otras en medidas de `1/2 bushel`, algunas por calabaza, otras por libra, y algunas en cajas grandes con anchos variables.

Verifiquemos esto:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

¬°Incre√≠ble!üëè

Las calabazas parecen ser muy dif√≠ciles de pesar de manera consistente, as√≠ que vamos a filtrarlas seleccionando solo las calabazas que tengan la cadena *bushel* en la columna `Package` y colocarlas en un nuevo marco de datos `new_pumpkins`.


#### dplyr::filter() y stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): crea un subconjunto de los datos que solo contiene las **filas** que cumplen con tus condiciones, en este caso, calabazas con la cadena *bushel* en la columna `Package`.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): detecta la presencia o ausencia de un patr√≥n en una cadena de texto.

El paquete [`stringr`](https://github.com/tidyverse/stringr) proporciona funciones simples para operaciones comunes con cadenas de texto.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Puedes ver que hemos reducido a unas 415 filas de datos que contienen calabazas por fanega. ü§©  
<br>


#### dplyr::case_when()

**Pero espera, ¬°hay algo m√°s por hacer!**

¬øNotaste que la cantidad de bushels var√≠a por fila? Necesitas normalizar los precios para mostrar el precio por bushel, no por 1 1/9 o 1/2 bushel. Es hora de hacer algunos c√°lculos para estandarizarlo.

Usaremos la funci√≥n [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) para *mutar* la columna de Precio dependiendo de algunas condiciones. `case_when` te permite vectorizar m√∫ltiples declaraciones `if_else()`.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Ahora podemos analizar el precio por unidad basado en su medida en fanegas. Todo este estudio de fanegas de calabazas, sin embargo, demuestra lo `importante` que es `entender la naturaleza de tus datos`.

> ‚úÖ Seg√∫n [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308), el peso de una fanega depende del tipo de producto, ya que es una medida de volumen. "Una fanega de tomates, por ejemplo, se supone que pesa 56 libras... Las hojas y verduras ocupan m√°s espacio con menos peso, por lo que una fanega de espinacas pesa solo 20 libras." ¬°Es todo bastante complicado! No nos molestemos en hacer una conversi√≥n de fanegas a libras, y en su lugar fijemos el precio por fanega. Todo este estudio de fanegas de calabazas, sin embargo, demuestra lo importante que es entender la naturaleza de tus datos.
>
> ‚úÖ ¬øNotaste que las calabazas vendidas por media fanega son muy caras? ¬øPuedes averiguar por qu√©? Pista: las calabazas peque√±as son mucho m√°s caras que las grandes, probablemente porque hay muchas m√°s de ellas por fanega, dado el espacio no utilizado que ocupa una gran calabaza hueca para pastel.


Ahora, por √∫ltimo, solo por el simple gusto de la aventura üíÅ‚Äç‚ôÄÔ∏è, movamos tambi√©n la columna de Mes a la primera posici√≥n, es decir, `antes` de la columna `Paquete`.

Se utiliza `dplyr::relocate()` para cambiar las posiciones de las columnas.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

¬°Buen trabajo!üëå Ahora tienes un conjunto de datos limpio y ordenado sobre el cual puedes construir tu nuevo modelo de regresi√≥n.  
<br>


## 4. Visualizaci√≥n de datos con ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infograf√≠a por Dasani Madipalli</figcaption>


<!--![Infograf√≠a por Dasani Madipalli](../../../../../../translated_images/data-visualization.54e56dded7c1a804d00d027543f2881cb32da73aeadda2d4a4f10f3497526114.es.png){width="600"}-->

Hay un dicho *sabio* que dice as√≠:

> "El gr√°fico simple ha aportado m√°s informaci√≥n a la mente del analista de datos que cualquier otro dispositivo." --- John Tukey

Parte del rol del cient√≠fico de datos es demostrar la calidad y naturaleza de los datos con los que est√° trabajando. Para ello, a menudo crean visualizaciones interesantes, o gr√°ficos, diagramas y tablas, que muestran diferentes aspectos de los datos. De esta manera, pueden mostrar visualmente relaciones y brechas que de otro modo ser√≠an dif√≠ciles de descubrir.

Las visualizaciones tambi√©n pueden ayudar a determinar la t√©cnica de aprendizaje autom√°tico m√°s adecuada para los datos. Un diagrama de dispersi√≥n que parece seguir una l√≠nea, por ejemplo, indica que los datos son un buen candidato para un ejercicio de regresi√≥n lineal.

R ofrece varios sistemas para crear gr√°ficos, pero [`ggplot2`](https://ggplot2.tidyverse.org/index.html) es uno de los m√°s elegantes y vers√°tiles. `ggplot2` te permite componer gr√°ficos **combinando componentes independientes**.

Comencemos con un simple diagrama de dispersi√≥n para las columnas Price y Month.

En este caso, comenzaremos con [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), proporcionaremos un conjunto de datos y un mapeo est√©tico (con [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) y luego a√±adiremos capas (como [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) para los diagramas de dispersi√≥n.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

¬øEs este un gr√°fico √∫til ü§∑? ¬øHay algo en √©l que te sorprenda?

No es particularmente √∫til, ya que todo lo que hace es mostrar tus datos como una dispersi√≥n de puntos en un mes determinado.  
<br>


### **¬øC√≥mo lo hacemos √∫til?**

Para que los gr√°ficos muestren datos √∫tiles, generalmente necesitas agrupar los datos de alguna manera. Por ejemplo, en nuestro caso, encontrar el precio promedio de las calabazas para cada mes proporcionar√≠a m√°s informaci√≥n sobre los patrones subyacentes en nuestros datos. Esto nos lleva a otro vistazo r√°pido de **dplyr**:

#### `dplyr::group_by() %>% summarize()`

La agregaci√≥n agrupada en R se puede calcular f√°cilmente usando

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` cambia la unidad de an√°lisis del conjunto de datos completo a grupos individuales, como por mes.

-   `dplyr::summarize()` crea un nuevo marco de datos con una columna para cada variable de agrupaci√≥n y una columna para cada estad√≠stica resumida que hayas especificado.

Por ejemplo, podemos usar `dplyr::group_by() %>% summarize()` para agrupar las calabazas en grupos basados en la columna **Month** y luego encontrar el **precio promedio** para cada mes.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

¬°Sucinto!‚ú®

Las caracter√≠sticas categ√≥ricas, como los meses, se representan mejor utilizando un gr√°fico de barras üìä. Las capas responsables de los gr√°ficos de barras son `geom_bar()` y `geom_col()`. Consulta `?geom_bar` para obtener m√°s informaci√≥n.

¬°Vamos a crear uno!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§©¬°Esta es una visualizaci√≥n de datos m√°s √∫til! Parece indicar que el precio m√°s alto de las calabazas ocurre en septiembre y octubre. ¬øCumple eso con tus expectativas? ¬øPor qu√© s√≠ o por qu√© no?

¬°Felicidades por terminar la segunda lecci√≥n üëè! ¬°Preparaste tus datos para la construcci√≥n del modelo y luego descubriste m√°s informaci√≥n utilizando visualizaciones!



---

**Descargo de responsabilidad**:  
Este documento ha sido traducido utilizando el servicio de traducci√≥n autom√°tica [Co-op Translator](https://github.com/Azure/co-op-translator). Si bien nos esforzamos por lograr precisi√≥n, tenga en cuenta que las traducciones autom√°ticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para informaci√≥n cr√≠tica, se recomienda una traducci√≥n profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones err√≥neas que puedan surgir del uso de esta traducci√≥n.
