# Construir um modelo de regress√£o: preparar e visualizar dados

## **Regress√£o Linear para Ab√≥boras - Aula 2**
#### Introdu√ß√£o

Agora que voc√™ j√° est√° equipado com as ferramentas necess√°rias para come√ßar a construir modelos de aprendizado de m√°quina com Tidymodels e o Tidyverse, est√° pronto para come√ßar a fazer perguntas sobre seus dados. Ao trabalhar com dados e aplicar solu√ß√µes de aprendizado de m√°quina, √© muito importante entender como formular a pergunta certa para desbloquear adequadamente o potencial do seu conjunto de dados.

Nesta aula, voc√™ aprender√°:

-   Como preparar seus dados para a constru√ß√£o de modelos.

-   Como usar `ggplot2` para visualiza√ß√£o de dados.

A pergunta que voc√™ precisa responder determinar√° o tipo de algoritmos de aprendizado de m√°quina que voc√™ utilizar√°. E a qualidade da resposta que voc√™ obtiver depender√° fortemente da natureza dos seus dados.

Vamos ver isso na pr√°tica por meio de um exerc√≠cio.

<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Arte por @allison_horst</figcaption>


## 1. Importando dados de ab√≥boras e invocando o Tidyverse

Vamos precisar dos seguintes pacotes para explorar e manipular esta li√ß√£o:

-   `tidyverse`: O [tidyverse](https://www.tidyverse.org/) √© uma [cole√ß√£o de pacotes R](https://www.tidyverse.org/packages) projetada para tornar a ci√™ncia de dados mais r√°pida, f√°cil e divertida!

Voc√™ pode instal√°-los assim:

`install.packages(c("tidyverse"))`

O script abaixo verifica se voc√™ possui os pacotes necess√°rios para completar este m√≥dulo e os instala para voc√™ caso algum esteja faltando.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

Agora, vamos iniciar alguns pacotes e carregar os [dados](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) fornecidos para esta li√ß√£o!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

Um r√°pido `glimpse()` mostra imediatamente que h√° valores em branco e uma mistura de strings (`chr`) e dados num√©ricos (`dbl`). A coluna `Date` est√° no formato de texto e h√° tamb√©m uma coluna estranha chamada `Package`, onde os dados s√£o uma mistura de `sacks`, `bins` e outros valores. Na verdade, os dados est√£o um pouco bagun√ßados üò§.

De fato, n√£o √© muito comum receber um conjunto de dados completamente pronto para ser usado na cria√ß√£o de um modelo de ML diretamente. Mas n√£o se preocupe, nesta li√ß√£o, voc√™ aprender√° como preparar um conjunto de dados bruto usando bibliotecas padr√£o do R üßë‚Äçüîß. Voc√™ tamb√©m aprender√° v√°rias t√©cnicas para visualizar os dados. üìàüìä
<br>

> Um lembrete: O operador pipe (`%>%`) realiza opera√ß√µes em sequ√™ncia l√≥gica, passando um objeto adiante para uma fun√ß√£o ou express√£o. Voc√™ pode pensar no operador pipe como se estivesse dizendo "e ent√£o" no seu c√≥digo.


## 2. Verificar dados ausentes

Um dos problemas mais comuns que os cientistas de dados precisam lidar √© com dados incompletos ou ausentes. O R representa valores ausentes ou desconhecidos com um valor especial chamado sentinela: `NA` (Not Available).

Ent√£o, como saber√≠amos que o data frame cont√©m valores ausentes?  
<br>
-   Uma maneira direta seria usar a fun√ß√£o base do R `anyNA`, que retorna os objetos l√≥gicos `TRUE` ou `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

√ìtimo, parece que h√° alguns dados faltando! Esse √© um bom ponto de partida.

-   Outra maneira seria usar a fun√ß√£o `is.na()`, que indica quais elementos individuais da coluna est√£o ausentes com um valor l√≥gico `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Certo, trabalho conclu√≠do, mas com um dataframe t√£o grande como este, seria ineficiente e praticamente imposs√≠vel revisar todas as linhas e colunas individualmenteüò¥.

-   Uma maneira mais intuitiva seria calcular a soma dos valores ausentes para cada coluna:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Muito melhor! H√° dados faltando, mas talvez isso n√£o importe para a tarefa em quest√£o. Vamos ver o que uma an√°lise mais aprofundada revela.

> Junto com os incr√≠veis conjuntos de pacotes e fun√ß√µes, o R possui uma documenta√ß√£o muito boa. Por exemplo, use `help(colSums)` ou `?colSums` para saber mais sobre a fun√ß√£o.


## 3. Dplyr: Uma Gram√°tica para Manipula√ß√£o de Dados

<p >
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Arte por @allison_horst</figcaption>


<!--![Arte por \@allison_horst](../../../../../../translated_images/dplyr_wrangling.f5f99c64fd4580f1377fee3ea428b6f8fd073845ec0f8409d483cfe148f0984e.br.png)<br/>Arte por \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), um pacote do Tidyverse, √© uma gram√°tica de manipula√ß√£o de dados que oferece um conjunto consistente de verbos para ajudar a resolver os desafios mais comuns de manipula√ß√£o de dados. Nesta se√ß√£o, vamos explorar alguns dos verbos do dplyr!  
<br>


#### dplyr::select()

`select()` √© uma fun√ß√£o do pacote `dplyr` que ajuda voc√™ a escolher colunas para manter ou excluir.

Para tornar seu data frame mais f√°cil de trabalhar, remova v√°rias de suas colunas usando `select()`, mantendo apenas as colunas que voc√™ precisa.

Por exemplo, neste exerc√≠cio, nossa an√°lise envolver√° as colunas `Package`, `Low Price`, `High Price` e `Date`. Vamos selecionar essas colunas.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` √© uma fun√ß√£o do pacote `dplyr` que ajuda a criar ou modificar colunas, mantendo as colunas existentes.

A estrutura geral do `mutate` √©:

`data %>%   mutate(nome_da_nova_coluna = o_que_ela_contem)`

Vamos experimentar o `mutate` usando a coluna `Date` e realizando as seguintes opera√ß√µes:

1. Converter as datas (atualmente do tipo caractere) para um formato de m√™s (essas s√£o datas no formato dos EUA, ou seja, `MM/DD/YYYY`).

2. Extrair o m√™s das datas para uma nova coluna.

No R, o pacote [lubridate](https://lubridate.tidyverse.org/) facilita o trabalho com dados de data e hora. Ent√£o, vamos usar `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` e ver como alcan√ßar os objetivos acima. Podemos descartar a coluna `Date`, j√° que n√£o precisaremos mais dela nas opera√ß√µes subsequentes.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Uhuu! ü§©

Agora, vamos criar uma nova coluna chamada `Price`, que representa o pre√ßo m√©dio de uma ab√≥bora. Para isso, vamos calcular a m√©dia das colunas `Low Price` e `High Price` para preencher a nova coluna Price.  
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Yeees!üí™

"Mas espere!", voc√™ dir√° depois de dar uma olhada r√°pida no conjunto de dados com `View(pumpkins)`, "Tem algo estranho aqui!"ü§î

Se voc√™ observar a coluna `Package`, ver√° que as ab√≥boras s√£o vendidas em v√°rias configura√ß√µes diferentes. Algumas s√£o vendidas em medidas de `1 1/9 bushel`, outras em medidas de `1/2 bushel`, algumas por ab√≥bora, outras por libra, e algumas em grandes caixas com larguras variadas.

Vamos verificar isso:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Incr√≠vel!üëè

Parece que ab√≥boras s√£o muito dif√≠ceis de pesar de forma consistente, ent√£o vamos filtr√°-las selecionando apenas as ab√≥boras que cont√™m a string *bushel* na coluna `Package` e colocar isso em um novo data frame `new_pumpkins`.


#### dplyr::filter() e stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): cria um subconjunto dos dados contendo apenas as **linhas** que atendem √†s suas condi√ß√µes, neste caso, ab√≥boras com a string *bushel* na coluna `Package`.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): detecta a presen√ßa ou aus√™ncia de um padr√£o em uma string.

O pacote [`stringr`](https://github.com/tidyverse/stringr) fornece fun√ß√µes simples para opera√ß√µes comuns com strings.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Voc√™ pode ver que reduzimos para cerca de 415 linhas de dados contendo ab√≥boras por alqueire. ü§©


#### dplyr::case_when()

**Mas espere! Ainda h√° mais uma coisa a fazer**

Voc√™ percebeu que a quantidade de alqueires varia por linha? √â necess√°rio normalizar os pre√ßos para que sejam exibidos por alqueire, e n√£o por 1 1/9 ou 1/2 alqueire. Hora de fazer alguns c√°lculos para padronizar isso.

Usaremos a fun√ß√£o [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) para *modificar* a coluna Price dependendo de algumas condi√ß√µes. `case_when` permite que voc√™ vetorize m√∫ltiplas declara√ß√µes `if_else()`.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Agora, podemos analisar o pre√ßo por unidade com base na medida de alqueire. Todo esse estudo sobre alqueires de ab√≥boras, no entanto, mostra como √© `importante` `entender a natureza dos seus dados`!

> ‚úÖ De acordo com [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308), o peso de um alqueire depende do tipo de produto, j√° que √© uma medida de volume. "Um alqueire de tomates, por exemplo, deve pesar 56 libras... Folhas e verduras ocupam mais espa√ßo com menos peso, ent√£o um alqueire de espinafre pesa apenas 20 libras." √â tudo bem complicado! Vamos evitar fazer uma convers√£o de alqueire para libra e, em vez disso, precificar pelo alqueire. Todo esse estudo sobre alqueires de ab√≥boras, no entanto, mostra como √© muito importante entender a natureza dos seus dados!
>
> ‚úÖ Voc√™ percebeu que as ab√≥boras vendidas por meio alqueire s√£o muito caras? Consegue descobrir o motivo? Dica: ab√≥boras pequenas s√£o muito mais caras do que as grandes, provavelmente porque h√° muito mais delas por alqueire, considerando o espa√ßo n√£o utilizado ocupado por uma grande ab√≥bora oca de torta.


Agora, por pura divers√£o üíÅ‚Äç‚ôÄÔ∏è, vamos tamb√©m mover a coluna M√™s para a primeira posi√ß√£o, ou seja, `antes` da coluna `Pacote`.

`dplyr::relocate()` √© usado para alterar as posi√ß√µes das colunas.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Bom trabalho!üëå Agora voc√™ tem um conjunto de dados limpo e organizado para construir seu novo modelo de regress√£o!  
<br>


## 4. Visualiza√ß√£o de dados com ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infogr√°fico por Dasani Madipalli</figcaption>


<!--![Infogr√°fico por Dasani Madipalli](../../../../../../translated_images/data-visualization.54e56dded7c1a804d00d027543f2881cb32da73aeadda2d4a4f10f3497526114.br.png){width="600"}-->

Existe um *s√°bio* ditado que diz o seguinte:

> "O gr√°fico simples trouxe mais informa√ß√µes √† mente do analista de dados do que qualquer outro dispositivo." --- John Tukey

Parte do papel do cientista de dados √© demonstrar a qualidade e a natureza dos dados com os quais est√° trabalhando. Para isso, eles frequentemente criam visualiza√ß√µes interessantes, como gr√°ficos, diagramas e tabelas, mostrando diferentes aspectos dos dados. Dessa forma, eles conseguem mostrar visualmente rela√ß√µes e lacunas que, de outra maneira, seriam dif√≠ceis de identificar.

As visualiza√ß√µes tamb√©m podem ajudar a determinar a t√©cnica de aprendizado de m√°quina mais apropriada para os dados. Um gr√°fico de dispers√£o que parece seguir uma linha, por exemplo, indica que os dados s√£o bons candidatos para um exerc√≠cio de regress√£o linear.

O R oferece v√°rios sistemas para criar gr√°ficos, mas [`ggplot2`](https://ggplot2.tidyverse.org/index.html) √© um dos mais elegantes e vers√°teis. O `ggplot2` permite compor gr√°ficos **combinando componentes independentes**.

Vamos come√ßar com um gr√°fico de dispers√£o simples para as colunas Price e Month.

Neste caso, come√ßaremos com [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), fornecendo um conjunto de dados e um mapeamento est√©tico (com [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) e, em seguida, adicionaremos camadas (como [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) para gr√°ficos de dispers√£o.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

Este √© um gr√°fico √∫til ü§∑? Algo nele te surpreende?

N√£o √© particularmente √∫til, j√° que tudo o que ele faz √© mostrar seus dados como uma distribui√ß√£o de pontos em um determinado m√™s.
<br>


### **Como tornamos isso √∫til?**

Para exibir dados √∫teis em gr√°ficos, geralmente √© necess√°rio agrupar os dados de alguma forma. Por exemplo, no nosso caso, calcular o pre√ßo m√©dio das ab√≥boras para cada m√™s forneceria mais insights sobre os padr√µes subjacentes em nossos dados. Isso nos leva a mais uma abordagem do **dplyr**:

#### `dplyr::group_by() %>% summarize()`

A agrega√ß√£o agrupada no R pode ser facilmente realizada usando

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` altera a unidade de an√°lise do conjunto de dados completo para grupos individuais, como por m√™s.

-   `dplyr::summarize()` cria um novo data frame com uma coluna para cada vari√°vel de agrupamento e uma coluna para cada estat√≠stica resumida que voc√™ especificou.

Por exemplo, podemos usar `dplyr::group_by() %>% summarize()` para agrupar as ab√≥boras com base na coluna **Month** e, em seguida, calcular o **pre√ßo m√©dio** para cada m√™s.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Sucinto!‚ú®

Caracter√≠sticas categ√≥ricas, como meses, s√£o melhor representadas usando um gr√°fico de barras üìä. As camadas respons√°veis por gr√°ficos de barras s√£o `geom_bar()` e `geom_col()`. Consulte `?geom_bar` para saber mais.

Vamos criar um agora!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§© Esta √© uma visualiza√ß√£o de dados mais √∫til! Parece indicar que o pre√ßo mais alto para ab√≥boras ocorre em setembro e outubro. Isso atende √†s suas expectativas? Por que sim ou por que n√£o?

Parab√©ns por concluir a segunda li√ß√£o üëè! Voc√™ preparou seus dados para a constru√ß√£o do modelo e, em seguida, descobriu mais insights usando visualiza√ß√µes!



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o servi√ßo de tradu√ß√£o por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precis√£o, esteja ciente de que tradu√ß√µes autom√°ticas podem conter erros ou imprecis√µes. O documento original em seu idioma nativo deve ser considerado a fonte oficial. Para informa√ß√µes cr√≠ticas, recomenda-se a tradu√ß√£o profissional realizada por humanos. N√£o nos responsabilizamos por quaisquer mal-entendidos ou interpreta√ß√µes equivocadas decorrentes do uso desta tradu√ß√£o.
