# Construir um modelo de regress√£o: preparar e visualizar dados

## **Regress√£o Linear para Ab√≥boras - Aula 2**
#### Introdu√ß√£o

Agora que j√° tem as ferramentas necess√°rias para come√ßar a construir modelos de machine learning com Tidymodels e Tidyverse, est√° pronto para come√ßar a fazer perguntas aos seus dados. Ao trabalhar com dados e aplicar solu√ß√µes de ML, √© muito importante saber como formular a pergunta certa para desbloquear adequadamente o potencial do seu conjunto de dados.

Nesta aula, ir√° aprender:

-   Como preparar os seus dados para a constru√ß√£o de modelos.

-   Como usar `ggplot2` para visualiza√ß√£o de dados.

A pergunta que precisa de responder determinar√° o tipo de algoritmos de ML que ir√° utilizar. E a qualidade da resposta que obt√©m depender√° fortemente da natureza dos seus dados.

Vamos ver isso atrav√©s de um exerc√≠cio pr√°tico.

<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Arte por @allison_horst</figcaption>


## 1. Importar dados de ab√≥boras e invocar o Tidyverse

Vamos precisar dos seguintes pacotes para explorar esta li√ß√£o:

-   `tidyverse`: O [tidyverse](https://www.tidyverse.org/) √© uma [cole√ß√£o de pacotes R](https://www.tidyverse.org/packages) projetada para tornar a ci√™ncia de dados mais r√°pida, f√°cil e divertida!

Pode instal√°-los com o seguinte comando:

`install.packages(c("tidyverse"))`

O script abaixo verifica se tem os pacotes necess√°rios para completar este m√≥dulo e instala-os caso algum esteja em falta.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

Agora, vamos ativar alguns pacotes e carregar os [dados](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) fornecidos para esta li√ß√£o!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

Um r√°pido `glimpse()` mostra imediatamente que h√° espa√ßos em branco e uma mistura de strings (`chr`) e dados num√©ricos (`dbl`). A `Date` √© do tipo car√°cter e h√° tamb√©m uma coluna estranha chamada `Package`, onde os dados s√£o uma mistura entre `sacks`, `bins` e outros valores. Os dados, na verdade, est√£o um pouco desorganizados üò§.

De facto, n√£o √© muito comum receber um conjunto de dados completamente pronto para usar e criar um modelo de ML diretamente. Mas n√£o se preocupe, nesta li√ß√£o, ir√° aprender como preparar um conjunto de dados bruto utilizando bibliotecas padr√£o do R üßë‚Äçüîß. Tamb√©m ir√° aprender v√°rias t√©cnicas para visualizar os dados.üìàüìä
<br>

> Um lembrete: O operador pipe (`%>%`) realiza opera√ß√µes numa sequ√™ncia l√≥gica ao passar um objeto para uma fun√ß√£o ou express√£o. Pode pensar no operador pipe como dizendo "e depois" no seu c√≥digo.


## 2. Verificar dados em falta

Um dos problemas mais comuns que os cientistas de dados enfrentam √© lidar com dados incompletos ou em falta. O R representa valores em falta, ou desconhecidos, com um valor especial chamado `NA` (Not Available).

Ent√£o, como podemos saber se o data frame cont√©m valores em falta?
<br>
-   Uma forma direta seria usar a fun√ß√£o base do R `anyNA`, que retorna os objetos l√≥gicos `TRUE` ou `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

√ìtimo, parece que h√° alguns dados em falta! Esse √© um bom ponto de partida.

-   Outra forma seria usar a fun√ß√£o `is.na()` que indica quais elementos individuais das colunas est√£o em falta com um valor l√≥gico `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Ok, trabalho conclu√≠do, mas com um conjunto de dados t√£o grande como este, seria ineficiente e praticamente imposs√≠vel rever todas as linhas e colunas individualmenteüò¥.

-   Uma forma mais intuitiva seria calcular a soma dos valores em falta para cada coluna:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Muito melhor! Faltam alguns dados, mas talvez isso n√£o seja relevante para a tarefa em quest√£o. Vamos ver que tipo de an√°lise adicional pode surgir.

> Al√©m dos conjuntos incr√≠veis de pacotes e fun√ß√µes, o R possui uma documenta√ß√£o muito boa. Por exemplo, use `help(colSums)` ou `?colSums` para saber mais sobre a fun√ß√£o.


## 3. Dplyr: Uma Gram√°tica para Manipula√ß√£o de Dados

<p >
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Ilustra√ß√£o por @allison_horst</figcaption>


<!--![Ilustra√ß√£o por \@allison_horst](../../../../../../translated_images/dplyr_wrangling.f5f99c64fd4580f1377fee3ea428b6f8fd073845ec0f8409d483cfe148f0984e.pt.png)<br/>Ilustra√ß√£o por \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), um pacote do Tidyverse, √© uma gram√°tica de manipula√ß√£o de dados que oferece um conjunto consistente de verbos para ajudar a resolver os desafios mais comuns de manipula√ß√£o de dados. Nesta se√ß√£o, vamos explorar alguns dos verbos do dplyr!


#### dplyr::select()

`select()` √© uma fun√ß√£o do pacote `dplyr` que ajuda a escolher colunas para manter ou excluir.

Para tornar o seu data frame mais f√°cil de trabalhar, elimine v√°rias das suas colunas, utilizando `select()`, mantendo apenas as colunas necess√°rias.

Por exemplo, neste exerc√≠cio, a nossa an√°lise ir√° envolver as colunas `Package`, `Low Price`, `High Price` e `Date`. Vamos selecionar estas colunas.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` √© uma fun√ß√£o do pacote `dplyr` que ajuda a criar ou modificar colunas, mantendo as colunas existentes.

A estrutura geral do `mutate` √©:

`data %>%   mutate(new_column_name = what_it_contains)`

Vamos experimentar o `mutate` utilizando a coluna `Date` e realizar as seguintes opera√ß√µes:

1. Converter as datas (atualmente do tipo car√°cter) para um formato de m√™s (estas s√£o datas dos EUA, ent√£o o formato √© `MM/DD/YYYY`).

2. Extrair o m√™s das datas para uma nova coluna.

Em R, o pacote [lubridate](https://lubridate.tidyverse.org/) facilita o trabalho com dados de data e hora. Ent√£o, vamos usar `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` e ver como alcan√ßar os objetivos acima. Podemos eliminar a coluna `Date`, j√° que n√£o ser√° mais necess√°ria em opera√ß√µes subsequentes.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Uhuu! ü§©

A seguir, vamos criar uma nova coluna `Price`, que representa o pre√ßo m√©dio de uma ab√≥bora. Agora, vamos calcular a m√©dia das colunas `Low Price` e `High Price` para preencher a nova coluna Price.
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Sim!üí™

"Mas espera a√≠!", dir√°s depois de examinar todo o conjunto de dados com `View(pumpkins)`, "H√° algo estranho aqui!"ü§î

Se olhares para a coluna `Package`, as ab√≥boras s√£o vendidas em v√°rias configura√ß√µes diferentes. Algumas s√£o vendidas em medidas de `1 1/9 bushel`, outras em medidas de `1/2 bushel`, algumas por ab√≥bora, outras por peso, e algumas em grandes caixas com larguras variadas.

Vamos verificar isto:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Incr√≠vel!üëè

As ab√≥boras parecem ser muito dif√≠ceis de pesar de forma consistente, por isso vamos filtr√°-las selecionando apenas as ab√≥boras com a palavra *bushel* na coluna `Package` e colocar isso num novo quadro de dados `new_pumpkins`.


#### dplyr::filter() e stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): cria um subconjunto dos dados contendo apenas as **linhas** que satisfazem as suas condi√ß√µes, neste caso, ab√≥boras com a string *bushel* na coluna `Package`.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): deteta a presen√ßa ou aus√™ncia de um padr√£o numa string.

O pacote [`stringr`](https://github.com/tidyverse/stringr) fornece fun√ß√µes simples para opera√ß√µes comuns com strings.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Pode ver que reduzimos para cerca de 415 linhas de dados contendo ab√≥boras por alqueire.ü§©  


#### dplyr::case_when()

**Mas espera! Ainda h√° algo mais a fazer**

Reparaste que a quantidade por alqueire varia por linha? √â necess√°rio normalizar os pre√ßos para que sejam apresentados por alqueire, e n√£o por 1 1/9 ou 1/2 alqueire. Est√° na hora de fazer alguns c√°lculos para os padronizar.

Vamos usar a fun√ß√£o [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) para *alterar* a coluna Price com base em algumas condi√ß√µes. `case_when` permite vectorizar m√∫ltiplas instru√ß√µes `if_else()`.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Agora podemos analisar o pre√ßo por unidade com base na sua medida em alqueires. Todo este estudo sobre alqueires de ab√≥boras, no entanto, mostra como √© `importante` `compreender a natureza dos seus dados`!

> ‚úÖ De acordo com [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308), o peso de um alqueire depende do tipo de produto, j√° que √© uma medida de volume. "Um alqueire de tomates, por exemplo, deve pesar 56 libras... Folhas e verduras ocupam mais espa√ßo com menos peso, ent√£o um alqueire de espinafre pesa apenas 20 libras." √â tudo bastante complicado! N√£o vamos nos preocupar em fazer uma convers√£o de alqueires para libras e, em vez disso, vamos precificar por alqueire. Todo este estudo sobre alqueires de ab√≥boras, no entanto, mostra como √© muito importante compreender a natureza dos seus dados!
>
> ‚úÖ Reparaste que as ab√≥boras vendidas por meio alqueire s√£o muito caras? Consegues descobrir porqu√™? Dica: ab√≥boras pequenas s√£o muito mais caras do que as grandes, provavelmente porque h√° muito mais delas por alqueire, considerando o espa√ßo n√£o utilizado ocupado por uma grande ab√≥bora oca para tartes.


Agora, por pura divers√£o üíÅ‚Äç‚ôÄÔ∏è, vamos tamb√©m mover a coluna M√™s para a primeira posi√ß√£o, ou seja, `antes` da coluna `Pacote`.

`dplyr::relocate()` √© usado para alterar as posi√ß√µes das colunas.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Bom trabalho!üëå Agora tens um conjunto de dados limpo e organizado para construir o teu novo modelo de regress√£o!


## 4. Visualiza√ß√£o de dados com ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infografia por Dasani Madipalli</figcaption>


<!--![Infografia por Dasani Madipalli](../../../../../../translated_images/data-visualization.54e56dded7c1a804d00d027543f2881cb32da73aeadda2d4a4f10f3497526114.pt.png){width="600"}-->

H√° um ditado *s√°bio* que diz o seguinte:

> "O gr√°fico simples trouxe mais informa√ß√£o √† mente do analista de dados do que qualquer outro dispositivo." --- John Tukey

Parte do papel do cientista de dados √© demonstrar a qualidade e a natureza dos dados com os quais est√° a trabalhar. Para isso, muitas vezes criam visualiza√ß√µes interessantes, ou gr√°ficos, diagramas e tabelas, que mostram diferentes aspetos dos dados. Desta forma, conseguem mostrar visualmente rela√ß√µes e lacunas que, de outra forma, seriam dif√≠ceis de identificar.

As visualiza√ß√µes tamb√©m podem ajudar a determinar a t√©cnica de machine learning mais adequada para os dados. Um gr√°fico de dispers√£o que parece seguir uma linha, por exemplo, indica que os dados s√£o bons candidatos para um exerc√≠cio de regress√£o linear.

O R oferece v√°rios sistemas para criar gr√°ficos, mas o [`ggplot2`](https://ggplot2.tidyverse.org/index.html) √© um dos mais elegantes e vers√°teis. O `ggplot2` permite compor gr√°ficos **combinando componentes independentes**.

Vamos come√ßar com um simples gr√°fico de dispers√£o para as colunas Price e Month.

Neste caso, come√ßaremos com [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), fornecendo um conjunto de dados e um mapeamento est√©tico (com [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) e, em seguida, adicionaremos camadas (como [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) para gr√°ficos de dispers√£o.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

√â um gr√°fico √∫til ü§∑? H√° algo nele que te surpreenda?

N√£o √© particularmente √∫til, pois tudo o que faz √© mostrar os teus dados como uma dispers√£o de pontos num determinado m√™s.
<br>


### **Como torn√°-lo √∫til?**

Para que os gr√°ficos exibam dados √∫teis, normalmente √© necess√°rio agrupar os dados de alguma forma. Por exemplo, no nosso caso, calcular o pre√ßo m√©dio das ab√≥boras para cada m√™s proporcionaria mais insights sobre os padr√µes subjacentes nos nossos dados. Isso leva-nos a mais uma abordagem r√°pida do **dplyr**:

#### `dplyr::group_by() %>% summarize()`

A agrega√ß√£o agrupada em R pode ser facilmente calculada usando

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` altera a unidade de an√°lise do conjunto de dados completo para grupos individuais, como por m√™s.

-   `dplyr::summarize()` cria um novo data frame com uma coluna para cada vari√°vel de agrupamento e uma coluna para cada estat√≠stica resumida que especificares.

Por exemplo, podemos usar `dplyr::group_by() %>% summarize()` para agrupar as ab√≥boras com base na coluna **Month** e, em seguida, calcular o **pre√ßo m√©dio** para cada m√™s.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Sucinto!‚ú®

Caracter√≠sticas categ√≥ricas, como meses, s√£o melhor representadas utilizando um gr√°fico de barras üìä. As camadas respons√°veis pelos gr√°ficos de barras s√£o `geom_bar()` e `geom_col()`. Consulte `?geom_bar` para saber mais.

Vamos criar um agora!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§©Esta √© uma visualiza√ß√£o de dados mais √∫til! Parece indicar que o pre√ßo mais alto das ab√≥boras ocorre em setembro e outubro. Isso corresponde √†s suas expectativas? Porqu√™ ou porqu√™ n√£o?

Parab√©ns por concluir a segunda li√ß√£o üëè! Preparou os seus dados para a constru√ß√£o do modelo e, em seguida, descobriu mais informa√ß√µes atrav√©s de visualiza√ß√µes!



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o servi√ßo de tradu√ß√£o por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precis√£o, √© importante notar que tradu√ß√µes autom√°ticas podem conter erros ou imprecis√µes. O documento original na sua l√≠ngua nativa deve ser considerado a fonte autorit√°ria. Para informa√ß√µes cr√≠ticas, recomenda-se a tradu√ß√£o profissional realizada por humanos. N√£o nos responsabilizamos por quaisquer mal-entendidos ou interpreta√ß√µes incorretas decorrentes do uso desta tradu√ß√£o.
