## Introdu√ß√£o √† Regress√£o - Aula 1

#### Colocando em Perspectiva

‚úÖ Existem muitos tipos de m√©todos de regress√£o, e qual voc√™ escolhe depende da resposta que est√° procurando. Se quiser prever a altura prov√°vel de uma pessoa com uma determinada idade, utilizaria `regress√£o linear`, pois est√° √† procura de um **valor num√©rico**. Se estiver interessado em descobrir se um tipo de culin√°ria deve ser considerado vegano ou n√£o, est√° √† procura de uma **atribui√ß√£o de categoria**, ent√£o utilizaria `regress√£o log√≠stica`. Aprender√° mais sobre regress√£o log√≠stica mais adiante. Pense um pouco sobre algumas perguntas que pode fazer aos dados e qual desses m√©todos seria mais apropriado.

Nesta se√ß√£o, ir√° trabalhar com um [pequeno conjunto de dados sobre diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Imagine que queria testar um tratamento para pacientes diab√©ticos. Modelos de Machine Learning podem ajudar a determinar quais pacientes responderiam melhor ao tratamento, com base em combina√ß√µes de vari√°veis. Mesmo um modelo de regress√£o muito b√°sico, quando visualizado, pode mostrar informa√ß√µes sobre vari√°veis que ajudariam a organizar os seus ensaios cl√≠nicos te√≥ricos.

Dito isso, vamos come√ßar esta tarefa!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Arte por @allison_horst</figcaption>

<!--![Arte por \@allison_horst](../../../../../../translated_images/encouRage.e75d5fe0367fb9136b78104baf4e2032a7622bc42a2bc34c0ad36c294eeb83f5.pt.jpg)<br>Arte por @allison_horst-->


## 1. Carregar o nosso conjunto de ferramentas

Para esta tarefa, vamos precisar dos seguintes pacotes:

-   `tidyverse`: O [tidyverse](https://www.tidyverse.org/) √© uma [cole√ß√£o de pacotes R](https://www.tidyverse.org/packages) projetada para tornar a ci√™ncia de dados mais r√°pida, f√°cil e divertida!

-   `tidymodels`: O [tidymodels](https://www.tidymodels.org/) √© uma [cole√ß√£o de pacotes](https://www.tidymodels.org/packages/) para modelagem e aprendizagem autom√°tica.

Pode instal√°-los com o seguinte comando:

`install.packages(c("tidyverse", "tidymodels"))`

O script abaixo verifica se tem os pacotes necess√°rios para completar este m√≥dulo e instala-os caso algum esteja em falta.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Agora, vamos carregar estes pacotes incr√≠veis e torn√°-los dispon√≠veis na nossa sess√£o atual de R. (Isto √© apenas para ilustra√ß√£o, `pacman::p_load()` j√° fez isso por si)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. O conjunto de dados sobre diabetes

Neste exerc√≠cio, vamos demonstrar nossas habilidades de regress√£o fazendo previs√µes com um conjunto de dados sobre diabetes. O [conjunto de dados sobre diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) inclui `442 amostras` de dados relacionados √† diabetes, com 10 vari√°veis preditoras, `idade`, `sexo`, `√≠ndice de massa corporal`, `press√£o arterial m√©dia` e `seis medi√ß√µes de soro sangu√≠neo`, al√©m de uma vari√°vel de resultado `y`: uma medida quantitativa da progress√£o da doen√ßa um ano ap√≥s a linha de base.

|N√∫mero de observa√ß√µes|442|
|----------------------|:---|
|N√∫mero de preditores|As primeiras 10 colunas s√£o preditivas num√©ricas|
|Resultado/Alvo|A coluna 11 √© uma medida quantitativa da progress√£o da doen√ßa um ano ap√≥s a linha de base|
|Informa√ß√£o sobre os preditores|- idade em anos
||- sexo
||- bmi √≠ndice de massa corporal
||- bp press√£o arterial m√©dia
||- s1 tc, colesterol s√©rico total
||- s2 ldl, lipoprote√≠nas de baixa densidade
||- s3 hdl, lipoprote√≠nas de alta densidade
||- s4 tch, colesterol total / HDL
||- s5 ltg, possivelmente logaritmo do n√≠vel de triglicer√≠deos no soro
||- s6 glu, n√≠vel de a√ß√∫car no sangue|



> üéì Lembre-se, isto √© aprendizagem supervisionada, e precisamos de um alvo chamado 'y'.

Antes de poder manipular dados com R, √© necess√°rio importar os dados para a mem√≥ria do R ou estabelecer uma conex√£o com os dados que o R possa usar para acess√°-los remotamente.

> O pacote [readr](https://readr.tidyverse.org/), que faz parte do Tidyverse, oferece uma maneira r√°pida e amig√°vel de ler dados retangulares no R.

Agora, vamos carregar o conjunto de dados sobre diabetes fornecido neste URL de origem: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Al√©m disso, faremos uma verifica√ß√£o b√°sica nos nossos dados usando `glimpse()` e exibiremos as primeiras 5 linhas usando `slice()`.

Antes de avan√ßarmos, vamos tamb√©m introduzir algo que voc√™ encontrar√° frequentemente no c√≥digo R ü•Åü•Å: o operador pipe `%>%`

O operador pipe (`%>%`) realiza opera√ß√µes em sequ√™ncia l√≥gica, passando um objeto adiante para uma fun√ß√£o ou express√£o de chamada. Voc√™ pode pensar no operador pipe como dizendo "e ent√£o" no seu c√≥digo.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` mostra-nos que estes dados t√™m 442 linhas e 11 colunas, sendo todas as colunas do tipo de dados `double`.

<br>

> glimpse() e slice() s√£o fun√ß√µes do [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, parte do Tidyverse, √© uma gram√°tica de manipula√ß√£o de dados que fornece um conjunto consistente de verbos para ajudar a resolver os desafios mais comuns de manipula√ß√£o de dados.

<br>

Agora que temos os dados, vamos focar numa √∫nica caracter√≠stica (`bmi`) como alvo para este exerc√≠cio. Isto exigir√° que selecionemos as colunas desejadas. Ent√£o, como fazemos isso?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) permite-nos *selecionar* (e opcionalmente renomear) colunas num data frame.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Dados de Treino e Teste

√â uma pr√°tica comum em aprendizagem supervisionada *dividir* os dados em dois subconjuntos: um conjunto (geralmente maior) para treinar o modelo e um conjunto menor "reservado" para verificar como o modelo se comportou.

Agora que temos os dados prontos, podemos verificar se uma m√°quina pode ajudar a determinar uma divis√£o l√≥gica entre os n√∫meros neste conjunto de dados. Podemos usar o pacote [rsample](https://tidymodels.github.io/rsample/), que faz parte do framework Tidymodels, para criar um objeto que cont√©m as informa√ß√µes sobre *como* dividir os dados, e depois usar mais duas fun√ß√µes do rsample para extrair os conjuntos de treino e teste criados:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Treinar um modelo de regress√£o linear com Tidymodels

Agora estamos prontos para treinar o nosso modelo!

No Tidymodels, especifica-se os modelos utilizando `parsnip()` ao definir tr√™s conceitos:

-   O **tipo** de modelo diferencia modelos como regress√£o linear, regress√£o log√≠stica, modelos de √°rvores de decis√£o, entre outros.

-   O **modo** do modelo inclui op√ß√µes comuns como regress√£o e classifica√ß√£o; alguns tipos de modelo suportam ambos, enquanto outros t√™m apenas um modo.

-   O **motor** do modelo √© a ferramenta computacional que ser√° usada para ajustar o modelo. Muitas vezes, s√£o pacotes R, como **`"lm"`** ou **`"ranger"`**

Estas informa√ß√µes sobre o modelo s√£o capturadas numa especifica√ß√£o de modelo, ent√£o vamos construir uma!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Depois de um modelo ter sido *especificado*, pode ser `estimado` ou `treinado` utilizando a fun√ß√£o [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), normalmente com uma f√≥rmula e alguns dados.

`y ~ .` significa que ajustaremos `y` como a quantidade/vari√°vel alvo prevista, explicada por todos os preditores/caracter√≠sticas, ou seja, `.` (neste caso, temos apenas um preditor: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

A partir do resultado do modelo, podemos observar os coeficientes aprendidos durante o treino. Eles representam os coeficientes da linha de melhor ajuste que nos proporciona o menor erro geral entre a vari√°vel real e a prevista.
<br>

## 5. Fazer previs√µes no conjunto de teste

Agora que trein√°mos um modelo, podemos utiliz√°-lo para prever a progress√£o da doen√ßa y para o conjunto de dados de teste usando [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Isto ser√° usado para tra√ßar a linha entre os grupos de dados.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Woohoo! üíÉüï∫ Acab√°mos de treinar um modelo e utiliz√°mo-lo para fazer previs√µes!

Ao fazer previs√µes, a conven√ß√£o do tidymodels √© sempre produzir um tibble/data frame de resultados com nomes de colunas padronizados. Isto facilita a combina√ß√£o dos dados originais com as previs√µes num formato utiliz√°vel para opera√ß√µes subsequentes, como a cria√ß√£o de gr√°ficos.

`dplyr::bind_cols()` une eficientemente v√°rias data frames por coluna.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Representar os resultados do modelo

Agora √© hora de ver isto visualmente üìà. Vamos criar um gr√°fico de dispers√£o com todos os valores de `y` e `bmi` do conjunto de teste e, em seguida, usar as previs√µes para desenhar uma linha no lugar mais apropriado, entre os agrupamentos de dados do modelo.

O R tem v√°rios sistemas para criar gr√°ficos, mas o `ggplot2` √© um dos mais elegantes e vers√°teis. Este permite compor gr√°ficos **combinando componentes independentes**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

‚úÖ Pensa um pouco sobre o que est√° a acontecer aqui. Uma linha reta est√° a passar por muitos pequenos pontos de dados, mas o que est√° realmente a fazer? Consegues perceber como deverias ser capaz de usar esta linha para prever onde um novo ponto de dados, ainda n√£o visto, deveria encaixar em rela√ß√£o ao eixo y do gr√°fico? Tenta expressar em palavras a utilidade pr√°tica deste modelo.

Parab√©ns, constru√≠ste o teu primeiro modelo de regress√£o linear, criaste uma previs√£o com ele e exibiste-a num gr√°fico!



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o servi√ßo de tradu√ß√£o por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precis√£o, √© importante ter em conta que tradu√ß√µes autom√°ticas podem conter erros ou imprecis√µes. O documento original na sua l√≠ngua nativa deve ser considerado a fonte autorit√°ria. Para informa√ß√µes cr√≠ticas, recomenda-se a tradu√ß√£o profissional realizada por humanos. N√£o nos responsabilizamos por quaisquer mal-entendidos ou interpreta√ß√µes incorretas decorrentes da utiliza√ß√£o desta tradu√ß√£o.
