## Introduction √† la R√©gression - Le√ßon 1

#### Mettre les choses en perspective

‚úÖ Il existe de nombreux types de m√©thodes de r√©gression, et le choix d√©pend de la r√©ponse que vous cherchez. Si vous voulez pr√©dire la taille probable d'une personne en fonction de son √¢ge, vous utiliseriez la `r√©gression lin√©aire`, car vous recherchez une **valeur num√©rique**. Si vous souhaitez d√©terminer si un type de cuisine doit √™tre consid√©r√© comme v√©g√©talien ou non, vous cherchez une **cat√©gorie** et utiliseriez donc la `r√©gression logistique`. Vous en apprendrez davantage sur la r√©gression logistique plus tard. R√©fl√©chissez un peu aux questions que vous pourriez poser √† partir des donn√©es, et √† laquelle de ces m√©thodes elles conviendraient le mieux.

Dans cette section, vous travaillerez avec un [petit ensemble de donn√©es sur le diab√®te](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Imaginez que vous vouliez tester un traitement pour des patients diab√©tiques. Les mod√®les d'apprentissage automatique pourraient vous aider √† d√©terminer quels patients r√©pondraient mieux au traitement, en fonction de combinaisons de variables. M√™me un mod√®le de r√©gression tr√®s basique, lorsqu'il est visualis√©, pourrait r√©v√©ler des informations sur des variables qui vous aideraient √† organiser vos essais cliniques th√©oriques.

Cela dit, commen√ßons cette t√¢che !

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Illustration par @allison_horst</figcaption>

<!--![Illustration par \@allison_horst](../../../../../../translated_images/encouRage.e75d5fe0367fb9136b78104baf4e2032a7622bc42a2bc34c0ad36c294eeb83f5.fr.jpg)<br>Illustration par @allison_horst-->


## 1. Chargement de notre ensemble d'outils

Pour cette t√¢che, nous aurons besoin des packages suivants :

-   `tidyverse` : Le [tidyverse](https://www.tidyverse.org/) est une [collection de packages R](https://www.tidyverse.org/packages) con√ßue pour rendre la science des donn√©es plus rapide, plus facile et plus agr√©able !

-   `tidymodels` : Le framework [tidymodels](https://www.tidymodels.org/) est une [collection de packages](https://www.tidymodels.org/packages/) d√©di√©e √† la mod√©lisation et √† l'apprentissage automatique.

Vous pouvez les installer avec la commande suivante :

`install.packages(c("tidyverse", "tidymodels"))`

Le script ci-dessous v√©rifie si vous avez les packages n√©cessaires pour compl√©ter ce module et les installe pour vous si certains sont manquants.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Maintenant, chargeons ces packages g√©niaux et rendons-les disponibles dans notre session R actuelle. (Ceci est juste pour illustration, `pacman::p_load()` l'a d√©j√† fait pour vous)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Le jeu de donn√©es sur le diab√®te

Dans cet exercice, nous allons mettre en pratique nos comp√©tences en r√©gression en r√©alisant des pr√©dictions sur un jeu de donn√©es sur le diab√®te. Le [jeu de donn√©es sur le diab√®te](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) comprend `442 √©chantillons` de donn√©es relatives au diab√®te, avec 10 variables pr√©dictives, notamment `l'√¢ge`, `le sexe`, `l'indice de masse corporelle`, `la pression art√©rielle moyenne`, et `six mesures de s√©rum sanguin`, ainsi qu'une variable cible `y` : une mesure quantitative de la progression de la maladie un an apr√®s la ligne de base.

|Nombre d'observations|442|
|----------------------|:---|
|Nombre de pr√©dicteurs|Les 10 premi√®res colonnes sont des pr√©dicteurs num√©riques|
|Cible/Variable cible|La colonne 11 est une mesure quantitative de la progression de la maladie un an apr√®s la ligne de base|
|Informations sur les pr√©dicteurs|- √¢ge en ann√©es
||- sexe
||- bmi indice de masse corporelle
||- bp pression art√©rielle moyenne
||- s1 tc, cholest√©rol s√©rique total
||- s2 ldl, lipoprot√©ines de basse densit√©
||- s3 hdl, lipoprot√©ines de haute densit√©
||- s4 tch, cholest√©rol total / HDL
||- s5 ltg, possiblement le logarithme du taux de triglyc√©rides s√©riques
||- s6 glu, taux de sucre dans le sang|




> üéì Rappelez-vous, il s'agit d'un apprentissage supervis√©, et nous avons besoin d'une cible nomm√©e 'y'.

Avant de pouvoir manipuler des donn√©es avec R, vous devez importer les donn√©es dans la m√©moire de R ou √©tablir une connexion permettant √† R d'acc√©der aux donn√©es √† distance.

> Le package [readr](https://readr.tidyverse.org/), qui fait partie de Tidyverse, offre une mani√®re rapide et conviviale de lire des donn√©es rectangulaires dans R.

Maintenant, chargeons le jeu de donn√©es sur le diab√®te disponible √† cette URL source : <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Nous effectuerons √©galement une v√©rification de coh√©rence sur nos donn√©es en utilisant `glimpse()` et afficherons les 5 premi√®res lignes avec `slice()`.

Avant d'aller plus loin, introduisons √©galement un √©l√©ment que vous rencontrerez souvent dans le code R ü•Åü•Å : l'op√©rateur pipe `%>%`

L'op√©rateur pipe (`%>%`) permet d'ex√©cuter des op√©rations dans une s√©quence logique en passant un objet √† une fonction ou une expression d'appel. Vous pouvez consid√©rer l'op√©rateur pipe comme signifiant "et ensuite" dans votre code.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` nous montre que ces donn√©es contiennent 442 lignes et 11 colonnes, toutes de type de donn√©es `double`.

<br>

> glimpse() et slice() sont des fonctions de [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, qui fait partie du Tidyverse, est une grammaire de manipulation de donn√©es offrant un ensemble coh√©rent de verbes pour r√©soudre les d√©fis les plus courants en mati√®re de manipulation de donn√©es.

<br>

Maintenant que nous avons les donn√©es, concentrons-nous sur une seule caract√©ristique (`bmi`) √† cibler pour cet exercice. Cela n√©cessitera de s√©lectionner les colonnes souhait√©es. Alors, comment faire cela ?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) nous permet de *s√©lectionner* (et √©ventuellement renommer) des colonnes dans un tableau de donn√©es.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Donn√©es d'entra√Ænement et de test

Il est courant en apprentissage supervis√© de *diviser* les donn√©es en deux sous-ensembles : un ensemble (g√©n√©ralement plus grand) pour entra√Æner le mod√®le, et un ensemble plus petit "mis de c√¥t√©" pour √©valuer les performances du mod√®le.

Maintenant que nous avons des donn√©es pr√™tes, nous pouvons voir si une machine peut aider √† d√©terminer une s√©paration logique entre les nombres de ce jeu de donn√©es. Nous pouvons utiliser le package [rsample](https://tidymodels.github.io/rsample/), qui fait partie du framework Tidymodels, pour cr√©er un objet contenant les informations sur *comment* diviser les donn√©es, puis deux autres fonctions de rsample pour extraire les ensembles d'entra√Ænement et de test cr√©√©s :


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Entra√Æner un mod√®le de r√©gression lin√©aire avec Tidymodels

Nous sommes maintenant pr√™ts √† entra√Æner notre mod√®le !

Dans Tidymodels, vous sp√©cifiez les mod√®les en utilisant `parsnip()` en d√©finissant trois concepts :

-   Le **type** de mod√®le distingue les mod√®les tels que la r√©gression lin√©aire, la r√©gression logistique, les mod√®les d'arbres de d√©cision, etc.

-   Le **mode** du mod√®le inclut des options courantes comme la r√©gression et la classification ; certains types de mod√®les prennent en charge l'un ou l'autre, tandis que d'autres n'ont qu'un seul mode.

-   Le **moteur** du mod√®le est l'outil de calcul qui sera utilis√© pour ajuster le mod√®le. Souvent, il s'agit de packages R, tels que **`"lm"`** ou **`"ranger"`**.

Ces informations sur le mod√®le sont captur√©es dans une sp√©cification de mod√®le, alors construisons-en une !


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Apr√®s qu'un mod√®le a √©t√© *sp√©cifi√©*, il peut √™tre `estim√©` ou `entra√Æn√©` en utilisant la fonction [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), g√©n√©ralement avec une formule et des donn√©es.

`y ~ .` signifie que nous allons ajuster `y` comme la quantit√©/variable cible pr√©dite, expliqu√©e par tous les pr√©dicteurs/caract√©ristiques, c'est-√†-dire `.` (dans ce cas, nous n'avons qu'un seul pr√©dicteur : `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

√Ä partir des r√©sultats du mod√®le, nous pouvons observer les coefficients appris lors de l'entra√Ænement. Ils repr√©sentent les coefficients de la ligne de meilleure ad√©quation qui minimise l'erreur globale entre la variable r√©elle et la variable pr√©dite.
<br>

## 5. Faire des pr√©dictions sur le jeu de test

Maintenant que nous avons entra√Æn√© un mod√®le, nous pouvons l'utiliser pour pr√©dire la progression de la maladie y pour le jeu de donn√©es de test en utilisant [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Cela servira √† tracer la ligne entre les groupes de donn√©es.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Youhou ! üíÉüï∫ Nous venons de former un mod√®le et de l'utiliser pour faire des pr√©dictions !

Lorsqu'on effectue des pr√©dictions, la convention de tidymodels est de toujours produire un tibble/data frame de r√©sultats avec des noms de colonnes standardis√©s. Cela permet de combiner facilement les donn√©es originales et les pr√©dictions dans un format utilisable pour des op√©rations ult√©rieures, comme la cr√©ation de graphiques.

`dplyr::bind_cols()` lie efficacement plusieurs data frames par colonne.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Visualiser les r√©sultats du mod√®le

Il est maintenant temps de voir cela visuellement üìà. Nous allons cr√©er un nuage de points avec toutes les valeurs de `y` et `bmi` du jeu de test, puis utiliser les pr√©dictions pour tracer une ligne √† l'endroit le plus appropri√©, entre les regroupements de donn√©es du mod√®le.

R propose plusieurs syst√®mes pour cr√©er des graphiques, mais `ggplot2` est l'un des plus √©l√©gants et des plus polyvalents. Cela permet de composer des graphiques en **combinant des composants ind√©pendants**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

‚úÖ R√©fl√©chissez un peu √† ce qui se passe ici. Une ligne droite traverse de nombreux petits points de donn√©es, mais que fait-elle exactement ? Pouvez-vous voir comment cette ligne pourrait vous permettre de pr√©dire o√π un nouveau point de donn√©es, encore jamais vu, devrait se situer par rapport √† l'axe y du graphique ? Essayez de mettre en mots l'utilit√© pratique de ce mod√®le.

F√©licitations, vous avez construit votre premier mod√®le de r√©gression lin√©aire, cr√©√© une pr√©diction avec celui-ci, et l'avez affich√©e dans un graphique !



---

**Avertissement** :  
Ce document a √©t√© traduit √† l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatis√©es peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit √™tre consid√©r√© comme la source faisant autorit√©. Pour des informations critiques, il est recommand√© de faire appel √† une traduction humaine professionnelle. Nous d√©clinons toute responsabilit√© en cas de malentendus ou d'interpr√©tations erron√©es r√©sultant de l'utilisation de cette traduction.
