# Construire un mod√®le de r√©gression : pr√©parer et visualiser les donn√©es

## **R√©gression lin√©aire pour les citrouilles - Le√ßon 2**
#### Introduction

Maintenant que vous disposez des outils n√©cessaires pour commencer √† construire des mod√®les de machine learning avec Tidymodels et le Tidyverse, vous √™tes pr√™t √† poser des questions √† vos donn√©es. Lorsque vous travaillez avec des donn√©es et appliquez des solutions de machine learning, il est crucial de savoir poser les bonnes questions pour exploiter pleinement le potentiel de votre jeu de donn√©es.

Dans cette le√ßon, vous apprendrez :

-   Comment pr√©parer vos donn√©es pour la construction de mod√®les.

-   Comment utiliser `ggplot2` pour la visualisation des donn√©es.

La question √† laquelle vous souhaitez r√©pondre d√©terminera le type d'algorithmes de machine learning que vous utiliserez. Et la qualit√© de la r√©ponse que vous obtiendrez d√©pendra fortement de la nature de vos donn√©es.

Voyons cela √† travers un exercice pratique.

<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Illustration par @allison_horst</figcaption>


<!--![Illustration par \@allison_horst](../../../../../../translated_images/unruly_data.0eedc7ced92d2d919cf5ea197bfe0fe9a30780c4bf7cdcf14ff4e9dc5a4c7267.fr.jpg)<br>Illustration par \@allison_horst-->


## 1. Importer les donn√©es sur les citrouilles et invoquer le Tidyverse

Nous aurons besoin des packages suivants pour d√©couper et analyser cette le√ßon :

-   `tidyverse` : Le [tidyverse](https://www.tidyverse.org/) est une [collection de packages R](https://www.tidyverse.org/packages) con√ßue pour rendre la science des donn√©es plus rapide, plus facile et plus amusante !

Vous pouvez les installer avec la commande suivante :

`install.packages(c("tidyverse"))`

Le script ci-dessous v√©rifie si vous avez les packages n√©cessaires pour compl√©ter ce module et les installe pour vous si certains sont manquants.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

Maintenant, lan√ßons quelques packages et chargeons les [donn√©es](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) fournies pour cette le√ßon !


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

Un rapide `glimpse()` montre imm√©diatement qu'il y a des valeurs manquantes et un m√©lange de cha√Ænes de caract√®res (`chr`) et de donn√©es num√©riques (`dbl`). La colonne `Date` est de type caract√®re, et il y a aussi une colonne √©trange appel√©e `Package` o√π les donn√©es sont un m√©lange de `sacks`, `bins` et d'autres valeurs. En r√©alit√©, les donn√©es sont un peu en d√©sordre üò§.

En fait, il est assez rare de recevoir un jeu de donn√©es compl√®tement pr√™t √† l'emploi pour cr√©er un mod√®le de machine learning directement. Mais ne vous inqui√©tez pas, dans cette le√ßon, vous apprendrez √† pr√©parer un jeu de donn√©es brut en utilisant des biblioth√®ques R standard üßë‚Äçüîß. Vous d√©couvrirez √©galement diff√©rentes techniques pour visualiser les donn√©es. üìàüìä
<br>

> Un rappel : L'op√©rateur pipe (`%>%`) permet d'effectuer des op√©rations dans une s√©quence logique en passant un objet √† une fonction ou une expression d'appel. Vous pouvez consid√©rer l'op√©rateur pipe comme signifiant "et ensuite" dans votre code.


## 2. V√©rifier les donn√©es manquantes

L'un des probl√®mes les plus courants auxquels les data scientists doivent faire face est celui des donn√©es incompl√®tes ou manquantes. R repr√©sente les valeurs manquantes ou inconnues avec une valeur sentinelle sp√©ciale : `NA` (Non Disponible).

Alors, comment savoir si le tableau de donn√©es contient des valeurs manquantes ?
<br>
-   Une m√©thode simple serait d'utiliser la fonction de base R `anyNA`, qui retourne les objets logiques `TRUE` ou `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

Super, il semble qu'il manque certaines donn√©es ! C'est un bon point de d√©part.

-   Une autre m√©thode consisterait √† utiliser la fonction `is.na()` qui indique quels √©l√©ments individuels d'une colonne sont manquants avec une valeur logique `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

D'accord, c'est fait, mais avec un grand tableau de donn√©es comme celui-ci, il serait inefficace et pratiquement impossible de v√©rifier toutes les lignes et colonnes individuellement üò¥.

-   Une m√©thode plus intuitive serait de calculer la somme des valeurs manquantes pour chaque colonne :


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Bien mieux ! Il manque des donn√©es, mais peut-√™tre que cela n'aura pas d'importance pour la t√¢che en cours. Voyons ce que l'analyse suppl√©mentaire peut r√©v√©ler.

> En plus des ensembles impressionnants de packages et de fonctions, R dispose d'une tr√®s bonne documentation. Par exemple, utilisez `help(colSums)` ou `?colSums` pour en savoir plus sur la fonction.


## 3. Dplyr : Une grammaire pour manipuler les donn√©es

<p >
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Illustration par @allison_horst</figcaption>


<!--![Illustration par \@allison_horst](../../../../../../translated_images/dplyr_wrangling.f5f99c64fd4580f1377fee3ea428b6f8fd073845ec0f8409d483cfe148f0984e.fr.png)<br/>Illustration par \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), un package du Tidyverse, est une grammaire de manipulation de donn√©es qui offre un ensemble coh√©rent de verbes pour vous aider √† r√©soudre les d√©fis les plus courants en mati√®re de manipulation de donn√©es. Dans cette section, nous allons explorer certains des verbes de dplyr !


#### dplyr::select()

`select()` est une fonction du package `dplyr` qui vous aide √† choisir les colonnes √† conserver ou √† exclure.

Pour rendre votre data frame plus facile √† manipuler, supprimez plusieurs de ses colonnes en utilisant `select()`, en ne gardant que les colonnes dont vous avez besoin.

Par exemple, dans cet exercice, notre analyse portera sur les colonnes `Package`, `Low Price`, `High Price` et `Date`. S√©lectionnons ces colonnes.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` est une fonction du package `dplyr` qui vous permet de cr√©er ou de modifier des colonnes, tout en conservant les colonnes existantes.

La structure g√©n√©rale de `mutate` est :

`data %>%   mutate(new_column_name = what_it_contains)`

Explorons `mutate` en utilisant la colonne `Date` pour effectuer les op√©rations suivantes :

1. Convertir les dates (actuellement de type caract√®re) en un format de mois (ce sont des dates am√©ricaines, donc le format est `MM/DD/YYYY`).

2. Extraire le mois des dates dans une nouvelle colonne.

En R, le package [lubridate](https://lubridate.tidyverse.org/) facilite le travail avec les donn√©es de type Date-heure. Utilisons donc `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` pour atteindre les objectifs ci-dessus. Nous pouvons supprimer la colonne Date, car nous n'en aurons plus besoin dans les op√©rations suivantes.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Youpi ! ü§©

Ensuite, cr√©ons une nouvelle colonne `Price`, qui repr√©sente le prix moyen d'une citrouille. Maintenant, prenons la moyenne des colonnes `Low Price` et `High Price` pour remplir la nouvelle colonne Price.  
<br>


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Ouiii !üí™

"Mais attendez !", direz-vous apr√®s avoir parcouru rapidement l'ensemble des donn√©es avec `View(pumpkins)`, "Il y a quelque chose d'√©trange ici !"ü§î

Si vous regardez la colonne `Package`, les citrouilles sont vendues dans de nombreuses configurations diff√©rentes. Certaines sont vendues en mesures de `1 1/9 boisseau`, d'autres en mesures de `1/2 boisseau`, certaines √† l'unit√©, d'autres au poids, et certaines dans de grandes caisses de largeurs variables.

V√©rifions cela :


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Incroyable !üëè

Les citrouilles semblent √™tre tr√®s difficiles √† peser de mani√®re coh√©rente, alors filtrons-les en s√©lectionnant uniquement les citrouilles contenant le mot *bushel* dans la colonne `Package` et mettons cela dans un nouveau cadre de donn√©es `new_pumpkins`.


#### dplyr::filter() et stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html) : cr√©e un sous-ensemble des donn√©es ne contenant que les **lignes** qui remplissent vos conditions, dans ce cas, les citrouilles ayant le mot *bushel* dans la colonne `Package`.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html) : d√©tecte la pr√©sence ou l'absence d'un motif dans une cha√Æne de caract√®res.

Le package [`stringr`](https://github.com/tidyverse/stringr) fournit des fonctions simples pour les op√©rations courantes sur les cha√Ænes de caract√®res.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Vous pouvez voir que nous avons r√©duit √† environ 415 lignes de donn√©es contenant des citrouilles par boisseau.ü§©
<br>


#### dplyr::case_when()

**Mais attendez ! Il y a encore une chose √† faire**

Avez-vous remarqu√© que la quantit√© par boisseau varie selon les lignes ? Vous devez normaliser les prix afin d'afficher le prix par boisseau, et non par 1 1/9 ou 1/2 boisseau. Il est temps de faire quelques calculs pour standardiser cela.

Nous allons utiliser la fonction [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) pour *modifier* la colonne Price en fonction de certaines conditions. `case_when` permet de vectoriser plusieurs instructions `if_else()`.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Nous pouvons maintenant analyser le prix par unit√© en fonction de leur mesure en boisseaux. Toute cette √©tude des boisseaux de citrouilles, cependant, montre √† quel point il est `important` de `comprendre la nature de vos donn√©es` !

> ‚úÖ Selon [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308), le poids d'un boisseau d√©pend du type de produit, car il s'agit d'une mesure de volume. "Un boisseau de tomates, par exemple, est cens√© peser 56 livres... Les feuilles et les l√©gumes verts occupent plus d'espace avec moins de poids, donc un boisseau d'√©pinards ne p√®se que 20 livres." Tout cela est assez compliqu√© ! Ne nous emb√™tons pas √† convertir les boisseaux en livres, et fixons plut√¥t les prix par boisseau. Toute cette √©tude des boisseaux de citrouilles, cependant, montre √† quel point il est important de comprendre la nature de vos donn√©es !
>
> ‚úÖ Avez-vous remarqu√© que les citrouilles vendues au demi-boisseau sont tr√®s ch√®res ? Pouvez-vous deviner pourquoi ? Indice : les petites citrouilles co√ªtent beaucoup plus cher que les grosses, probablement parce qu'il y en a beaucoup plus par boisseau, √©tant donn√© l'espace inutilis√© occup√© par une grosse citrouille creuse pour tarte.


Maintenant, pour le simple plaisir de l'aventure üíÅ‚Äç‚ôÄÔ∏è, d√©pla√ßons √©galement la colonne Mois √† la premi√®re position, c'est-√†-dire avant la colonne `Package`.

`dplyr::relocate()` est utilis√© pour modifier la position des colonnes.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Bon travail !üëå Vous avez maintenant un ensemble de donn√©es propre et bien organis√© sur lequel vous pouvez construire votre nouveau mod√®le de r√©gression !


## 4. Visualisation des donn√©es avec ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infographie par Dasani Madipalli</figcaption>


<!--![Infographie par Dasani Madipalli](../../../../../../translated_images/data-visualization.54e56dded7c1a804d00d027543f2881cb32da73aeadda2d4a4f10f3497526114.fr.png){width="600"}-->

Il existe un *sage* dicton qui dit ceci :

> "Le simple graphique a apport√© plus d'informations √† l'esprit de l'analyste de donn√©es que tout autre outil." --- John Tukey

Une partie du r√¥le du data scientist est de d√©montrer la qualit√© et la nature des donn√©es avec lesquelles il travaille. Pour ce faire, il cr√©e souvent des visualisations int√©ressantes, ou des graphiques, diagrammes et courbes, montrant diff√©rents aspects des donn√©es. De cette mani√®re, il peut mettre en √©vidence visuellement des relations et des lacunes qui seraient autrement difficiles √† d√©tecter.

Les visualisations peuvent √©galement aider √† d√©terminer la technique d'apprentissage automatique la plus appropri√©e pour les donn√©es. Un nuage de points qui semble suivre une ligne, par exemple, indique que les donn√©es sont un bon candidat pour un exercice de r√©gression lin√©aire.

R propose plusieurs syst√®mes pour cr√©er des graphiques, mais [`ggplot2`](https://ggplot2.tidyverse.org/index.html) est l'un des plus √©l√©gants et des plus polyvalents. `ggplot2` vous permet de composer des graphiques en **combinant des composants ind√©pendants**.

Commen√ßons par un simple nuage de points pour les colonnes Price et Month.

Dans ce cas, nous commencerons avec [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), fournirons un jeu de donn√©es et une correspondance esth√©tique (avec [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)), puis ajouterons des couches (comme [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) pour les nuages de points.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

Est-ce un graphique utile ü§∑ ? Y a-t-il quelque chose qui vous surprend ?

Ce n'est pas particuli√®rement utile, car tout ce qu'il fait est de montrer vos donn√©es sous forme de dispersion de points pour un mois donn√©.  


### **Comment le rendre utile ?**

Pour afficher des graphiques avec des donn√©es pertinentes, il est g√©n√©ralement n√©cessaire de regrouper les donn√©es d'une certaine mani√®re. Par exemple, dans notre cas, calculer le prix moyen des citrouilles pour chaque mois fournirait davantage d'informations sur les tendances sous-jacentes de nos donn√©es. Cela nous am√®ne √† une autre fonctionnalit√© essentielle de **dplyr** :

#### `dplyr::group_by() %>% summarize()`

L'agr√©gation par groupes en R peut √™tre facilement r√©alis√©e avec :

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` modifie l'unit√© d'analyse, passant de l'ensemble du jeu de donn√©es √† des groupes individuels, comme par exemple par mois.

-   `dplyr::summarize()` cr√©e un nouveau tableau de donn√©es avec une colonne pour chaque variable de regroupement et une colonne pour chaque statistique r√©capitulative que vous avez sp√©cifi√©e.

Par exemple, nous pouvons utiliser `dplyr::group_by() %>% summarize()` pour regrouper les citrouilles en fonction de la colonne **Month**, puis calculer le **prix moyen** pour chaque mois.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Succinct!‚ú®

Les caract√©ristiques cat√©goriques comme les mois sont mieux repr√©sent√©es √† l'aide d'un diagramme en barres üìä. Les couches responsables des graphiques en barres sont `geom_bar()` et `geom_col()`. Consultez `?geom_bar` pour en savoir plus.

Cr√©ons-en un !


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

ü§©ü§© Voici une visualisation des donn√©es plus utile ! Cela semble indiquer que le prix le plus √©lev√© des citrouilles se produit en septembre et octobre. Est-ce que cela correspond √† vos attentes ? Pourquoi ou pourquoi pas ?

F√©licitations pour avoir termin√© la deuxi√®me le√ßon üëè ! Vous avez pr√©par√© vos donn√©es pour la construction du mod√®le, puis d√©couvert davantage d'informations gr√¢ce aux visualisations !



---

**Avertissement** :  
Ce document a √©t√© traduit √† l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatis√©es peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit √™tre consid√©r√© comme la source faisant autorit√©. Pour des informations critiques, il est recommand√© de faire appel √† une traduction humaine professionnelle. Nous d√©clinons toute responsabilit√© en cas de malentendus ou d'interpr√©tations erron√©es r√©sultant de l'utilisation de cette traduction.
