# Construire un mod√®le de classification : D√©licieuses cuisines asiatiques et indiennes


## Introduction √† la classification : Nettoyer, pr√©parer et visualiser vos donn√©es

Dans ces quatre le√ßons, vous explorerez un aspect fondamental de l'apprentissage automatique classique : *la classification*. Nous allons parcourir l'utilisation de divers algorithmes de classification avec un jeu de donn√©es sur toutes les cuisines brillantes d'Asie et d'Inde. Pr√©parez-vous √† avoir l'eau √† la bouche !

<p>
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>C√©l√©brez les cuisines pan-asiatiques dans ces le√ßons ! Image par Jen Looper</figcaption>

La classification est une forme d'[apprentissage supervis√©](https://wikipedia.org/wiki/Supervised_learning) qui partage de nombreux points communs avec les techniques de r√©gression. En classification, vous entra√Ænez un mod√®le √† pr√©dire √† quelle `cat√©gorie` appartient un √©l√©ment. Si l'apprentissage automatique consiste √† pr√©dire des valeurs ou des noms en utilisant des jeux de donn√©es, alors la classification se divise g√©n√©ralement en deux groupes : *classification binaire* et *classification multiclasses*.

Rappelons-nous :

-   **La r√©gression lin√©aire** vous a aid√© √† pr√©dire les relations entre des variables et √† faire des pr√©dictions pr√©cises sur la position d'un nouveau point de donn√©es par rapport √† cette ligne. Par exemple, vous pouviez pr√©dire des valeurs num√©riques comme *quel serait le prix d'une citrouille en septembre par rapport √† d√©cembre*.

-   **La r√©gression logistique** vous a permis de d√©couvrir des "cat√©gories binaires" : √† ce prix, *cette citrouille est-elle orange ou non-orange* ?

La classification utilise divers algorithmes pour d√©terminer d'autres fa√ßons d'attribuer une √©tiquette ou une classe √† un point de donn√©es. Travaillons avec ces donn√©es culinaires pour voir si, en observant un groupe d'ingr√©dients, nous pouvons d√©terminer son origine culinaire.

### [**Quiz avant la le√ßon**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Introduction**

La classification est l'une des activit√©s fondamentales du chercheur en apprentissage automatique et du data scientist. Qu'il s'agisse de classer de mani√®re basique une valeur binaire ("cet email est-il un spam ou non ?") ou de r√©aliser une classification et une segmentation complexes d'images √† l'aide de la vision par ordinateur, il est toujours utile de pouvoir trier des donn√©es en classes et de leur poser des questions.

Pour formuler le processus de mani√®re plus scientifique, votre m√©thode de classification cr√©e un mod√®le pr√©dictif qui vous permet de cartographier la relation entre les variables d'entr√©e et les variables de sortie.

<p>
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Probl√®mes binaires vs multiclasses pour les algorithmes de classification. Infographie par Jen Looper</figcaption>

Avant de commencer le processus de nettoyage de nos donn√©es, de leur visualisation et de leur pr√©paration pour nos t√¢ches d'apprentissage automatique, apprenons un peu plus sur les diff√©rentes fa√ßons dont l'apprentissage automatique peut √™tre utilis√© pour classer des donn√©es.

D√©riv√©e des [statistiques](https://wikipedia.org/wiki/Statistical_classification), la classification utilisant l'apprentissage automatique classique utilise des caract√©ristiques, telles que `fumeur`, `poids` et `√¢ge`, pour d√©terminer *la probabilit√© de d√©velopper une maladie X*. En tant que technique d'apprentissage supervis√© similaire aux exercices de r√©gression que vous avez effectu√©s pr√©c√©demment, vos donn√©es sont √©tiquet√©es et les algorithmes d'apprentissage automatique utilisent ces √©tiquettes pour classer et pr√©dire des classes (ou 'caract√©ristiques') d'un jeu de donn√©es et les attribuer √† un groupe ou un r√©sultat.

‚úÖ Prenez un moment pour imaginer un jeu de donn√©es sur les cuisines. Qu'est-ce qu'un mod√®le multiclasses pourrait r√©pondre ? Qu'est-ce qu'un mod√®le binaire pourrait r√©pondre ? Et si vous vouliez d√©terminer si une cuisine donn√©e √©tait susceptible d'utiliser du fenugrec ? Et si vous vouliez voir si, avec un sac de courses contenant de l'anis √©toil√©, des artichauts, du chou-fleur et du raifort, vous pouviez cr√©er un plat typique indien ?

### **Bonjour 'classificateur'**

La question que nous voulons poser √† ce jeu de donn√©es culinaires est en fait une question **multiclasses**, car nous avons plusieurs cuisines nationales potentielles √† examiner. √âtant donn√© un lot d'ingr√©dients, √† laquelle de ces nombreuses classes les donn√©es appartiendront-elles ?

Tidymodels propose plusieurs algorithmes diff√©rents pour classer les donn√©es, en fonction du type de probl√®me que vous souhaitez r√©soudre. Dans les deux prochaines le√ßons, vous apprendrez √† utiliser plusieurs de ces algorithmes.

#### **Pr√©requis**

Pour cette le√ßon, nous aurons besoin des packages suivants pour nettoyer, pr√©parer et visualiser nos donn√©es :

-   `tidyverse` : Le [tidyverse](https://www.tidyverse.org/) est une [collection de packages R](https://www.tidyverse.org/packages) con√ßue pour rendre la science des donn√©es plus rapide, plus facile et plus amusante !

-   `tidymodels` : Le [framework tidymodels](https://www.tidymodels.org/) est une [collection de packages](https://www.tidymodels.org/packages/) pour la mod√©lisation et l'apprentissage automatique.

-   `DataExplorer` : Le [package DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) est con√ßu pour simplifier et automatiser le processus d'exploration des donn√©es (EDA) et la g√©n√©ration de rapports.

-   `themis` : Le [package themis](https://themis.tidymodels.org/) fournit des √©tapes suppl√©mentaires pour traiter les donn√©es d√©s√©quilibr√©es.

Vous pouvez les installer avec :

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativement, le script ci-dessous v√©rifie si vous avez les packages n√©cessaires pour compl√©ter ce module et les installe pour vous s'ils manquent.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Nous chargerons plus tard ces packages g√©niaux et les rendrons disponibles dans notre session R actuelle. (Ceci est juste pour illustration, `pacman::p_load()` l'a d√©j√† fait pour vous)


## Exercice - nettoyer et √©quilibrer vos donn√©es

La premi√®re t√¢che √† accomplir, avant de commencer ce projet, est de nettoyer et **√©quilibrer** vos donn√©es pour obtenir de meilleurs r√©sultats.

Faisons connaissance avec les donn√©es ! üïµÔ∏è


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Int√©ressant ! √Ä premi√®re vue, la premi√®re colonne semble √™tre une sorte de colonne `id`. Obtenons un peu plus d'informations sur les donn√©es.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

D'apr√®s les r√©sultats, nous constatons imm√©diatement que nous avons `2448` lignes et `385` colonnes, et `0` valeurs manquantes. Nous avons √©galement 1 colonne discr√®te, *cuisine*.

## Exercice - d√©couvrir les cuisines

C'est maintenant que le travail devient plus int√©ressant. D√©couvrons la r√©partition des donn√©es, par type de cuisine.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Il existe un nombre fini de cuisines, mais la r√©partition des donn√©es est in√©gale. Vous pouvez corriger cela ! Avant de le faire, explorez un peu plus.

Ensuite, attribuons chaque cuisine √† son propre tibble et d√©couvrons combien de donn√©es sont disponibles (lignes, colonnes) par cuisine.

> Un [tibble](https://tibble.tidyverse.org/) est une version moderne d'un data frame.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Illustration par @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Exercice - D√©couvrir les principaux ingr√©dients par cuisine avec dplyr**

Vous pouvez maintenant explorer les donn√©es plus en profondeur et d√©couvrir quels sont les ingr√©dients typiques par cuisine. Il est important d'√©liminer les donn√©es r√©currentes qui cr√©ent de la confusion entre les cuisines, alors apprenons √† r√©soudre ce probl√®me.

Cr√©ez une fonction `create_ingredient()` en R qui retourne un dataframe d'ingr√©dients. Cette fonction commencera par supprimer une colonne inutile et triera les ingr√©dients en fonction de leur fr√©quence.

La structure de base d'une fonction en R est la suivante :

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Une introduction claire aux fonctions en R est disponible [ici](https://skirmer.github.io/presentations/functions_with_r.html#1).

Allons-y ! Nous allons utiliser les [verbes dplyr](https://dplyr.tidyverse.org/) que nous avons appris dans nos le√ßons pr√©c√©dentes. Pour rappel :

-   `dplyr::select()`: vous aide √† choisir quelles **colonnes** conserver ou exclure.

-   `dplyr::pivot_longer()`: vous permet de "r√©organiser" les donn√©es, en augmentant le nombre de lignes et en r√©duisant le nombre de colonnes.

-   `dplyr::group_by()` et `dplyr::summarise()`: vous aident √† calculer des statistiques r√©capitulatives pour diff√©rents groupes et √† les pr√©senter dans un tableau clair.

-   `dplyr::filter()`: cr√©e un sous-ensemble des donn√©es ne contenant que les lignes qui satisfont vos conditions.

-   `dplyr::mutate()`: vous aide √† cr√©er ou modifier des colonnes.

D√©couvrez ce [tutoriel *artistique* learnr](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) par Allison Horst, qui introduit certaines fonctions utiles de manipulation de donn√©es dans dplyr *(partie du Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Nous pouvons maintenant utiliser la fonction pour avoir une id√©e des dix ingr√©dients les plus populaires par cuisine. Testons-la avec `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Dans la section pr√©c√©dente, nous avons utilis√© `geom_col()`, voyons maintenant comment utiliser √©galement `geom_bar` pour cr√©er des diagrammes en barres. Utilisez `?geom_bar` pour en savoir plus.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Qu'en est-il des cuisines chinoises ?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Enfin, tracez les ingr√©dients cor√©ens.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

√Ä partir des visualisations de donn√©es, nous pouvons maintenant √©liminer les ingr√©dients les plus courants qui cr√©ent de la confusion entre les cuisines distinctes, en utilisant `dplyr::select()`.

Tout le monde adore le riz, l'ail et le gingembre !


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Pr√©traitement des donn√©es avec des recettes üë©‚Äçüç≥üë®‚Äçüç≥ - G√©rer des donn√©es d√©s√©quilibr√©es ‚öñÔ∏è

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Illustration par @allison_horst</figcaption>

√âtant donn√© que cette le√ßon porte sur les cuisines, nous devons mettre les `recettes` dans leur contexte.

Tidymodels propose un autre package pratique : `recipes` - un package pour le pr√©traitement des donn√©es.


Jetons un coup d'≈ìil √† la r√©partition de nos cuisines √† nouveau.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Comme vous pouvez le constater, il existe une r√©partition assez in√©gale dans le nombre de cuisines. Les cuisines cor√©ennes sont presque trois fois plus nombreuses que les cuisines tha√Ølandaises. Les donn√©es d√©s√©quilibr√©es ont souvent des effets n√©gatifs sur les performances du mod√®le. Prenons l'exemple d'une classification binaire. Si la majorit√© de vos donn√©es appartient √† une seule classe, un mod√®le d'apprentissage automatique va pr√©dire cette classe plus fr√©quemment, simplement parce qu'il dispose de plus de donn√©es pour celle-ci. √âquilibrer les donn√©es permet de corriger tout d√©s√©quilibre et d'√©liminer cette disparit√©. De nombreux mod√®les fonctionnent mieux lorsque le nombre d'observations est √©gal et, par cons√©quent, ont tendance √† rencontrer des difficult√©s avec des donn√©es d√©s√©quilibr√©es.

Il existe principalement deux fa√ßons de traiter les ensembles de donn√©es d√©s√©quilibr√©s :

-   ajouter des observations √† la classe minoritaire : `Sur-√©chantillonnage`, par exemple en utilisant un algorithme SMOTE

-   supprimer des observations de la classe majoritaire : `Sous-√©chantillonnage`

Voyons maintenant comment traiter les ensembles de donn√©es d√©s√©quilibr√©s en utilisant une `recette`. Une recette peut √™tre consid√©r√©e comme un plan qui d√©crit les √©tapes √† appliquer √† un ensemble de donn√©es afin de le pr√©parer √† l'analyse.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

D√©composons nos √©tapes de pr√©traitement.

-   L'appel √† `recipe()` avec une formule indique √† la recette les *r√¥les* des variables en utilisant les donn√©es de `df_select` comme r√©f√©rence. Par exemple, la colonne `cuisine` a √©t√© assign√©e au r√¥le de `outcome`, tandis que les autres colonnes ont √©t√© assign√©es au r√¥le de `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) cr√©e une *sp√©cification* d'une √©tape de recette qui g√©n√®re de mani√®re synth√©tique de nouveaux exemples de la classe minoritaire en utilisant les plus proches voisins de ces cas.

Maintenant, si nous souhaitons voir les donn√©es pr√©trait√©es, nous devons [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) et [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) notre recette.

`prep()`: estime les param√®tres n√©cessaires √† partir d'un ensemble d'entra√Ænement qui peuvent ensuite √™tre appliqu√©s √† d'autres ensembles de donn√©es.

`bake()`: applique une recette pr√©par√©e √† tout ensemble de donn√©es.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

V√©rifions maintenant la r√©partition de nos cuisines et comparons-les avec les donn√©es d√©s√©quilibr√©es.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Miam ! Les donn√©es sont propres, √©quilibr√©es et tr√®s app√©tissantes üòã !

> Normalement, une recette est g√©n√©ralement utilis√©e comme pr√©processeur pour la mod√©lisation, o√π elle d√©finit les √©tapes √† appliquer √† un ensemble de donn√©es afin de le pr√©parer pour la mod√©lisation. Dans ce cas, un `workflow()` est typiquement utilis√© (comme nous l'avons d√©j√† vu dans nos le√ßons pr√©c√©dentes) au lieu d'estimer manuellement une recette.
>
> Ainsi, vous n'avez g√©n√©ralement pas besoin d'utiliser **`prep()`** et **`bake()`** pour les recettes lorsque vous utilisez tidymodels, mais ce sont des fonctions utiles √† avoir dans votre bo√Æte √† outils pour v√©rifier que les recettes font ce que vous attendez, comme dans notre cas.
>
> Lorsque vous utilisez **`bake()`** sur une recette pr√©par√©e avec **`new_data = NULL`**, vous obtenez les donn√©es que vous avez fournies lors de la d√©finition de la recette, mais ayant subi les √©tapes de pr√©traitement.

Sauvegardons maintenant une copie de ces donn√©es pour les utiliser dans les prochaines le√ßons :


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Ce nouveau fichier CSV se trouve maintenant dans le dossier racine des donn√©es.

**üöÄD√©fi**

Ce programme contient plusieurs ensembles de donn√©es int√©ressants. Explorez les dossiers `data` et voyez si certains contiennent des ensembles de donn√©es adapt√©s √† une classification binaire ou multi-classes. Quelles questions poseriez-vous √† propos de cet ensemble de donn√©es ?

## [**Quiz apr√®s le cours**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **R√©vision & √âtude personnelle**

-   Consultez [le package themis](https://github.com/tidymodels/themis). Quelles autres techniques pourrions-nous utiliser pour g√©rer des donn√©es d√©s√©quilibr√©es ?

-   Site de r√©f√©rence des mod√®les Tidy [site web de r√©f√©rence](https://www.tidymodels.org/start/).

-   H. Wickham et G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### REMERCIEMENTS √Ä :

[`Allison Horst`](https://twitter.com/allison_horst/) pour avoir cr√©√© les illustrations incroyables qui rendent R plus accueillant et engageant. Retrouvez plus d'illustrations dans sa [galerie](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) et [Jen Looper](https://www.twitter.com/jenlooper) pour avoir cr√©√© la version originale en Python de ce module ‚ô•Ô∏è

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Illustration par @allison_horst</figcaption>



---

**Avertissement** :  
Ce document a √©t√© traduit √† l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatis√©es peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit √™tre consid√©r√© comme la source faisant autorit√©. Pour des informations critiques, il est recommand√© de faire appel √† une traduction humaine professionnelle. Nous d√©clinons toute responsabilit√© en cas de malentendus ou d'interpr√©tations erron√©es r√©sultant de l'utilisation de cette traduction.
