# Construire un mod√®le de classification : D√©licieuses cuisines asiatiques et indiennes


## Classificateurs de cuisine 2

Dans cette deuxi√®me le√ßon sur la classification, nous allons explorer `davantage de m√©thodes` pour classifier les donn√©es cat√©gorielles. Nous examinerons √©galement les implications du choix d'un classificateur plut√¥t qu'un autre.

### [**Quiz avant la le√ßon**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)

### **Pr√©requis**

Nous supposons que vous avez termin√© les le√ßons pr√©c√©dentes, car nous allons reprendre certains concepts abord√©s auparavant.

Pour cette le√ßon, nous aurons besoin des packages suivants :

-   `tidyverse` : Le [tidyverse](https://www.tidyverse.org/) est une [collection de packages R](https://www.tidyverse.org/packages) con√ßue pour rendre la science des donn√©es plus rapide, plus facile et plus agr√©able !

-   `tidymodels` : Le framework [tidymodels](https://www.tidymodels.org/) est une [collection de packages](https://www.tidymodels.org/packages/) d√©di√©e √† la mod√©lisation et √† l'apprentissage automatique.

-   `themis` : Le package [themis](https://themis.tidymodels.org/) fournit des √©tapes suppl√©mentaires pour traiter les donn√©es d√©s√©quilibr√©es.

Vous pouvez les installer avec la commande suivante :

`install.packages(c("tidyverse", "tidymodels", "kernlab", "themis", "ranger", "xgboost", "kknn"))`

Sinon, le script ci-dessous v√©rifie si vous avez les packages n√©cessaires pour compl√©ter ce module et les installe pour vous s'ils sont manquants.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)

## **1. Une carte de classification**

Dans notre [le√ßon pr√©c√©dente](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1), nous avons tent√© de r√©pondre √† la question : comment choisir entre plusieurs mod√®les ? En grande partie, cela d√©pend des caract√©ristiques des donn√©es et du type de probl√®me que nous voulons r√©soudre (par exemple, classification ou r√©gression ?)

Auparavant, nous avons appris les diff√©rentes options disponibles pour classifier des donn√©es en utilisant l'aide-m√©moire de Microsoft. Le framework de Machine Learning en Python, Scikit-learn, propose un aide-m√©moire similaire mais plus d√©taill√©, qui peut vous aider √† affiner davantage vos estimateurs (un autre terme pour d√©signer les classificateurs) :

<p >
   <img src="../../images/map.png"
   width="700"/>
   <figcaption></figcaption>


> Conseil : [consultez cette carte en ligne](https://scikit-learn.org/stable/tutorial/machine_learning_map/) et cliquez sur les chemins pour lire la documentation.  
>  
> Le [site de r√©f√©rence Tidymodels](https://www.tidymodels.org/find/parsnip/#models) propose √©galement une excellente documentation sur les diff√©rents types de mod√®les.

### **Le plan** üó∫Ô∏è

Cette carte est tr√®s utile une fois que vous comprenez bien vos donn√©es, car vous pouvez "suivre" ses chemins pour arriver √† une d√©cision :

-   Nous avons \>50 √©chantillons

-   Nous voulons pr√©dire une cat√©gorie

-   Nous avons des donn√©es √©tiquet√©es

-   Nous avons moins de 100K √©chantillons

-   ‚ú® Nous pouvons choisir un Linear SVC

-   Si cela ne fonctionne pas, √©tant donn√© que nous avons des donn√©es num√©riques :

    -   Nous pouvons essayer un ‚ú® KNeighbors Classifier

        -   Si cela ne fonctionne pas, essayez ‚ú® SVC et ‚ú® Ensemble Classifiers

C'est un chemin tr√®s utile √† suivre. Maintenant, passons directement √† l'action en utilisant le framework de mod√©lisation [tidymodels](https://www.tidymodels.org/) : une collection coh√©rente et flexible de packages R d√©velopp√©e pour encourager de bonnes pratiques statistiques üòä.

## 2. Diviser les donn√©es et g√©rer un ensemble de donn√©es d√©s√©quilibr√©.

Dans nos le√ßons pr√©c√©dentes, nous avons appris qu'il existait un ensemble d'ingr√©dients communs √† travers nos cuisines. De plus, il y avait une r√©partition assez in√©gale du nombre de cuisines.

Nous allons g√©rer cela en :

-   Supprimant les ingr√©dients les plus courants qui cr√©ent de la confusion entre des cuisines distinctes, en utilisant `dplyr::select()`.

-   Utilisant une `recipe` qui pr√©traite les donn√©es pour les pr√©parer √† la mod√©lisation en appliquant un algorithme de `sur-√©chantillonnage`.

Nous avons d√©j√† vu cela dans la le√ßon pr√©c√©dente, donc cela devrait √™tre un jeu d'enfant ü•≥ !


In [None]:
# Load the core Tidyverse and Tidymodels packages
library(tidyverse)
library(tidymodels)

# Load the original cuisines data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger)) %>%
  # Encode cuisine column as categorical
  mutate(cuisine = factor(cuisine))


# Create data split specification
set.seed(2056)
cuisines_split <- initial_split(data = df_select,
                                strata = cuisine,
                                prop = 0.7)

# Extract the data in each split
cuisines_train <- training(cuisines_split)
cuisines_test <- testing(cuisines_split)

# Display distribution of cuisines in the training set
cuisines_train %>% 
  count(cuisine) %>% 
  arrange(desc(n))

### G√©rer les donn√©es d√©s√©quilibr√©es

Les donn√©es d√©s√©quilibr√©es ont souvent des effets n√©gatifs sur les performances du mod√®le. De nombreux mod√®les fonctionnent mieux lorsque le nombre d'observations est √©quilibr√© et, par cons√©quent, ont tendance √† rencontrer des difficult√©s avec des donn√©es non √©quilibr√©es.

Il existe principalement deux fa√ßons de traiter les ensembles de donn√©es d√©s√©quilibr√©s :

-   ajouter des observations √† la classe minoritaire : `Sur-√©chantillonnage`, par exemple en utilisant un algorithme SMOTE qui g√©n√®re de mani√®re synth√©tique de nouveaux exemples de la classe minoritaire en utilisant les plus proches voisins de ces cas.

-   supprimer des observations de la classe majoritaire : `Sous-√©chantillonnage`

Dans notre le√ßon pr√©c√©dente, nous avons d√©montr√© comment traiter les ensembles de donn√©es d√©s√©quilibr√©s en utilisant une `recette`. Une recette peut √™tre consid√©r√©e comme un plan d√©crivant les √©tapes √† appliquer √† un ensemble de donn√©es pour le pr√©parer √† l'analyse. Dans notre cas, nous souhaitons obtenir une distribution √©gale du nombre de nos cuisines pour notre `ensemble d'entra√Ænement`. Allons-y directement.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing training data
cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>%
  step_smote(cuisine) 

# Print recipe
cuisines_recipe

Nous sommes pr√™ts √† entra√Æner des mod√®les üë©‚Äçüíªüë®‚Äçüíª !

## 3. Au-del√† des mod√®les de r√©gression multinomiale

Dans notre le√ßon pr√©c√©dente, nous avons √©tudi√© les mod√®les de r√©gression multinomiale. Explorons maintenant des mod√®les plus flexibles pour la classification.

### Machines √† vecteurs de support

Dans le contexte de la classification, les `Machines √† vecteurs de support` sont une technique d'apprentissage automatique qui cherche √† trouver un *hyperplan* qui s√©pare "au mieux" les classes. Prenons un exemple simple :

<p >
   <img src="../../images/svm.png"
   width="300"/>
   <figcaption>https://commons.wikimedia.org/w/index.php?curid=22877598</figcaption>


H1~ ne s√©pare pas les classes. H2~ les s√©pare, mais seulement avec une petite marge. H3~ les s√©pare avec la marge maximale.

#### Classificateur Lin√©aire √† Vecteurs de Support

Le clustering par vecteurs de support (SVC) est une branche de la famille des machines √† vecteurs de support, une technique d'apprentissage automatique. Dans le SVC, l'hyperplan est choisi pour s√©parer correctement `la plupart` des observations d'entra√Ænement, mais `peut mal classer` quelques observations. En permettant √† certains points d'√™tre du mauvais c√¥t√©, le SVM devient plus robuste face aux valeurs aberrantes, ce qui am√©liore la g√©n√©ralisation aux nouvelles donn√©es. Le param√®tre qui r√©gule cette violation est appel√© `cost`, avec une valeur par d√©faut de 1 (voir `help("svm_poly")`).

Cr√©ons un SVC lin√©aire en d√©finissant `degree = 1` dans un mod√®le SVM polynomial.


In [None]:
# Make a linear SVC specification
svc_linear_spec <- svm_poly(degree = 1) %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svc_linear_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svc_linear_spec)

# Print out workflow
svc_linear_wf

Maintenant que nous avons int√©gr√© les √©tapes de pr√©traitement et la sp√©cification du mod√®le dans un *workflow*, nous pouvons passer √† l'entra√Ænement du SVC lin√©aire et √©valuer les r√©sultats en m√™me temps. Pour les m√©triques de performance, cr√©ons un ensemble de m√©triques qui √©valuera : `accuracy`, `sensitivity`, `Positive Predicted Value` et `F Measure`.

> `augment()` ajoutera une ou plusieurs colonnes pour les pr√©dictions aux donn√©es fournies.


In [None]:
# Train a linear SVC model
svc_linear_fit <- svc_linear_wf %>% 
  fit(data = cuisines_train)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)


# Make predictions and Evaluate model performance
svc_linear_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

#### Machine √† Vecteurs de Support

La machine √† vecteurs de support (SVM) est une extension du classificateur √† vecteurs de support afin de g√©rer une fronti√®re non lin√©aire entre les classes. En substance, les SVM utilisent l‚Äô*astuce du noyau* pour agrandir l‚Äôespace des caract√©ristiques et s‚Äôadapter aux relations non lin√©aires entre les classes. Une fonction noyau populaire et extr√™mement flexible utilis√©e par les SVM est la *fonction de base radiale.* Voyons comment elle se comporte avec nos donn√©es.


In [None]:
set.seed(2056)

# Make an RBF SVM specification
svm_rbf_spec <- svm_rbf() %>% 
  set_engine("kernlab") %>% 
  set_mode("classification")

# Bundle specification and recipe into a worklow
svm_rbf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(svm_rbf_spec)


# Train an RBF model
svm_rbf_fit <- svm_rbf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
svm_rbf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Beaucoup mieux ü§© !

> ‚úÖ Veuillez consulter :
>
> -   [*Support Vector Machines*](https://bradleyboehmke.github.io/HOML/svm.html), Hands-on Machine Learning avec R
>
> -   [*Support Vector Machines*](https://www.statlearning.com/), An Introduction to Statistical Learning with Applications in R
>
> pour en savoir plus.

### Classificateurs des plus proches voisins

Le *K*-nearest neighbor (KNN) est un algorithme dans lequel chaque observation est pr√©dite en fonction de sa *similarit√©* avec d'autres observations.

Essayons d'en ajuster un √† nos donn√©es.


In [None]:
# Make a KNN specification
knn_spec <- nearest_neighbor() %>% 
  set_engine("kknn") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
knn_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(knn_spec)

# Train a boosted tree model
knn_wf_fit <- knn_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
knn_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Il semble que ce mod√®le ne donne pas de tr√®s bons r√©sultats. Modifier les arguments du mod√®le (voir `help("nearest_neighbor")`) pourrait probablement am√©liorer ses performances. Assurez-vous d'essayer.

> ‚úÖ Veuillez consulter :
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> pour en savoir plus sur les classificateurs *K*-Nearest Neighbors.

### Classificateurs par ensemble

Les algorithmes d'ensemble fonctionnent en combinant plusieurs estimateurs de base pour produire un mod√®le optimal, soit en :

`bagging` : appliquant une *fonction de moyenne* √† une collection de mod√®les de base

`boosting` : construisant une s√©quence de mod√®les qui s'appuient les uns sur les autres pour am√©liorer les performances pr√©dictives.

Commen√ßons par essayer un mod√®le de For√™t Al√©atoire, qui construit une grande collection d'arbres de d√©cision, puis applique une fonction de moyenne pour obtenir un meilleur mod√®le global.


In [None]:
# Make a random forest specification
rf_spec <- rand_forest() %>% 
  set_engine("ranger") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
rf_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(rf_spec)

# Train a random forest model
rf_wf_fit <- rf_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
rf_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

Bon travail üëè !

Essayons √©galement un mod√®le Boosted Tree.

Boosted Tree d√©finit une m√©thode d'ensemble qui cr√©e une s√©rie d'arbres de d√©cision s√©quentiels o√π chaque arbre d√©pend des r√©sultats des arbres pr√©c√©dents dans le but de r√©duire progressivement l'erreur. Il se concentre sur les poids des √©l√©ments mal class√©s et ajuste l'ajustement pour le prochain classificateur afin de corriger.

Il existe diff√©rentes fa√ßons d'ajuster ce mod√®le (voir `help("boost_tree")`). Dans cet exemple, nous ajusterons les Boosted Trees via le moteur `xgboost`.


In [None]:
# Make a boosted tree specification
boost_spec <- boost_tree(trees = 200) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")

# Bundle recipe and model specification into a workflow
boost_wf <- workflow() %>% 
  add_recipe(cuisines_recipe) %>% 
  add_model(boost_spec)

# Train a boosted tree model
boost_wf_fit <- boost_wf %>% 
  fit(data = cuisines_train)


# Make predictions and Evaluate model performance
boost_wf_fit %>% 
  augment(new_data = cuisines_test) %>% 
  eval_metrics(truth = cuisine, estimate = .pred_class)

> ‚úÖ Veuillez consulter :
>
> -   [Machine Learning for Social Scientists](https://cimentadaj.github.io/ml_socsci/tree-based-methods.html#random-forests)
>
> -   [Hands-on Machine Learning with R](https://bradleyboehmke.github.io/HOML/)
>
> -   [An Introduction to Statistical Learning with Applications in R](https://www.statlearning.com/)
>
> -   <https://algotech.netlify.app/blog/xgboost/> - Explore le mod√®le AdaBoost, une bonne alternative √† xgboost.
>
> pour en savoir plus sur les classificateurs ensemblistes.

## 4. Extra - comparer plusieurs mod√®les

Nous avons ajust√© un bon nombre de mod√®les dans ce laboratoire üôå. Cela peut devenir fastidieux ou compliqu√© de cr√©er de nombreux workflows √† partir de diff√©rents ensembles de pr√©processeurs et/ou sp√©cifications de mod√®les, puis de calculer les m√©triques de performance une par une.

Voyons si nous pouvons r√©soudre ce probl√®me en cr√©ant une fonction qui ajuste une liste de workflows sur l'ensemble d'entra√Ænement, puis retourne les m√©triques de performance bas√©es sur l'ensemble de test. Nous allons utiliser `map()` et `map_dfr()` du package [purrr](https://purrr.tidyverse.org/) pour appliquer des fonctions √† chaque √©l√©ment d'une liste.

> Les fonctions [`map()`](https://purrr.tidyverse.org/reference/map.html) vous permettent de remplacer de nombreuses boucles for par un code √† la fois plus concis et plus facile √† lire. Le meilleur endroit pour apprendre les fonctions [`map()`](https://purrr.tidyverse.org/reference/map.html) est le [chapitre sur l'it√©ration](http://r4ds.had.co.nz/iteration.html) dans R for data science.


In [None]:
set.seed(2056)

# Create a metric set
eval_metrics <- metric_set(ppv, sens, accuracy, f_meas)

# Define a function that returns performance metrics
compare_models <- function(workflow_list, train_set, test_set){
  
  suppressWarnings(
    # Fit each model to the train_set
    map(workflow_list, fit, data = train_set) %>% 
    # Make predictions on the test set
      map_dfr(augment, new_data = test_set, .id = "model") %>%
    # Select desired columns
      select(model, cuisine, .pred_class) %>% 
    # Evaluate model performance
      group_by(model) %>% 
      eval_metrics(truth = cuisine, estimate = .pred_class) %>% 
      ungroup()
  )
  
} # End of function

In [None]:
# Make a list of workflows
workflow_list <- list(
  "svc" = svc_linear_wf,
  "svm" = svm_rbf_wf,
  "knn" = knn_wf,
  "random_forest" = rf_wf,
  "xgboost" = boost_wf)

# Call the function
set.seed(2056)
perf_metrics <- compare_models(workflow_list = workflow_list, train_set = cuisines_train, test_set = cuisines_test)

# Print out performance metrics
perf_metrics %>% 
  group_by(.metric) %>% 
  arrange(desc(.estimate)) %>% 
  slice_head(n=7)

# Compare accuracy
perf_metrics %>% 
  filter(.metric == "accuracy") %>% 
  arrange(desc(.estimate))


[**workflowset**](https://workflowsets.tidymodels.org/) permet aux utilisateurs de cr√©er et d'ajuster facilement un grand nombre de mod√®les, mais il est principalement con√ßu pour fonctionner avec des techniques de r√©√©chantillonnage telles que la `validation crois√©e`, une approche que nous n'avons pas encore abord√©e.

## **üöÄD√©fi**

Chacune de ces techniques poss√®de un grand nombre de param√®tres que vous pouvez ajuster, comme par exemple `cost` pour les SVM, `neighbors` pour les KNN, ou `mtry` (Pr√©dicteurs S√©lectionn√©s Al√©atoirement) pour les For√™ts Al√©atoires.

Faites des recherches sur les param√®tres par d√©faut de chacun et r√©fl√©chissez √† ce que modifier ces param√®tres pourrait signifier pour la qualit√© du mod√®le.

Pour en savoir plus sur un mod√®le particulier et ses param√®tres, utilisez : `help("model")`, par exemple `help("rand_forest")`.

> En pratique, nous *estimons* g√©n√©ralement les *meilleures valeurs* pour ces param√®tres en entra√Ænant de nombreux mod√®les sur un `jeu de donn√©es simul√©` et en mesurant les performances de tous ces mod√®les. Ce processus s'appelle **l'optimisation**.

### [**Quiz apr√®s le cours**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/24/)

### **R√©vision & √âtude Personnelle**

Il y a beaucoup de jargon dans ces le√ßons, alors prenez un moment pour consulter [cette liste](https://docs.microsoft.com/dotnet/machine-learning/resources/glossary?WT.mc_id=academic-77952-leestott) de terminologie utile !

#### MERCI √Ä :

[`Allison Horst`](https://twitter.com/allison_horst/) pour avoir cr√©√© les illustrations incroyables qui rendent R plus accueillant et engageant. Retrouvez plus d'illustrations dans sa [galerie](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) et [Jen Looper](https://www.twitter.com/jenlooper) pour avoir cr√©√© la version originale en Python de ce module ‚ô•Ô∏è

Bon apprentissage,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="569"/>
   <figcaption>Illustration par @allison_horst</figcaption>



---

**Avertissement** :  
Ce document a √©t√© traduit √† l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatis√©es peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit √™tre consid√©r√© comme la source faisant autorit√©. Pour des informations critiques, il est recommand√© de recourir √† une traduction professionnelle r√©alis√©e par un humain. Nous d√©clinons toute responsabilit√© en cas de malentendus ou d'interpr√©tations erron√©es r√©sultant de l'utilisation de cette traduction.
