# Bouw een classificatiemodel: Heerlijke Aziatische en Indiase Keukens


## Introductie tot classificatie: Maak je data schoon, bereid voor en visualiseer

In deze vier lessen ga je een fundamenteel aspect van klassieke machine learning verkennen - *classificatie*. We zullen verschillende classificatie-algoritmen gebruiken met een dataset over de briljante keukens van Azi√´ en India. Hopelijk heb je trek!

<p>
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Vier pan-Aziatische keukens in deze lessen! Afbeelding door Jen Looper</figcaption>


<!--![Vier pan-Aziatische keukens in deze lessen! Afbeelding door Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Classificatie is een vorm van [supervised learning](https://wikipedia.org/wiki/Supervised_learning) die veel gemeen heeft met regressietechnieken. Bij classificatie train je een model om te voorspellen tot welke `categorie` een item behoort. Als machine learning draait om het voorspellen van waarden of namen door datasets te gebruiken, dan valt classificatie over het algemeen in twee groepen: *binaire classificatie* en *multiclass classificatie*.

Onthoud:

-   **Lineaire regressie** hielp je relaties tussen variabelen te voorspellen en nauwkeurige voorspellingen te doen over waar een nieuw datapunt zou vallen in relatie tot die lijn. Zo kon je bijvoorbeeld een numerieke waarde voorspellen zoals *wat de prijs van een pompoen zou zijn in september versus december*.

-   **Logistische regressie** hielp je "binaire categorie√´n" ontdekken: bij dit prijsniveau, *is deze pompoen oranje of niet-oranje*?

Classificatie gebruikt verschillende algoritmen om andere manieren te bepalen waarop een label of klasse van een datapunt kan worden vastgesteld. Laten we met deze keukendata werken om te zien of we, door een groep ingredi√´nten te observeren, de herkomstkeuken kunnen bepalen.

### [**Pre-lecture quiz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Introductie**

Classificatie is een van de fundamentele activiteiten van de machine learning-onderzoeker en datawetenschapper. Van eenvoudige classificatie van een binaire waarde ("is deze e-mail spam of niet?") tot complexe beeldclassificatie en segmentatie met behulp van computer vision, het is altijd nuttig om data in klassen te sorteren en er vragen over te stellen.

Om het proces op een meer wetenschappelijke manier te beschrijven, cre√´ert je classificatiemethode een voorspellend model dat je in staat stelt de relatie tussen invoervariabelen en uitvoervariabelen in kaart te brengen.

<p>
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Binaire versus multiclass problemen voor classificatie-algoritmen. Infographic door Jen Looper</figcaption>



Voordat we beginnen met het schoonmaken van onze data, het visualiseren ervan en het voorbereiden voor onze ML-taken, laten we eerst wat meer leren over de verschillende manieren waarop machine learning kan worden gebruikt om data te classificeren.

Afgeleid van [statistiek](https://wikipedia.org/wiki/Statistical_classification), gebruikt classificatie met klassieke machine learning kenmerken zoals `smoker`, `weight` en `age` om de *waarschijnlijkheid van het ontwikkelen van X ziekte* te bepalen. Als een supervised learning-techniek, vergelijkbaar met de regressieoefeningen die je eerder hebt uitgevoerd, is je data gelabeld en gebruiken de ML-algoritmen die labels om klassen (of 'kenmerken') van een dataset te classificeren en te voorspellen en ze aan een groep of uitkomst toe te wijzen.

‚úÖ Neem even de tijd om je een dataset over keukens voor te stellen. Welke vragen zou een multiclass-model kunnen beantwoorden? Welke vragen zou een binair model kunnen beantwoorden? Wat als je wilde bepalen of een bepaalde keuken waarschijnlijk fenegriek gebruikt? Wat als je wilde zien of je, met een tas vol steranijs, artisjokken, bloemkool en mierikswortel, een typisch Indiaas gerecht zou kunnen maken?

### **Hallo 'classifier'**

De vraag die we willen stellen over deze keukendataset is eigenlijk een **multiclass-vraag**, omdat we met verschillende mogelijke nationale keukens werken. Gegeven een groep ingredi√´nten, in welke van deze vele klassen past de data?

Tidymodels biedt verschillende algoritmen om data te classificeren, afhankelijk van het soort probleem dat je wilt oplossen. In de volgende twee lessen leer je over enkele van deze algoritmen.

#### **Vereisten**

Voor deze les hebben we de volgende pakketten nodig om onze data schoon te maken, voor te bereiden en te visualiseren:

-   `tidyverse`: De [tidyverse](https://www.tidyverse.org/) is een [verzameling van R-pakketten](https://www.tidyverse.org/packages) ontworpen om data science sneller, eenvoudiger en leuker te maken!

-   `tidymodels`: Het [tidymodels](https://www.tidymodels.org/) framework is een [verzameling van pakketten](https://www.tidymodels.org/packages/) voor modellering en machine learning.

-   `DataExplorer`: Het [DataExplorer-pakket](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) is bedoeld om het EDA-proces te vereenvoudigen en rapporten te genereren.

-   `themis`: Het [themis-pakket](https://themis.tidymodels.org/) biedt extra stappen voor het omgaan met onevenwichtige data.

Je kunt ze installeren met:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Als alternatief controleert het onderstaande script of je de benodigde pakketten hebt om deze module te voltooien en installeert ze voor je als ze ontbreken.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

We zullen later deze geweldige pakketten laden en beschikbaar maken in onze huidige R-sessie. (Dit is slechts ter illustratie, `pacman::p_load()` heeft dat al voor je gedaan)


## Oefening - maak je gegevens schoon en balanceer ze

De eerste taak, voordat je met dit project begint, is om je gegevens schoon te maken en **te balanceren** om betere resultaten te behalen.

Laten we de gegevens bekijken!üïµÔ∏è


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Interessant! Aan de hand van hoe het eruitziet, is de eerste kolom een soort `id`-kolom. Laten we wat meer informatie over de gegevens krijgen.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Uit de output kunnen we direct zien dat we `2448` rijen en `385` kolommen hebben en `0` ontbrekende waarden. We hebben ook 1 discrete kolom, *cuisine*.

## Oefening - meer leren over keukens

Nu begint het werk interessanter te worden. Laten we de verdeling van de gegevens per keuken ontdekken.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Er zijn een beperkt aantal keukens, maar de verdeling van de gegevens is ongelijk. Dat kun je oplossen! Voordat je dat doet, verken eerst wat meer.

Laten we vervolgens elke keuken toewijzen aan een individuele tibble en ontdekken hoeveel gegevens er beschikbaar zijn (rijen, kolommen) per keuken.

> Een [tibble](https://tibble.tidyverse.org/) is een moderne data frame.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Illustratie door @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Oefening - Ontdekken van topingredi√´nten per keuken met dplyr**

Nu kun je dieper in de data duiken en ontdekken wat de typische ingredi√´nten per keuken zijn. Je moet terugkerende gegevens verwijderen die verwarring tussen keukens veroorzaken, dus laten we meer leren over dit probleem.

Maak een functie `create_ingredient()` in R die een ingredi√´nten-databestand retourneert. Deze functie begint met het verwijderen van een nutteloze kolom en sorteert de ingredi√´nten op basis van hun aantal.

De basisstructuur van een functie in R is:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Een overzichtelijke introductie tot R-functies is te vinden [hier](https://skirmer.github.io/presentations/functions_with_r.html#1).

Laten we meteen aan de slag gaan! We maken gebruik van [dplyr werkwoorden](https://dplyr.tidyverse.org/) die we in onze vorige lessen hebben geleerd. Als samenvatting:

-   `dplyr::select()`: helpt je te kiezen welke **kolommen** je wilt behouden of uitsluiten.

-   `dplyr::pivot_longer()`: helpt je om data te "verlengen", waardoor het aantal rijen toeneemt en het aantal kolommen afneemt.

-   `dplyr::group_by()` en `dplyr::summarise()`: helpt je om samenvattende statistieken te vinden voor verschillende groepen en deze in een overzichtelijke tabel te plaatsen.

-   `dplyr::filter()`: maakt een subset van de data die alleen rijen bevat die aan jouw voorwaarden voldoen.

-   `dplyr::mutate()`: helpt je om kolommen te maken of te wijzigen.

Bekijk deze [*kunst*-rijke learnr tutorial](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) van Allison Horst, die enkele handige data-wrangling functies in dplyr *(onderdeel van de Tidyverse)* introduceert.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Nu kunnen we de functie gebruiken om een idee te krijgen van de tien populairste ingredi√´nten per keuken. Laten we het uitproberen met `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

In de vorige sectie hebben we `geom_col()` gebruikt, laten we eens kijken hoe je ook `geom_bar` kunt gebruiken om staafdiagrammen te maken. Gebruik `?geom_bar` voor meer informatie.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Laten we hetzelfde doen voor de Japanse gegevens


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Wat dacht je van de Chinese keukens?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Ten slotte, plot de Koreaanse ingredi√´nten.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Uit de datavisualisaties kunnen we nu de meest voorkomende ingredi√´nten verwijderen die verwarring veroorzaken tussen verschillende keukens, met behulp van `dplyr::select()`.

Iedereen houdt van rijst, knoflook en gember!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Gegevens voorbewerken met recepten üë©‚Äçüç≥üë®‚Äçüç≥ - Omgaan met onevenwichtige gegevens ‚öñÔ∏è

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Illustratie door @allison_horst</figcaption>

Aangezien deze les over keukens gaat, moeten we `recepten` in context plaatsen.

Tidymodels biedt nog een ander handig pakket: `recipes` - een pakket voor het voorbewerken van gegevens.


Laten we nog eens kijken naar de verdeling van onze keukens.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Zoals je kunt zien, is er een behoorlijk ongelijke verdeling in het aantal keukens. Koreaanse keukens zijn bijna drie keer zoveel als Thaise keukens. Onevenwichtige data heeft vaak negatieve effecten op de prestaties van het model. Denk bijvoorbeeld aan een binaire classificatie. Als het grootste deel van je data tot √©√©n klasse behoort, zal een ML-model die klasse vaker voorspellen, simpelweg omdat er meer data voor beschikbaar is. Het balanceren van de data corrigeert scheve verdelingen en helpt deze onevenwichtigheid te verwijderen. Veel modellen presteren het beste wanneer het aantal observaties gelijk is en hebben daarom vaak moeite met onevenwichtige data.

Er zijn grofweg twee manieren om met onevenwichtige datasets om te gaan:

-   Observaties toevoegen aan de minderheidsklasse: `Over-sampling`, bijvoorbeeld met behulp van een SMOTE-algoritme

-   Observaties verwijderen uit de meerderheidsklasse: `Under-sampling`

Laten we nu demonstreren hoe je met onevenwichtige datasets kunt omgaan met behulp van een `recept`. Een recept kan worden gezien als een blauwdruk die beschrijft welke stappen moeten worden toegepast op een dataset om deze klaar te maken voor data-analyse.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Laten we onze preprocessiestappen opsplitsen.

-   De aanroep van `recipe()` met een formule geeft de *rollen* van de variabelen aan met behulp van de `df_select`-gegevens als referentie. Bijvoorbeeld, de kolom `cuisine` heeft de rol `outcome` gekregen, terwijl de rest van de kolommen de rol `predictor` hebben gekregen.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) maakt een *specificatie* van een receptstap die synthetisch nieuwe voorbeelden van de minderheidsklasse genereert met behulp van de dichtstbijzijnde buren van deze gevallen.

Als we nu de voorbewerkte gegevens willen bekijken, moeten we onze recept [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) en [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) uitvoeren.

`prep()`: schat de benodigde parameters op basis van een trainingsset, die later op andere datasets kan worden toegepast.

`bake()`: neemt een voorbereid recept en past de bewerkingen toe op elke dataset.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Laten we nu de verdeling van onze keukens bekijken en deze vergelijken met de onevenwichtige gegevens.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Yum! De data is mooi schoon, gebalanceerd en erg lekker üòã!

> Normaal gesproken wordt een recept meestal gebruikt als een voorverwerker voor modellering, waarbij het definieert welke stappen moeten worden toegepast op een dataset om deze klaar te maken voor modellering. In dat geval wordt meestal een `workflow()` gebruikt (zoals we al hebben gezien in onze eerdere lessen) in plaats van een recept handmatig te schatten.
>
> Daarom hoef je meestal geen **`prep()`** en **`bake()`** recepten te gebruiken wanneer je tidymodels gebruikt, maar het zijn handige functies om in je toolkit te hebben om te bevestigen dat recepten doen wat je verwacht, zoals in ons geval.
>
> Wanneer je een geprept recept **`bake()`** met **`new_data = NULL`**, krijg je de data terug die je hebt verstrekt bij het defini√´ren van het recept, maar dan met de toegepaste voorbewerkingsstappen.

Laten we nu een kopie van deze data opslaan voor gebruik in toekomstige lessen:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Deze nieuwe CSV is nu te vinden in de hoofdmap voor data.

**üöÄUitdaging**

Dit curriculum bevat verschillende interessante datasets. Doorzoek de `data`-mappen en kijk of er datasets zijn die geschikt zijn voor binaire of multi-klasse classificatie. Welke vragen zou je stellen over deze dataset?

## [**Quiz na de les**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Review & Zelfstudie**

-   Bekijk [pakket themis](https://github.com/tidymodels/themis). Welke andere technieken kunnen we gebruiken om om te gaan met onevenwichtige data?

-   Tidy models [referentie website](https://www.tidymodels.org/start/).

-   H. Wickham en G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### DANK AAN:

[`Allison Horst`](https://twitter.com/allison_horst/) voor het maken van de geweldige illustraties die R toegankelijker en aantrekkelijker maken. Vind meer illustraties in haar [galerij](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) en [Jen Looper](https://www.twitter.com/jenlooper) voor het maken van de originele Python-versie van deze module ‚ô•Ô∏è

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Kunstwerk door @allison_horst</figcaption>



---

**Disclaimer**:  
Dit document is vertaald met behulp van de AI-vertalingsservice [Co-op Translator](https://github.com/Azure/co-op-translator). Hoewel we streven naar nauwkeurigheid, willen we u erop wijzen dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor kritieke informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.
