# Bygg en klassificeringsmodell: Uts√∂kta asiatiska och indiska r√§tter


## Introduktion till klassificering: Rensa, f√∂rbered och visualisera din data

I dessa fyra lektioner kommer du att utforska ett grundl√§ggande fokus inom klassisk maskininl√§rning - *klassificering*. Vi kommer att g√• igenom hur man anv√§nder olika klassificeringsalgoritmer med en dataset om alla de fantastiska k√∂ken i Asien och Indien. Hoppas du √§r hungrig!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Fira pan-asiatiska k√∂k i dessa lektioner! Bild av Jen Looper</figcaption>


<!--![Fira pan-asiatiska k√∂k i dessa lektioner! Bild av Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Klassificering √§r en form av [√∂vervakad inl√§rning](https://wikipedia.org/wiki/Supervised_learning) som har mycket gemensamt med regressionstekniker. Vid klassificering tr√§nar du en modell f√∂r att f√∂ruts√§ga vilken `kategori` ett objekt tillh√∂r. Om maskininl√§rning handlar om att f√∂ruts√§ga v√§rden eller namn p√• saker med hj√§lp av datasets, s√• faller klassificering generellt sett in i tv√• grupper: *bin√§r klassificering* och *multiklassklassificering*.

Kom ih√•g:

-   **Linj√§r regression** hj√§lpte dig att f√∂ruts√§ga relationer mellan variabler och g√∂ra exakta f√∂ruts√§gelser om var en ny datapunkt skulle hamna i f√∂rh√•llande till den linjen. S√• du kunde f√∂ruts√§ga numeriska v√§rden, som *vad priset p√• en pumpa skulle vara i september j√§mf√∂rt med december*, till exempel.

-   **Logistisk regression** hj√§lpte dig att uppt√§cka "bin√§ra kategorier": vid denna prisniv√•, *√§r denna pumpa orange eller inte-orange*?

Klassificering anv√§nder olika algoritmer f√∂r att avg√∂ra andra s√§tt att best√§mma en datapunkts etikett eller klass. L√•t oss arbeta med denna matlagningsdata f√∂r att se om vi, genom att observera en grupp ingredienser, kan avg√∂ra dess ursprungsk√∂k.

### [**Quiz f√∂re f√∂rel√§sningen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Introduktion**

Klassificering √§r en av de grundl√§ggande aktiviteterna f√∂r forskare inom maskininl√§rning och dataanalytiker. Fr√•n grundl√§ggande klassificering av ett bin√§rt v√§rde ("√§r detta e-postmeddelande skr√§ppost eller inte?") till komplex bildklassificering och segmentering med hj√§lp av datorseende, √§r det alltid anv√§ndbart att kunna sortera data i klasser och st√§lla fr√•gor om den.

F√∂r att uttrycka processen p√• ett mer vetenskapligt s√§tt skapar din klassificeringsmetod en prediktiv modell som g√∂r det m√∂jligt att kartl√§gga relationen mellan indata och utdata.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Bin√§ra vs. multiklassproblem f√∂r klassificeringsalgoritmer att hantera. Infografik av Jen Looper</figcaption>



Innan vi b√∂rjar processen med att rensa v√•r data, visualisera den och f√∂rbereda den f√∂r v√•ra ML-uppgifter, l√•t oss l√§ra oss lite om de olika s√§tt som maskininl√§rning kan anv√§ndas f√∂r att klassificera data.

H√§rledd fr√•n [statistik](https://wikipedia.org/wiki/Statistical_classification), klassificering med klassisk maskininl√§rning anv√§nder egenskaper, s√•som `r√∂kare`, `vikt` och `√•lder` f√∂r att avg√∂ra *sannolikheten att utveckla X sjukdom*. Som en √∂vervakad inl√§rningsteknik liknande de regressionsexempel du utf√∂rde tidigare, √§r din data m√§rkt och ML-algoritmerna anv√§nder dessa etiketter f√∂r att klassificera och f√∂ruts√§ga klasser (eller 'egenskaper') i en dataset och tilldela dem till en grupp eller ett resultat.

‚úÖ Ta en stund och f√∂rest√§ll dig en dataset om matlagning. Vad skulle en multiklassmodell kunna svara p√•? Vad skulle en bin√§r modell kunna svara p√•? Vad h√§nder om du ville avg√∂ra om ett visst k√∂k sannolikt anv√§nder bockhornskl√∂ver? Vad h√§nder om du ville se om du, med en present av en matkasse full av stj√§rnanis, kron√§rtskockor, blomk√•l och pepparrot, kunde skapa en typisk indisk matr√§tt?

### **Hej 'klassificerare'**

Fr√•gan vi vill st√§lla om denna matlagningsdataset √§r faktiskt en **multiklassfr√•ga**, eftersom vi har flera potentiella nationella k√∂k att arbeta med. Givet en grupp ingredienser, vilken av dessa m√•nga klasser passar datan in i?

Tidymodels erbjuder flera olika algoritmer att anv√§nda f√∂r att klassificera data, beroende p√• vilken typ av problem du vill l√∂sa. Under de kommande tv√• lektionerna kommer du att l√§ra dig om flera av dessa algoritmer.

#### **F√∂rkunskaper**

F√∂r denna lektion beh√∂ver vi f√∂ljande paket f√∂r att rensa, f√∂rbereda och visualisera v√•r data:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) √§r en [samling av R-paket](https://www.tidyverse.org/packages) designade f√∂r att g√∂ra dataanalys snabbare, enklare och roligare!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) √§r ett [ramverk av paket](https://www.tidymodels.org/packages/) f√∂r modellering och maskininl√§rning.

-   `DataExplorer`: [DataExplorer-paketet](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) √§r avsett att f√∂renkla och automatisera EDA-processen och rapportgenerering.

-   `themis`: [themis-paketet](https://themis.tidymodels.org/) erbjuder extra receptsteg f√∂r att hantera obalanserad data.

Du kan installera dem med:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Alternativt kontrollerar skriptet nedan om du har de paket som kr√§vs f√∂r att slutf√∂ra denna modul och installerar dem √•t dig om de saknas.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Vi kommer senare att ladda dessa fantastiska paket och g√∂ra dem tillg√§ngliga i v√•r nuvarande R-session. (Detta √§r bara f√∂r illustration, `pacman::p_load()` har redan gjort det √•t dig)


## √ñvning - rensa och balansera din data

Den f√∂rsta uppgiften, innan du b√∂rjar med detta projekt, √§r att rensa och **balansera** din data f√∂r att f√• b√§ttre resultat.

L√•t oss bekanta oss med datan!üïµÔ∏è


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Intressant! Det verkar som att den f√∂rsta kolumnen √§r en slags `id`-kolumn. L√•t oss ta reda p√• lite mer information om data.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Fr√•n resultatet kan vi direkt se att vi har `2448` rader och `385` kolumner samt `0` saknade v√§rden. Vi har ocks√• 1 diskret kolumn, *cuisine*.

## √ñvning - l√§ra k√§nna k√∂kstyper

Nu b√∂rjar arbetet bli mer intressant. L√•t oss utforska dataf√∂rdelningen per k√∂kstyp.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Det finns ett begr√§nsat antal k√∂k, men f√∂rdelningen av data √§r oj√§mn. Du kan fixa det! Utforska lite mer innan du g√∂r det.

L√•t oss nu tilldela varje k√∂k till sin egen tibble och ta reda p√• hur mycket data som finns tillg√§ngligt (rader, kolumner) per k√∂k.

> En [tibble](https://tibble.tidyverse.org/) √§r en modern dataram.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Konstverk av @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **√ñvning - Uppt√§cka toppingredienser per k√∂k med hj√§lp av dplyr**

Nu kan du gr√§va djupare i datan och ta reda p√• vilka som √§r de typiska ingredienserna f√∂r varje k√∂k. Du b√∂r rensa bort √•terkommande data som skapar f√∂rvirring mellan k√∂ken, s√• l√•t oss l√§ra oss mer om detta problem.

Skapa en funktion `create_ingredient()` i R som returnerar en ingrediens-dataram. Denna funktion b√∂rjar med att ta bort en oanv√§ndbar kolumn och sortera ingredienser baserat p√• deras antal.

Den grundl√§ggande strukturen f√∂r en funktion i R √§r:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

En enkel introduktion till R-funktioner finns [h√§r](https://skirmer.github.io/presentations/functions_with_r.html#1).

L√•t oss s√§tta ig√•ng! Vi kommer att anv√§nda [dplyr-verb](https://dplyr.tidyverse.org/) som vi har l√§rt oss i v√•ra tidigare lektioner. Som en sammanfattning:

-   `dplyr::select()`: hj√§lper dig att v√§lja vilka **kolumner** du vill beh√•lla eller utesluta.

-   `dplyr::pivot_longer()`: hj√§lper dig att "f√∂rl√§nga" data, vilket √∂kar antalet rader och minskar antalet kolumner.

-   `dplyr::group_by()` och `dplyr::summarise()`: hj√§lper dig att hitta sammanfattande statistik f√∂r olika grupper och presentera dem i en snygg tabell.

-   `dplyr::filter()`: skapar en delm√§ngd av datan som endast inneh√•ller rader som uppfyller dina villkor.

-   `dplyr::mutate()`: hj√§lper dig att skapa eller √§ndra kolumner.

Kolla in denna [*konst*-fyllda learnr-tutorial](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) av Allison Horst, som introducerar n√•gra anv√§ndbara datahanteringsfunktioner i dplyr *(en del av Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Nu kan vi anv√§nda funktionen f√∂r att f√• en uppfattning om de tio mest popul√§ra ingredienserna per k√∂k. L√•t oss testa den med `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

I f√∂reg√•ende avsnitt anv√§nde vi `geom_col()`, l√•t oss se hur du ocks√• kan anv√§nda `geom_bar` f√∂r att skapa stapeldiagram. Anv√§nd `?geom_bar` f√∂r vidare l√§sning.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

L√•t oss g√∂ra samma sak f√∂r de japanska uppgifterna


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Vad s√§gs om de kinesiska k√∂ken?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Slutligen, plotta de koreanska ingredienserna.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Fr√•n datavisualiseringarna kan vi nu ta bort de vanligaste ingredienserna som skapar f√∂rvirring mellan olika k√∂k, med hj√§lp av `dplyr::select()`.

Alla √§lskar ris, vitl√∂k och ingef√§ra!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## F√∂rbehandling av data med recept üë©‚Äçüç≥üë®‚Äçüç≥ - Hantera obalanserad data ‚öñÔ∏è

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Konstverk av @allison_horst</figcaption>

Eftersom den h√§r lektionen handlar om k√∂k, m√•ste vi s√§tta `recept` i r√§tt sammanhang.

Tidymodels erbjuder √§nnu ett smidigt paket: `recipes` - ett paket f√∂r f√∂rbehandling av data.


L√•t oss titta p√• f√∂rdelningen av v√•ra k√∂k igen.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Som du kan se, finns det en ganska oj√§mn f√∂rdelning i antalet k√∂k. Koreanska k√∂k √§r n√§stan tre g√•nger fler √§n thail√§ndska k√∂k. Obalanserad data har ofta negativa effekter p√• modellens prestanda. T√§nk p√• en bin√§r klassificering. Om majoriteten av din data tillh√∂r en klass, kommer en ML-modell att f√∂ruts√§ga den klassen oftare, bara f√∂r att det finns mer data f√∂r den. Att balansera data tar bort snedvridningar och hj√§lper till att eliminera denna obalans. M√•nga modeller presterar b√§st n√§r antalet observationer √§r lika och har d√§rf√∂r sv√•rt med obalanserad data.

Det finns huvudsakligen tv√• s√§tt att hantera obalanserade datas√§tt:

-   l√§gga till observationer till minoritetsklassen: `√ñver-sampling`, t.ex. med hj√§lp av en SMOTE-algoritm

-   ta bort observationer fr√•n majoritetsklassen: `Under-sampling`

L√•t oss nu demonstrera hur man hanterar obalanserade datas√§tt med hj√§lp av ett `recept`. Ett recept kan ses som en ritning som beskriver vilka steg som ska till√§mpas p√• ett datas√§tt f√∂r att g√∂ra det redo f√∂r dataanalys.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

L√•t oss g√• igenom v√•ra f√∂rbehandlingssteg.

-   Anropet till `recipe()` med en formel talar om f√∂r receptet vilka *roller* variablerna har, med hj√§lp av `df_select`-data som referens. Till exempel har kolumnen `cuisine` tilldelats rollen `outcome`, medan resten av kolumnerna har tilldelats rollen `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) skapar en *specifikation* f√∂r ett receptsteg som syntetiskt genererar nya exempel f√∂r minoritetsklassen med hj√§lp av n√§rmaste grannar till dessa fall.

Nu, om vi vill se den f√∂rbehandlade datan, m√•ste vi [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) och [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) v√•rt recept.

`prep()`: uppskattar de n√∂dv√§ndiga parametrarna fr√•n en tr√§ningsupps√§ttning som senare kan till√§mpas p√• andra dataset.

`bake()`: tar ett f√∂rberett recept och till√§mpar operationerna p√• valfritt dataset.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

L√•t oss nu kontrollera f√∂rdelningen av v√•ra k√∂k och j√§mf√∂ra dem med den obalanserade datan.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Mums! Datan √§r ren, balanserad och v√§ldigt l√§cker üòã!

> Vanligtvis anv√§nds ett recept som en f√∂rprocessor f√∂r modellering d√§r det definierar vilka steg som ska till√§mpas p√• en dataset f√∂r att g√∂ra den redo f√∂r modellering. I s√•dana fall anv√§nds vanligtvis en `workflow()` (som vi redan har sett i v√•ra tidigare lektioner) ist√§llet f√∂r att manuellt uppskatta ett recept.
>
> D√§rf√∂r beh√∂ver du vanligtvis inte **`prep()`** och **`bake()`** recept n√§r du anv√§nder tidymodels, men de √§r anv√§ndbara funktioner att ha i din verktygsl√•da f√∂r att bekr√§fta att recepten g√∂r det du f√∂rv√§ntar dig, som i v√•rt fall.
>
> N√§r du **`bake()`** ett f√∂rberett recept med **`new_data = NULL`**, f√•r du tillbaka den data som du angav n√§r du definierade receptet, men som har genomg√•tt f√∂rbearbetningsstegen.

L√•t oss nu spara en kopia av denna data f√∂r anv√§ndning i framtida lektioner:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Denna nya CSV-fil finns nu i rotmappen f√∂r data.

**üöÄUtmaning**

Detta kursmaterial inneh√•ller flera intressanta dataset. G√• igenom `data`-mapparna och se om n√•gon inneh√•ller dataset som skulle passa f√∂r bin√§r eller multi-klassklassificering? Vilka fr√•gor skulle du st√§lla till detta dataset?

## [**Quiz efter f√∂rel√§sningen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Granskning & Sj√§lvstudier**

-   Kolla in [paketet themis](https://github.com/tidymodels/themis). Vilka andra tekniker kan vi anv√§nda f√∂r att hantera obalanserad data?

-   Tidy models [referenswebbplats](https://www.tidymodels.org/start/).

-   H. Wickham och G. Grolemund, [*R f√∂r Data Science: Visualisera, Modellera, Transformera, St√§da och Importera Data*](https://r4ds.had.co.nz/).

#### TACK TILL:

[`Allison Horst`](https://twitter.com/allison_horst/) f√∂r att ha skapat de fantastiska illustrationerna som g√∂r R mer v√§lkomnande och engagerande. Hitta fler illustrationer i hennes [galleri](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) och [Jen Looper](https://www.twitter.com/jenlooper) f√∂r att ha skapat den ursprungliga Python-versionen av denna modul ‚ô•Ô∏è

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Konstverk av @allison_horst</figcaption>



---

**Ansvarsfriskrivning**:  
Detta dokument har √∂versatts med hj√§lp av AI-√∂vers√§ttningstj√§nsten [Co-op Translator](https://github.com/Azure/co-op-translator). √Ñven om vi str√§var efter noggrannhet, v√§nligen notera att automatiska √∂vers√§ttningar kan inneh√•lla fel eller felaktigheter. Det ursprungliga dokumentet p√• dess originalspr√•k b√∂r betraktas som den auktoritativa k√§llan. F√∂r kritisk information rekommenderas professionell m√§nsklig √∂vers√§ttning. Vi ansvarar inte f√∂r eventuella missf√∂rst√•nd eller feltolkningar som uppst√•r vid anv√§ndning av denna √∂vers√§ttning.
