## Introduzione alla classificazione: Pulisci, prepara e visualizza i tuoi dati

In queste quattro lezioni, esplorerai un aspetto fondamentale del machine learning classico: *la classificazione*. Utilizzeremo vari algoritmi di classificazione con un dataset che riguarda tutte le brillanti cucine dell'Asia e dell'India. Speriamo che tu abbia fame!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Festeggia le cucine pan-asiatiche in queste lezioni! Immagine di Jen Looper</figcaption>


<!--![Festeggia le cucine pan-asiatiche in queste lezioni! Immagine di Jen Looper](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.it.png)-->

La classificazione √® una forma di [apprendimento supervisionato](https://wikipedia.org/wiki/Supervised_learning) che ha molto in comune con le tecniche di regressione. Nella classificazione, si addestra un modello per prevedere a quale `categoria` appartiene un elemento. Se il machine learning riguarda la previsione di valori o nomi utilizzando dataset, allora la classificazione si divide generalmente in due gruppi: *classificazione binaria* e *classificazione multiclass*.

Ricorda:

-   **La regressione lineare** ti ha aiutato a prevedere le relazioni tra variabili e a fare previsioni accurate su dove un nuovo punto dati si posizionerebbe rispetto a quella linea. Ad esempio, potresti prevedere valori numerici come *il prezzo di una zucca a settembre rispetto a dicembre*.

-   **La regressione logistica** ti ha aiutato a scoprire "categorie binarie": a questo prezzo, *questa zucca √® arancione o non arancione*?

La classificazione utilizza vari algoritmi per determinare altri modi di assegnare un'etichetta o una classe a un punto dati. Lavoriamo con questi dati sulle cucine per vedere se, osservando un gruppo di ingredienti, possiamo determinare la cucina di origine.

### [**Quiz pre-lezione**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Introduzione**

La classificazione √® una delle attivit√† fondamentali per i ricercatori di machine learning e i data scientist. Dalla classificazione di un valore binario di base ("questa email √® spam o no?") alla classificazione e segmentazione complessa di immagini utilizzando la visione artificiale, √® sempre utile essere in grado di ordinare i dati in classi e porre domande su di essi.

Per esprimere il processo in modo pi√π scientifico, il tuo metodo di classificazione crea un modello predittivo che ti consente di mappare la relazione tra variabili di input e variabili di output.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Problemi binari vs. multiclass per gli algoritmi di classificazione. Infografica di Jen Looper</figcaption>



Prima di iniziare il processo di pulizia dei dati, visualizzarli e prepararli per i nostri compiti di ML, impariamo un po' sui vari modi in cui il machine learning pu√≤ essere utilizzato per classificare i dati.

Derivata dalla [statistica](https://wikipedia.org/wiki/Statistical_classification), la classificazione utilizzando il machine learning classico utilizza caratteristiche come `fumatore`, `peso` e `et√†` per determinare *la probabilit√† di sviluppare X malattia*. Come tecnica di apprendimento supervisionato simile agli esercizi di regressione che hai svolto in precedenza, i tuoi dati sono etichettati e gli algoritmi di ML utilizzano quelle etichette per classificare e prevedere classi (o 'caratteristiche') di un dataset e assegnarle a un gruppo o risultato.

‚úÖ Prenditi un momento per immaginare un dataset sulle cucine. A cosa potrebbe rispondere un modello multiclass? A cosa potrebbe rispondere un modello binario? E se volessi determinare se una determinata cucina √® probabilmente solita utilizzare il fieno greco? E se volessi vedere se, dato un sacchetto di generi alimentari pieno di anice stellato, carciofi, cavolfiori e rafano, potresti creare un tipico piatto indiano?

### **Ciao 'classificatore'**

La domanda che vogliamo porre a questo dataset sulle cucine √® effettivamente una domanda **multiclass**, poich√© abbiamo diverse potenziali cucine nazionali con cui lavorare. Dato un gruppo di ingredienti, a quale di queste molte classi si adatteranno i dati?

Tidymodels offre diversi algoritmi da utilizzare per classificare i dati, a seconda del tipo di problema che vuoi risolvere. Nelle prossime due lezioni, imparerai a conoscere alcuni di questi algoritmi.

#### **Prerequisiti**

Per questa lezione, avremo bisogno dei seguenti pacchetti per pulire, preparare e visualizzare i nostri dati:

-   `tidyverse`: Il [tidyverse](https://www.tidyverse.org/) √® una [collezione di pacchetti R](https://www.tidyverse.org/packages) progettata per rendere la scienza dei dati pi√π veloce, facile e divertente!

-   `tidymodels`: Il [framework tidymodels](https://www.tidymodels.org/) √® una [collezione di pacchetti](https://www.tidymodels.org/packages/) per la modellazione e il machine learning.

-   `DataExplorer`: Il [pacchetto DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) √® pensato per semplificare e automatizzare il processo di EDA e la generazione di report.

-   `themis`: Il [pacchetto themis](https://themis.tidymodels.org/) fornisce passaggi extra per gestire dati sbilanciati.

Puoi installarli con:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

In alternativa, lo script qui sotto verifica se hai i pacchetti necessari per completare questo modulo e li installa per te nel caso in cui manchino.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Caricheremo successivamente questi fantastici pacchetti e li renderemo disponibili nella nostra attuale sessione R. (Questo √® solo a scopo illustrativo, `pacman::p_load()` lo ha gi√† fatto per te)


## Esercizio - pulire e bilanciare i tuoi dati

Il primo compito da svolgere, prima di iniziare questo progetto, √® pulire e **bilanciare** i tuoi dati per ottenere risultati migliori.

Facciamo conoscenza con i dati!üïµÔ∏è


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Interessante! A quanto pare, la prima colonna √® una sorta di colonna `id`. Cerchiamo di ottenere qualche informazione in pi√π sui dati.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Dall'output, possiamo vedere immediatamente che abbiamo `2448` righe e `385` colonne e `0` valori mancanti. Abbiamo anche 1 colonna discreta, *cuisine*.

## Esercizio - conoscere le cucine

Ora il lavoro inizia a diventare pi√π interessante. Scopriamo la distribuzione dei dati, per cucina.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Esistono un numero finito di cucine, ma la distribuzione dei dati √® disomogenea. Puoi risolvere questo problema! Prima di farlo, esplora un po' di pi√π.

Successivamente, assegniamo ogni cucina al proprio tibble e scopriamo quanti dati sono disponibili (righe, colonne) per ciascuna cucina.

> Un [tibble](https://tibble.tidyverse.org/) √® un moderno data frame.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Illustrazione di @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Esercizio - Scoprire gli ingredienti principali per cucina usando dplyr**

Ora puoi approfondire i dati e scoprire quali sono gli ingredienti tipici per ogni cucina. Dovresti eliminare i dati ricorrenti che creano confusione tra le cucine, quindi impariamo a gestire questo problema.

Crea una funzione `create_ingredient()` in R che restituisca un dataframe di ingredienti. Questa funzione inizier√† eliminando una colonna poco utile e ordiner√† gli ingredienti in base al loro conteggio.

La struttura di base di una funzione in R √®:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Una introduzione chiara alle funzioni in R pu√≤ essere trovata [qui](https://skirmer.github.io/presentations/functions_with_r.html#1).

Passiamo subito all'azione! Utilizzeremo i [verbi di dplyr](https://dplyr.tidyverse.org/) che abbiamo imparato nelle lezioni precedenti. Come promemoria:

-   `dplyr::select()`: ti aiuta a scegliere quali **colonne** mantenere o escludere.

-   `dplyr::pivot_longer()`: ti aiuta a "allungare" i dati, aumentando il numero di righe e diminuendo il numero di colonne.

-   `dplyr::group_by()` e `dplyr::summarise()`: ti aiutano a trovare statistiche riassuntive per diversi gruppi e a metterle in una tabella ordinata.

-   `dplyr::filter()`: crea un sottoinsieme dei dati contenente solo le righe che soddisfano le tue condizioni.

-   `dplyr::mutate()`: ti aiuta a creare o modificare colonne.

Dai un'occhiata a questo [tutorial learnr pieno di *arte*](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) di Allison Horst, che introduce alcune funzioni utili per la manipolazione dei dati in dplyr *(parte del Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Ora possiamo usare la funzione per avere un'idea dei dieci ingredienti pi√π popolari per cucina. Proviamola con `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Nella sezione precedente, abbiamo utilizzato `geom_col()`, vediamo come puoi usare anche `geom_bar` per creare grafici a barre. Usa `?geom_bar` per ulteriori letture.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Ecco la traduzione:

# Cosa dire della cucina cinese?

La cucina cinese √® una delle pi√π antiche e variegate al mondo. Con una storia che risale a migliaia di anni fa, offre una vasta gamma di sapori, tecniche di cottura e ingredienti. 

## Regioni principali

La cucina cinese pu√≤ essere suddivisa in diverse regioni principali, ognuna con le proprie caratteristiche uniche:

- **Cucina del Sichuan**: Famosa per il suo sapore piccante e speziato, grazie all'uso del pepe del Sichuan.
- **Cucina cantonese**: Conosciuta per la sua delicatezza e l'uso di ingredienti freschi, spesso cotta al vapore o saltata in padella.
- **Cucina dello Shandong**: Caratterizzata da sapori forti e piatti a base di frutti di mare.
- **Cucina dello Jiangsu**: Celebre per la sua raffinatezza e l'attenzione ai dettagli nella presentazione dei piatti.

## Tecniche di cottura

Alcune delle tecniche di cottura pi√π comuni includono:

- **Saltare in padella**: Una tecnica veloce che preserva il sapore e la consistenza degli ingredienti.
- **Cottura al vapore**: Ideale per mantenere la freschezza e il valore nutrizionale degli alimenti.
- **Brasatura**: Utilizzata per creare piatti ricchi e saporiti.

## Ingredienti tipici

Gli ingredienti comuni nella cucina cinese includono:

- Riso e noodles
- Salsa di soia e olio di sesamo
- Tofu e verdure fresche
- Carne di maiale, pollo e anatra
- Spezie come zenzero, aglio e cipollotti

## Piatti famosi

Alcuni piatti cinesi famosi che potresti aver gi√† provato:

- **Anatra alla pechinese**: Un piatto iconico con pelle croccante e carne succosa.
- **Mapo tofu**: Tofu piccante con carne macinata e salsa speziata.
- **Dim sum**: Piccoli bocconcini serviti in cestini di bamb√π, perfetti per condividere.

La cucina cinese √® un viaggio culinario che vale la pena esplorare!


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Dai visualizzazioni dei dati, possiamo ora eliminare gli ingredienti pi√π comuni che generano confusione tra le diverse cucine, utilizzando `dplyr::select()`.

Tutti amano il riso, l'aglio e lo zenzero!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Pre-elaborazione dei dati usando le ricette üë©‚Äçüç≥üë®‚Äçüç≥ - Gestire i dati sbilanciati ‚öñÔ∏è

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Illustrazione di @allison_horst</figcaption>

Dato che questa lezione riguarda le cucine, dobbiamo contestualizzare le `ricette`.

Tidymodels offre un altro pacchetto interessante: `recipes` - un pacchetto per la pre-elaborazione dei dati.


Diamo un'occhiata di nuovo alla distribuzione delle nostre cucine.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Come puoi vedere, c'√® una distribuzione piuttosto disuguale nel numero di cucine. Le cucine coreane sono quasi 3 volte quelle tailandesi. I dati sbilanciati spesso hanno effetti negativi sulle prestazioni del modello. Pensa a una classificazione binaria. Se la maggior parte dei tuoi dati appartiene a una classe, un modello di machine learning tender√† a prevedere quella classe pi√π frequentemente, semplicemente perch√© ci sono pi√π dati per essa. Bilanciare i dati serve a correggere eventuali squilibri e aiuta a rimuovere questa disuguaglianza. Molti modelli funzionano meglio quando il numero di osservazioni √® uguale e, di conseguenza, tendono a incontrare difficolt√† con dati sbilanciati.

Ci sono principalmente due modi per affrontare set di dati sbilanciati:

-   aggiungere osservazioni alla classe minoritaria: `Over-sampling`, ad esempio utilizzando un algoritmo SMOTE

-   rimuovere osservazioni dalla classe maggioritaria: `Under-sampling`

Ora dimostriamo come affrontare set di dati sbilanciati utilizzando una `ricetta`. Una ricetta pu√≤ essere considerata come un progetto che descrive quali passaggi devono essere applicati a un set di dati per prepararlo all'analisi dei dati.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Analizziamo i nostri passaggi di pre-elaborazione.

-   La chiamata a `recipe()` con una formula indica alla ricetta i *ruoli* delle variabili utilizzando i dati di `df_select` come riferimento. Ad esempio, la colonna `cuisine` √® stata assegnata al ruolo di `outcome`, mentre il resto delle colonne √® stato assegnato al ruolo di `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) crea una *specifica* di un passaggio della ricetta che genera sinteticamente nuovi esempi della classe minoritaria utilizzando i vicini pi√π prossimi di questi casi.

Ora, se volessimo vedere i dati pre-elaborati, dovremmo [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) e [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) la nostra ricetta.

`prep()`: stima i parametri richiesti da un set di addestramento che possono essere successivamente applicati ad altri set di dati.

`bake()`: applica una ricetta pre-elaborata a qualsiasi set di dati.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Ora controlliamo la distribuzione delle nostre cucine e confrontiamola con i dati sbilanciati.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Yum! I dati sono puliti, bilanciati e molto gustosi üòã!

> Normalmente, una ricetta viene solitamente utilizzata come preprocessore per la modellazione, dove definisce quali passaggi devono essere applicati a un set di dati per renderlo pronto per la modellazione. In tal caso, si utilizza tipicamente un `workflow()` (come abbiamo gi√† visto nelle lezioni precedenti) invece di stimare manualmente una ricetta.
>
> Pertanto, di solito non √® necessario **`prep()`** e **`bake()`** le ricette quando si utilizza tidymodels, ma sono funzioni utili da avere nel proprio toolkit per confermare che le ricette stiano facendo ci√≤ che ci si aspetta, come nel nostro caso.
>
> Quando si **`bake()`** una ricetta preparata con **`new_data = NULL`**, si ottengono i dati forniti durante la definizione della ricetta, ma che hanno subito i passaggi di preprocessamento.

Ora salviamo una copia di questi dati per utilizzarli nelle lezioni future:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

Questo nuovo file CSV si trova ora nella cartella principale dei dati.

**üöÄSfida**

Questo curriculum contiene diversi dataset interessanti. Esplora le cartelle `data` e verifica se contengono dataset adatti alla classificazione binaria o multi-classe. Quali domande potresti porre a questo dataset?

## [**Quiz post-lezione**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Revisione e Studio Autonomo**

-   Dai un'occhiata al [pacchetto themis](https://github.com/tidymodels/themis). Quali altre tecniche potremmo utilizzare per gestire dati sbilanciati?

-   Sito di riferimento per i modelli Tidy: [Tidy models](https://www.tidymodels.org/start/).

-   H. Wickham e G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### GRAZIE A:

[`Allison Horst`](https://twitter.com/allison_horst/) per aver creato le straordinarie illustrazioni che rendono R pi√π accogliente e coinvolgente. Trova altre illustrazioni nella sua [galleria](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) e [Jen Looper](https://www.twitter.com/jenlooper) per aver creato la versione originale in Python di questo modulo ‚ô•Ô∏è

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Illustrazione di @allison_horst</figcaption>



---

**Disclaimer**:  
Questo documento √® stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un traduttore umano. Non siamo responsabili per eventuali incomprensioni o interpretazioni errate derivanti dall'uso di questa traduzione.
