# Preparazione dei dati

[Notebook originale tratto da *Data Science: Introduzione al Machine Learning per Data Science Python e Machine Learning Studio di Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Esplorare le informazioni di `DataFrame`

> **Obiettivo di apprendimento:** Alla fine di questa sottosezione, dovresti sentirti a tuo agio nel trovare informazioni generali sui dati memorizzati nei DataFrame di pandas.

Una volta che hai caricato i tuoi dati in pandas, è molto probabile che siano in un `DataFrame`. Tuttavia, se il set di dati nel tuo `DataFrame` ha 60.000 righe e 400 colonne, come puoi iniziare a capire con cosa stai lavorando? Fortunatamente, pandas offre alcuni strumenti pratici per esaminare rapidamente le informazioni generali su un `DataFrame`, oltre alle prime e ultime righe.

Per esplorare questa funzionalità, importeremo la libreria Python scikit-learn e utilizzeremo un dataset iconico che ogni data scientist ha visto centinaia di volte: il set di dati *Iris* del biologo britannico Ronald Fisher, utilizzato nel suo articolo del 1936 "L'uso di misurazioni multiple nei problemi tassonomici":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Abbiamo caricato il dataset Iris nella variabile `iris_df`. Prima di analizzare i dati, sarebbe utile sapere quanti punti dati abbiamo e la dimensione complessiva del dataset. È importante avere un'idea del volume di dati con cui stiamo lavorando.


In [2]:
iris_df.shape

(150, 4)

Quindi, stiamo lavorando con 150 righe e 4 colonne di dati. Ogni riga rappresenta un singolo punto dati e ogni colonna rappresenta una singola caratteristica associata al dataframe. In pratica, ci sono 150 punti dati, ognuno dei quali contiene 4 caratteristiche.

`shape` qui è un attributo del dataframe e non una funzione, motivo per cui non termina con una coppia di parentesi.


### `DataFrame.columns`
Passiamo ora alle 4 colonne di dati. Cosa rappresenta esattamente ciascuna di esse? L'attributo `columns` ci fornirà i nomi delle colonne nel dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Come possiamo vedere, ci sono quattro(4) colonne. L'attributo `columns` ci indica il nome delle colonne e fondamentalmente nient'altro. Questo attributo assume importanza quando vogliamo identificare le caratteristiche contenute in un dataset.


### `DataFrame.info`
La quantità di dati (fornita dall'attributo `shape`) e il nome delle caratteristiche o colonne (fornito dall'attributo `columns`) ci danno alcune informazioni sul dataset. Ora, vorremmo approfondire ulteriormente il dataset. La funzione `DataFrame.info()` è molto utile a questo scopo.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Da qui possiamo fare alcune osservazioni:  
1. Il tipo di dato di ogni colonna: In questo dataset, tutti i dati sono memorizzati come numeri in virgola mobile a 64 bit.  
2. Numero di valori non nulli: Gestire i valori nulli è un passaggio importante nella preparazione dei dati. Questo verrà affrontato più avanti nel notebook.  


### DataFrame.describe()
Supponiamo di avere molti dati numerici nel nostro dataset. Calcoli statistici univariati come la media, la mediana, i quartili, ecc. possono essere effettuati su ciascuna colonna individualmente. La funzione `DataFrame.describe()` ci fornisce un riepilogo statistico delle colonne numeriche di un dataset.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


L'output sopra mostra il numero totale di punti dati, la media, la deviazione standard, il minimo, il quartile inferiore (25%), la mediana (50%), il quartile superiore (75%) e il valore massimo di ciascuna colonna.


### `DataFrame.head`
Con tutte le funzioni e gli attributi sopra menzionati, abbiamo ottenuto una visione generale del dataset. Sappiamo quanti punti dati ci sono, quante caratteristiche ci sono, il tipo di dato di ciascuna caratteristica e il numero di valori non nulli per ciascuna caratteristica.

Ora è il momento di osservare i dati stessi. Vediamo come appaiono le prime righe (i primi punti dati) del nostro `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Come output qui, possiamo vedere cinque (5) voci del dataset. Se guardiamo l'indice a sinistra, scopriamo che queste sono le prime cinque righe.


### Esercizio:

Dall'esempio fornito sopra, è chiaro che, per impostazione predefinita, `DataFrame.head` restituisce le prime cinque righe di un `DataFrame`. Nella cella di codice qui sotto, riesci a trovare un modo per visualizzare più di cinque righe?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Un altro modo di osservare i dati può essere dalla fine (anziché dall'inizio). L'opposto di `DataFrame.head` è `DataFrame.tail`, che restituisce le ultime cinque righe di un `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


In pratica, è utile poter esaminare facilmente le prime righe o le ultime righe di un `DataFrame`, soprattutto quando si cercano valori anomali in dataset ordinati.

Tutte le funzioni e gli attributi mostrati sopra con l'aiuto di esempi di codice ci aiutano a ottenere una visione d'insieme dei dati.

> **Conclusione:** Anche solo osservando i metadati relativi alle informazioni in un DataFrame o i primi e ultimi valori in esso, puoi farti un'idea immediata della dimensione, forma e contenuto dei dati con cui stai lavorando.


### Dati Mancanti
Esploriamo i dati mancanti. I dati mancanti si verificano quando non viene memorizzato alcun valore in alcune colonne.

Prendiamo un esempio: supponiamo che qualcuno sia molto attento al proprio peso e non compili il campo relativo al peso in un sondaggio. In questo caso, il valore del peso per quella persona sarà mancante.

Nella maggior parte dei casi, nei dataset del mondo reale, si verificano valori mancanti.

**Come Pandas gestisce i dati mancanti**

Pandas gestisce i valori mancanti in due modi. Il primo, che hai già visto nelle sezioni precedenti, è `NaN`, ovvero Not a Number. Questo è in realtà un valore speciale che fa parte della specifica IEEE per i numeri in virgola mobile ed è utilizzato esclusivamente per indicare valori mancanti in virgola mobile.

Per i valori mancanti diversi dai numeri in virgola mobile, pandas utilizza l'oggetto `None` di Python. Anche se potrebbe sembrare confuso incontrare due tipi diversi di valori che indicano essenzialmente la stessa cosa, ci sono valide ragioni programmatiche per questa scelta progettuale e, in pratica, questa soluzione consente a pandas di offrire un buon compromesso nella stragrande maggioranza dei casi. Detto ciò, sia `None` che `NaN` presentano delle limitazioni di cui devi essere consapevole riguardo al modo in cui possono essere utilizzati.


### `None`: dati mancanti non di tipo float
Poiché `None` proviene da Python, non può essere utilizzato in array di NumPy e pandas che non hanno il tipo di dato `'object'`. Ricorda che gli array di NumPy (e le strutture dati in pandas) possono contenere solo un tipo di dato. Questo è ciò che conferisce loro un'enorme potenza per il lavoro su larga scala con dati e calcoli, ma limita anche la loro flessibilità. Tali array devono essere convertiti al "denominatore comune più basso", ovvero il tipo di dato che può includere tutto ciò che si trova nell'array. Quando `None` è presente nell'array, significa che stai lavorando con oggetti Python.

Per vedere questo in pratica, considera il seguente esempio di array (nota il `dtype` associato):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

La realtà dei tipi di dati promossi comporta due effetti collaterali. Primo, le operazioni verranno eseguite a livello di codice Python interpretato piuttosto che di codice NumPy compilato. In sostanza, ciò significa che qualsiasi operazione che coinvolga `Series` o `DataFrame` contenenti `None` sarà più lenta. Anche se probabilmente non noteresti questo calo di prestazioni, per dataset di grandi dimensioni potrebbe diventare un problema.

Il secondo effetto collaterale deriva dal primo. Poiché `None` essenzialmente riporta `Series` o `DataFrame` nel mondo del Python standard, l'uso di aggregazioni NumPy/pandas come `sum()` o `min()` su array che contengono un valore ``None`` generalmente produrrà un errore:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: valori float mancanti

A differenza di `None`, NumPy (e quindi pandas) supporta `NaN` per le sue operazioni veloci, vettoriali e ufunc. La cattiva notizia è che qualsiasi operazione aritmetica eseguita su `NaN` restituisce sempre `NaN`. Ad esempio:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

La buona notizia: le aggregazioni eseguite su array con `NaN` al loro interno non generano errori. La cattiva notizia: i risultati non sono uniformemente utili:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` e `None`: valori nulli in pandas

Anche se `NaN` e `None` possono comportarsi in modo leggermente diverso, pandas è comunque progettato per gestirli in modo intercambiabile. Per capire cosa intendiamo, considera una `Series` di numeri interi:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Nel processo di conversione dei tipi di dati per stabilire l'omogeneità nei `Series` e nei `DataFrame`, pandas passerà volentieri i valori mancanti tra `None` e `NaN`. A causa di questa caratteristica progettuale, può essere utile pensare a `None` e `NaN` come due diverse varianti di "null" in pandas. Infatti, alcuni dei metodi principali che utilizzerai per gestire i valori mancanti in pandas riflettono questa idea nei loro nomi:

- `isnull()`: Genera una maschera booleana che indica i valori mancanti
- `notnull()`: Opposto di `isnull()`
- `dropna()`: Restituisce una versione filtrata dei dati
- `fillna()`: Restituisce una copia dei dati con i valori mancanti riempiti o imputati

Questi sono metodi importanti da padroneggiare e con cui familiarizzare, quindi esaminiamoli ciascuno in dettaglio.


### Rilevare i valori nulli

Ora che abbiamo compreso l'importanza dei valori mancanti, dobbiamo rilevarli nel nostro dataset prima di gestirli.  
Sia `isnull()` che `notnull()` sono i tuoi metodi principali per individuare i dati nulli. Entrambi restituiscono maschere booleane sui tuoi dati.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Osserva attentamente il risultato. C'è qualcosa che ti sorprende? Sebbene `0` sia un valore nullo dal punto di vista aritmetico, è comunque un intero valido e pandas lo tratta come tale. `''` è un po' più sottile. Anche se lo abbiamo usato nella Sezione 1 per rappresentare un valore di stringa vuota, è comunque un oggetto stringa e non una rappresentazione di null secondo pandas.

Ora, invertiamo la prospettiva e utilizziamo questi metodi in un modo più simile a quello che useresti nella pratica. Puoi utilizzare le maschere booleane direttamente come indice di una ``Series`` o di un ``DataFrame``, il che può essere utile quando si cerca di lavorare con valori mancanti (o presenti) isolati.

Se vogliamo il numero totale di valori mancanti, possiamo semplicemente fare una somma sulla maschera prodotta dal metodo `isnull()`.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Conclusione principale**: Sia il metodo `isnull()` che il metodo `notnull()` producono risultati simili quando li usi nei DataFrame: mostrano i risultati e l'indice di quei risultati, il che ti aiuterà enormemente mentre lavori con i tuoi dati.


### Gestire i dati mancanti

> **Obiettivo di apprendimento:** Alla fine di questa sottosezione, dovresti sapere come e quando sostituire o rimuovere i valori nulli dai DataFrame.

I modelli di Machine Learning non possono gestire direttamente i dati mancanti. Pertanto, prima di passare i dati al modello, è necessario affrontare questi valori mancanti.

Il modo in cui si gestiscono i dati mancanti comporta compromessi sottili, che possono influenzare la tua analisi finale e i risultati nel mondo reale.

Ci sono principalmente due modi per gestire i dati mancanti:

1.   Eliminare la riga che contiene il valore mancante  
2.   Sostituire il valore mancante con un altro valore  

Discuteremo entrambi questi metodi e i loro pro e contro in dettaglio.


### Eliminazione dei valori nulli

La quantità di dati che passiamo al nostro modello ha un effetto diretto sulle sue prestazioni. Eliminare i valori nulli significa ridurre il numero di punti dati e, di conseguenza, diminuire la dimensione del dataset. Pertanto, è consigliabile eliminare le righe con valori nulli quando il dataset è piuttosto grande.

Un altro caso potrebbe essere che una certa riga o colonna abbia molti valori mancanti. In tal caso, potrebbero essere eliminate perché non aggiungerebbero molto valore alla nostra analisi, dato che la maggior parte dei dati è mancante per quella riga/colonna.

Oltre a identificare i valori mancanti, pandas offre un metodo pratico per rimuovere i valori nulli da `Series` e `DataFrame`. Per vedere questo in azione, torniamo a `example3`. La funzione `DataFrame.dropna()` aiuta a eliminare le righe con valori nulli.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Nota che questo dovrebbe apparire come il tuo output da `example3[example3.notnull()]`. La differenza qui è che, invece di indicizzare solo i valori mascherati, `dropna` ha rimosso quei valori mancanti dalla `Series` `example3`.

Poiché i DataFrame hanno due dimensioni, offrono più opzioni per eliminare i dati.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Ti sei accorto che pandas ha convertito due delle colonne in float per gestire i `NaN`?)

Non puoi eliminare un singolo valore da un `DataFrame`, quindi devi eliminare intere righe o colonne. A seconda di ciò che stai facendo, potresti voler fare una cosa o l'altra, e quindi pandas ti offre opzioni per entrambe. Poiché nella scienza dei dati le colonne generalmente rappresentano variabili e le righe rappresentano osservazioni, è più probabile che tu voglia eliminare righe di dati; l'impostazione predefinita per `dropna()` è quella di eliminare tutte le righe che contengono valori nulli:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Se necessario, puoi eliminare i valori NA dalle colonne. Usa `axis=1` per farlo:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Tieni presente che questo può eliminare molti dati che potresti voler conservare, specialmente nei dataset più piccoli. E se volessi eliminare solo le righe o le colonne che contengono diversi o addirittura tutti i valori nulli? Puoi specificare queste impostazioni in `dropna` utilizzando i parametri `how` e `thresh`.

Per impostazione predefinita, `how='any'` (se vuoi verificare di persona o vedere quali altri parametri ha il metodo, esegui `example4.dropna?` in una cella di codice). In alternativa, potresti specificare `how='all'` per eliminare solo le righe o le colonne che contengono tutti valori nulli. Espandiamo il nostro esempio di `DataFrame` per vedere questo in azione nel prossimo esercizio.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Punti chiave:  
1. Eliminare i valori nulli è una buona idea solo se il dataset è abbastanza grande.  
2. Intere righe o colonne possono essere eliminate se la maggior parte dei loro dati è mancante.  
3. Il metodo `DataFrame.dropna(axis=)` aiuta a eliminare i valori nulli. L'argomento `axis` indica se eliminare righe o colonne.  
4. Si può anche utilizzare l'argomento `how`. Per impostazione predefinita è impostato su `any`. Quindi, elimina solo quelle righe/colonne che contengono qualsiasi valore nullo. Può essere impostato su `all` per specificare che elimineremo solo quelle righe/colonne in cui tutti i valori sono nulli.  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Il parametro `thresh` ti offre un controllo più dettagliato: imposti il numero di valori *non nulli* che una riga o una colonna deve avere per essere mantenuta:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### Compilare i valori nulli

A volte ha senso riempire i valori mancanti con quelli che potrebbero essere validi. Esistono alcune tecniche per riempire i valori nulli. La prima consiste nell'utilizzare la Conoscenza del Dominio (conoscenza dell'argomento su cui si basa il dataset) per approssimare in qualche modo i valori mancanti.

Puoi utilizzare `isnull` per farlo direttamente, ma questo può essere faticoso, soprattutto se hai molti valori da riempire. Poiché questa è un'operazione molto comune in data science, pandas fornisce `fillna`, che restituisce una copia della `Series` o del `DataFrame` con i valori mancanti sostituiti con uno a tua scelta. Creiamo un altro esempio di `Series` per vedere come funziona in pratica.


### Dati Categoriali (Non-numerici)
Per prima cosa consideriamo i dati non numerici. Nei dataset, abbiamo colonne con dati categoriali. Ad esempio, Genere, Vero o Falso, ecc.

Nella maggior parte di questi casi, sostituiamo i valori mancanti con la `moda` della colonna. Supponiamo di avere 100 punti dati, 90 hanno indicato Vero, 8 hanno indicato Falso e 2 non hanno risposto. In questo caso, possiamo riempire i 2 valori mancanti con Vero, considerando l'intera colonna.

Anche qui possiamo utilizzare la conoscenza del dominio. Consideriamo un esempio di riempimento con la moda.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


### Dati Numerici
Ora, passiamo ai dati numerici. Qui abbiamo due modi comuni per sostituire i valori mancanti:

1. Sostituire con la mediana della riga  
2. Sostituire con la media della riga  

Sostituiamo con la mediana nel caso di dati asimmetrici con valori anomali. Questo perché la mediana è robusta rispetto ai valori anomali.

Quando i dati sono normalizzati, possiamo utilizzare la media, poiché in quel caso media e mediana sarebbero abbastanza vicine.

Per prima cosa, prendiamo una colonna che segue una distribuzione normale e riempiamo il valore mancante con la media della colonna.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


La media della colonna è


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Ora proviamo un altro dataframe, e questa volta sostituiremo i valori None con la mediana della colonna.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


La mediana della seconda colonna è


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Come possiamo vedere, il valore NaN è stato sostituito dalla mediana della colonna


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Puoi riempire tutte le voci nulle con un unico valore, come `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Punti chiave:
1. Riempire i valori mancanti dovrebbe essere fatto solo quando ci sono pochi dati o quando esiste una strategia per colmare i dati mancanti.
2. La conoscenza del dominio può essere utilizzata per stimare e riempire i valori mancanti.
3. Per i dati categorici, spesso i valori mancanti vengono sostituiti con la moda della colonna.
4. Per i dati numerici, i valori mancanti vengono solitamente riempiti con la media (per dataset normalizzati) o con la mediana delle colonne.


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Puoi anche **riempire all'indietro** per propagare il prossimo valore valido all'indietro per riempire un null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Come potresti immaginare, questo funziona allo stesso modo con i DataFrame, ma puoi anche specificare un `axis` lungo il quale riempire i valori nulli:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Puoi essere creativo su come utilizzare `fillna`. Ad esempio, diamo un'occhiata di nuovo a `example4`, ma questa volta riempiamo i valori mancanti con la media di tutti i valori nel `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Nota che la colonna 3 è ancora priva di valori: la direzione predefinita è quella di riempire i valori riga per riga.

> **Conclusione:** Esistono diversi modi per gestire i valori mancanti nei tuoi dataset. La strategia specifica che utilizzi (rimuoverli, sostituirli o anche il modo in cui li sostituisci) dovrebbe essere determinata dalle particolarità di quei dati. Acquisirai una maggiore consapevolezza su come affrontare i valori mancanti man mano che gestirai e interagirai con i dataset.


### Codifica dei Dati Categoriali

I modelli di machine learning lavorano esclusivamente con numeri e qualsiasi tipo di dato numerico. Non sono in grado di distinguere tra un Sì e un No, ma possono differenziare tra 0 e 1. Quindi, dopo aver riempito i valori mancanti, è necessario codificare i dati categoriali in una forma numerica affinché il modello possa comprenderli.

La codifica può essere effettuata in due modi. Li discuteremo di seguito.


**CODIFICA DELLE ETICHETTE**

La codifica delle etichette consiste fondamentalmente nel convertire ogni categoria in un numero. Ad esempio, supponiamo di avere un dataset di passeggeri di una compagnia aerea e che ci sia una colonna che contiene la loro classe tra le seguenti ['business class', 'economy class', 'first class']. Se viene applicata la codifica delle etichette, questa verrebbe trasformata in [0,1,2]. Vediamo un esempio tramite codice. Poiché impareremo a utilizzare `scikit-learn` nei prossimi notebook, non lo useremo qui.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Per eseguire la codifica delle etichette sulla prima colonna, dobbiamo prima descrivere una mappatura da ogni classe a un numero, prima di sostituire


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Come possiamo vedere, il risultato corrisponde a ciò che ci aspettavamo. Quindi, quando si utilizza l'encoding delle etichette? L'encoding delle etichette viene utilizzato in uno o entrambi i seguenti casi:  
1. Quando il numero di categorie è elevato  
2. Quando le categorie sono ordinate.  


**ONE HOT ENCODING**

Un altro tipo di codifica è la One Hot Encoding. In questo tipo di codifica, ogni categoria della colonna viene aggiunta come una colonna separata e ogni punto dati riceverà uno 0 o un 1 in base al fatto che contenga o meno quella categoria. Quindi, se ci sono n categorie diverse, n colonne verranno aggiunte al dataframe.

Ad esempio, prendiamo lo stesso esempio della classe dell'aeroplano. Le categorie erano: ['business class', 'economy class', 'first class']. Quindi, se eseguiamo la One Hot Encoding, le seguenti tre colonne verranno aggiunte al dataset: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Eseguiamo la codifica one-hot sulla prima colonna


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Ogni colonna codificata one-hot contiene 0 o 1, che specifica se quella categoria esiste per quel punto dati.


Quando utilizziamo la codifica one hot? La codifica one hot viene utilizzata in uno o entrambi i seguenti casi:

1. Quando il numero di categorie e la dimensione del dataset sono ridotti.
2. Quando le categorie non seguono un ordine particolare.


> Punti chiave:
1. La codifica viene utilizzata per convertire dati non numerici in dati numerici.
2. Esistono due tipi di codifica: codifica delle etichette e codifica One Hot, entrambe possono essere eseguite in base alle esigenze del dataset.


## Rimozione dei dati duplicati

> **Obiettivo di apprendimento:** Alla fine di questa sottosezione, dovresti sentirti a tuo agio nell'identificare e rimuovere valori duplicati dai DataFrame.

Oltre ai dati mancanti, nei dataset reali ti capiterà spesso di incontrare dati duplicati. Fortunatamente, pandas offre un metodo semplice per rilevare e rimuovere le voci duplicate.


### Identificare duplicati: `duplicated`

Puoi individuare facilmente i valori duplicati utilizzando il metodo `duplicated` in pandas, che restituisce una maschera booleana indicando se un elemento in un `DataFrame` è un duplicato di uno precedente. Creiamo un altro esempio di `DataFrame` per vedere questo in azione.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Eliminare duplicati: `drop_duplicates`
`drop_duplicates` restituisce semplicemente una copia dei dati per i quali tutti i valori `duplicated` sono `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Sia `duplicated` che `drop_duplicates` considerano per default tutte le colonne, ma puoi specificare che esaminino solo un sottoinsieme di colonne nel tuo `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Disclaimer (Avvertenza)**:  
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di tenere presente che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un traduttore umano. Non siamo responsabili per eventuali malintesi o interpretazioni errate derivanti dall'uso di questa traduzione.
