# Préparation des données

[Source originale du notebook tirée de *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio par Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Explorer les informations d'un `DataFrame`

> **Objectif d'apprentissage :** À la fin de cette sous-section, vous devriez être à l'aise pour trouver des informations générales sur les données stockées dans les DataFrames de pandas.

Une fois vos données chargées dans pandas, elles seront très probablement sous forme de `DataFrame`. Cependant, si le jeu de données dans votre `DataFrame` contient 60 000 lignes et 400 colonnes, comment commencer à comprendre ce avec quoi vous travaillez ? Heureusement, pandas offre des outils pratiques pour examiner rapidement les informations générales d'un `DataFrame`, ainsi que les premières et dernières lignes.

Pour explorer cette fonctionnalité, nous allons importer la bibliothèque Python scikit-learn et utiliser un jeu de données emblématique que tous les data scientists ont vu des centaines de fois : le jeu de données *Iris* du biologiste britannique Ronald Fisher, utilisé dans son article de 1936 "The use of multiple measurements in taxonomic problems".


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Nous avons chargé le jeu de données Iris dans la variable `iris_df`. Avant d'explorer les données, il serait utile de connaître le nombre de points de données que nous avons ainsi que la taille globale du jeu de données. Il est important d'avoir une idée du volume de données avec lequel nous travaillons.


In [2]:
iris_df.shape

(150, 4)

Nous avons donc 150 lignes et 4 colonnes de données. Chaque ligne représente un point de données et chaque colonne représente une seule caractéristique associée au tableau de données. En gros, il y a 150 points de données contenant chacun 4 caractéristiques.

`shape` ici est un attribut du tableau de données et non une fonction, c'est pourquoi il ne se termine pas par une paire de parenthèses.


### `DataFrame.columns`
Passons maintenant aux 4 colonnes de données. Que représente exactement chacune d'elles ? L'attribut `columns` nous donnera le nom des colonnes dans le dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Comme nous pouvons le voir, il y a quatre (4) colonnes. L'attribut `columns` nous indique le nom des colonnes et essentiellement rien d'autre. Cet attribut prend de l'importance lorsque nous voulons identifier les caractéristiques qu'un ensemble de données contient.


### `DataFrame.info`
La quantité de données (donnée par l'attribut `shape`) et le nom des caractéristiques ou colonnes (donné par l'attribut `columns`) nous donnent des informations sur le jeu de données. Maintenant, nous souhaitons explorer le jeu de données plus en profondeur. La fonction `DataFrame.info()` est très utile pour cela.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


À partir de là, nous pouvons faire quelques observations :  
1. Le type de données de chaque colonne : Dans ce jeu de données, toutes les données sont stockées sous forme de nombres à virgule flottante 64 bits.  
2. Nombre de valeurs non nulles : Gérer les valeurs nulles est une étape importante dans la préparation des données. Cela sera traité plus tard dans le notebook.  


### DataFrame.describe()
Supposons que nous ayons beaucoup de données numériques dans notre ensemble de données. Des calculs statistiques univariés tels que la moyenne, la médiane, les quartiles, etc., peuvent être effectués sur chacune des colonnes individuellement. La fonction `DataFrame.describe()` nous fournit un résumé statistique des colonnes numériques d'un ensemble de données.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Le résultat ci-dessus montre le nombre total de points de données, la moyenne, l'écart type, le minimum, le premier quartile (25 %), la médiane (50 %), le troisième quartile (75 %) et la valeur maximale de chaque colonne.


### `DataFrame.head`
Avec toutes les fonctions et attributs mentionnés ci-dessus, nous avons obtenu une vue d'ensemble du jeu de données. Nous savons combien de points de données il y a, combien de caractéristiques sont présentes, le type de données de chaque caractéristique et le nombre de valeurs non nulles pour chaque caractéristique.

Il est maintenant temps de regarder les données elles-mêmes. Voyons à quoi ressemblent les premières lignes (les premiers points de données) de notre `DataFrame` :


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


En tant que résultat ici, nous pouvons voir cinq (5) entrées du jeu de données. Si nous regardons l'index à gauche, nous découvrons que ce sont les cinq premières lignes.


### Exercice :

D'après l'exemple donné ci-dessus, il est évident que, par défaut, `DataFrame.head` retourne les cinq premières lignes d'un `DataFrame`. Dans la cellule de code ci-dessous, pouvez-vous trouver un moyen d'afficher plus de cinq lignes ?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Une autre façon d'examiner les données peut être à partir de la fin (au lieu du début). L'opposé de `DataFrame.head` est `DataFrame.tail`, qui renvoie les cinq dernières lignes d'un `DataFrame` :


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


En pratique, il est utile de pouvoir examiner facilement les premières lignes ou les dernières lignes d'un `DataFrame`, en particulier lorsque vous recherchez des valeurs aberrantes dans des ensembles de données ordonnés.

Toutes les fonctions et attributs présentés ci-dessus à l'aide d'exemples de code nous aident à avoir un aperçu et une idée des données.

> **À retenir :** Rien qu'en regardant les métadonnées sur les informations contenues dans un DataFrame ou les premières et dernières valeurs de celui-ci, vous pouvez obtenir une idée immédiate de la taille, de la forme et du contenu des données avec lesquelles vous travaillez.


### Données Manquantes
Plongeons dans le sujet des données manquantes. Les données manquantes surviennent lorsqu'aucune valeur n'est enregistrée dans certaines colonnes.

Prenons un exemple : supposons qu'une personne soucieuse de son poids ne remplisse pas le champ "poids" dans un sondage. Dans ce cas, la valeur du poids pour cette personne sera manquante.

La plupart du temps, dans les ensembles de données du monde réel, des valeurs manquantes apparaissent.

**Comment Pandas gère les données manquantes**

Pandas gère les valeurs manquantes de deux manières. La première, que vous avez déjà vue dans les sections précédentes, est `NaN`, ou Not a Number. Il s'agit en réalité d'une valeur spéciale faisant partie de la spécification IEEE des nombres à virgule flottante, et elle est uniquement utilisée pour indiquer des valeurs flottantes manquantes.

Pour les valeurs manquantes autres que les nombres flottants, pandas utilise l'objet Python `None`. Bien qu'il puisse sembler déroutant de rencontrer deux types de valeurs différentes qui expriment essentiellement la même chose, il existe des raisons programmatiques solides derrière ce choix de conception. En pratique, cette approche permet à pandas d'offrir un bon compromis dans la grande majorité des cas. Cela dit, `None` et `NaN` comportent tous deux des restrictions dont vous devez être conscient en ce qui concerne leur utilisation.


### `None` : données manquantes non flottantes
Étant donné que `None` provient de Python, il ne peut pas être utilisé dans les tableaux NumPy et pandas qui ne sont pas de type de données `'object'`. Rappelez-vous, les tableaux NumPy (et les structures de données dans pandas) ne peuvent contenir qu'un seul type de données. C'est ce qui leur confère leur immense puissance pour le traitement de données à grande échelle et les calculs, mais cela limite également leur flexibilité. Ces tableaux doivent être convertis au "plus petit dénominateur commun", c'est-à-dire le type de données qui peut englober tout le contenu du tableau. Lorsque `None` est présent dans le tableau, cela signifie que vous travaillez avec des objets Python.

Pour voir cela en pratique, considérez l'exemple de tableau suivant (notez le `dtype` associé) :


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

La réalité des types de données promus entraîne deux conséquences. Premièrement, les opérations seront effectuées au niveau du code Python interprété plutôt que du code NumPy compilé. En d'autres termes, cela signifie que toute opération impliquant des `Series` ou des `DataFrames` contenant `None` sera plus lente. Bien que vous ne remarquiez probablement pas cet impact sur les performances, cela pourrait devenir problématique pour des ensembles de données volumineux.

La deuxième conséquence découle de la première. Étant donné que `None` ramène essentiellement les `Series` ou les `DataFrames` dans le monde du Python classique, l'utilisation d'agrégations NumPy/pandas comme `sum()` ou `min()` sur des tableaux contenant une valeur ``None`` produira généralement une erreur :


In [10]:
example1.sum()

TypeError: ignored

**Conclusion clé** : L'addition (et d'autres opérations) entre des entiers et des valeurs `None` est indéfinie, ce qui peut limiter ce que vous pouvez faire avec des ensembles de données qui en contiennent.


### `NaN` : valeurs flottantes manquantes

Contrairement à `None`, NumPy (et donc pandas) prend en charge `NaN` pour ses opérations vectorisées rapides et ses ufuncs. La mauvaise nouvelle est que toute opération arithmétique effectuée sur `NaN` donne toujours `NaN`. Par exemple :


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

La bonne nouvelle : les agrégations exécutées sur des tableaux contenant `NaN` ne génèrent pas d'erreurs. La mauvaise nouvelle : les résultats ne sont pas uniformément utiles :


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Exercice :


In [11]:
# What happens if you add np.nan and None together?


Rappelez-vous : `NaN` est uniquement destiné aux valeurs flottantes manquantes ; il n'existe pas d'équivalent `NaN` pour les entiers, les chaînes ou les booléens.


### `NaN` et `None` : valeurs nulles dans pandas

Bien que `NaN` et `None` puissent se comporter légèrement différemment, pandas est conçu pour les traiter de manière interchangeable. Pour comprendre ce que cela signifie, prenons une `Series` d'entiers :


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Exercice :


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Dans le processus de conversion des types de données pour établir une homogénéité des données dans les `Series` et les `DataFrame`s, pandas peut facilement basculer entre les valeurs manquantes `None` et `NaN`. En raison de cette caractéristique de conception, il peut être utile de considérer `None` et `NaN` comme deux variantes différentes de "null" dans pandas. En effet, certains des principaux outils que vous utiliserez pour gérer les valeurs manquantes dans pandas reflètent cette idée dans leurs noms :

- `isnull()`: Génère un masque booléen indiquant les valeurs manquantes
- `notnull()`: Opposé de `isnull()`
- `dropna()`: Renvoie une version filtrée des données
- `fillna()`: Renvoie une copie des données avec les valeurs manquantes remplies ou imputées

Ce sont des méthodes importantes à maîtriser et avec lesquelles il est essentiel de se familiariser, alors examinons chacune d'elles en détail.


### Détection des valeurs nulles

Maintenant que nous avons compris l'importance des valeurs manquantes, nous devons les détecter dans notre ensemble de données avant de les traiter.  
Les méthodes `isnull()` et `notnull()` sont vos outils principaux pour détecter les données nulles. Elles renvoient toutes deux des masques booléens sur vos données.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Regardez attentivement le contenu. Y a-t-il quelque chose qui vous surprend ? Bien que `0` soit un nul arithmétique, c'est néanmoins un entier tout à fait valide, et pandas le traite comme tel. `''` est un peu plus subtil. Bien que nous l'ayons utilisé dans la Section 1 pour représenter une valeur de chaîne vide, c'est néanmoins un objet de type chaîne et non une représentation de nul du point de vue de pandas.

Maintenant, retournons la situation et utilisons ces méthodes d'une manière plus proche de leur utilisation en pratique. Vous pouvez utiliser des masques booléens directement comme index d'une ``Series`` ou d'un ``DataFrame``, ce qui peut être utile lorsque vous essayez de travailler avec des valeurs manquantes (ou présentes) isolées.

Si nous voulons le nombre total de valeurs manquantes, nous pouvons simplement effectuer une somme sur le masque produit par la méthode `isnull()`.


In [19]:
example3.isnull().sum()

2

### Exercice :


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Conclusion clé** : Les méthodes `isnull()` et `notnull()` produisent des résultats similaires lorsque vous les utilisez dans des DataFrames : elles affichent les résultats et l'index de ces résultats, ce qui vous aidera énormément lorsque vous travaillez avec vos données.


### Gestion des données manquantes

> **Objectif d'apprentissage :** À la fin de cette sous-section, vous devriez savoir comment et quand remplacer ou supprimer les valeurs nulles dans les DataFrames.

Les modèles de Machine Learning ne peuvent pas gérer eux-mêmes les données manquantes. Ainsi, avant de transmettre les données au modèle, nous devons traiter ces valeurs manquantes.

La manière dont les données manquantes sont traitées implique des compromis subtils, pouvant influencer votre analyse finale et les résultats dans le monde réel.

Il existe principalement deux façons de gérer les données manquantes :

1.   Supprimer la ligne contenant la valeur manquante
2.   Remplacer la valeur manquante par une autre valeur

Nous discuterons en détail de ces deux méthodes ainsi que de leurs avantages et inconvénients.


### Suppression des valeurs nulles

La quantité de données que nous transmettons à notre modèle a un impact direct sur ses performances. Supprimer les valeurs nulles signifie que nous réduisons le nombre de points de données, et donc la taille de l'ensemble de données. Il est donc conseillé de supprimer les lignes contenant des valeurs nulles lorsque l'ensemble de données est assez volumineux.

Un autre cas pourrait être qu'une certaine ligne ou colonne contient beaucoup de valeurs manquantes. Dans ce cas, elles peuvent être supprimées, car elles n'apporteraient pas beaucoup de valeur à notre analyse étant donné que la majorité des données de cette ligne/colonne est manquante.

Au-delà de l'identification des valeurs manquantes, pandas offre un moyen pratique de supprimer les valeurs nulles des `Series` et des `DataFrame`. Pour voir cela en pratique, revenons à `example3`. La fonction `DataFrame.dropna()` permet de supprimer les lignes contenant des valeurs nulles.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Notez que cela devrait ressembler à votre résultat de `example3[example3.notnull()]`. La différence ici est que, au lieu de simplement indexer les valeurs masquées, `dropna` a supprimé ces valeurs manquantes de la `Series` `example3`.

Étant donné que les DataFrames ont deux dimensions, ils offrent davantage d'options pour supprimer des données.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Avez-vous remarqué que pandas a converti deux des colonnes en flottants pour gérer les `NaN` ?)

Vous ne pouvez pas supprimer une seule valeur d'un `DataFrame`, vous devez donc supprimer des lignes ou des colonnes entières. Selon ce que vous faites, vous pourriez préférer l'une ou l'autre option, et pandas vous offre des possibilités pour les deux. Étant donné qu'en science des données, les colonnes représentent généralement des variables et les lignes représentent des observations, il est plus courant de supprimer des lignes de données ; le paramètre par défaut de `dropna()` est de supprimer toutes les lignes contenant des valeurs nulles :


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Si nécessaire, vous pouvez supprimer les valeurs NA des colonnes. Utilisez `axis=1` pour ce faire :


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Notez que cela peut supprimer beaucoup de données que vous pourriez vouloir conserver, en particulier dans des ensembles de données plus petits. Que faire si vous souhaitez simplement supprimer des lignes ou des colonnes contenant plusieurs valeurs nulles, voire uniquement des valeurs nulles ? Vous pouvez spécifier ces paramètres dans `dropna` avec les arguments `how` et `thresh`.

Par défaut, `how='any'` (si vous souhaitez vérifier par vous-même ou voir quels autres paramètres la méthode propose, exécutez `example4.dropna?` dans une cellule de code). Vous pouvez également spécifier `how='all'` pour ne supprimer que les lignes ou colonnes contenant uniquement des valeurs nulles. Étendons notre exemple de `DataFrame` pour voir cela en action dans le prochain exercice.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Points clés :  
1. Supprimer les valeurs nulles est une bonne idée uniquement si le jeu de données est suffisamment grand.  
2. Des lignes ou colonnes entières peuvent être supprimées si la majorité de leurs données sont manquantes.  
3. La méthode `DataFrame.dropna(axis=)` permet de supprimer les valeurs nulles. L'argument `axis` indique si ce sont les lignes ou les colonnes qui doivent être supprimées.  
4. L'argument `how` peut également être utilisé. Par défaut, il est défini sur `any`. Ainsi, seules les lignes/colonnes contenant une ou plusieurs valeurs nulles sont supprimées. Il peut être défini sur `all` pour spécifier que seules les lignes/colonnes où toutes les valeurs sont nulles seront supprimées.  


### Exercice :


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Le paramètre `thresh` vous offre un contrôle plus précis : vous définissez le nombre de valeurs *non nulles* qu'une ligne ou une colonne doit avoir pour être conservée :


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Ici, la première et la dernière ligne ont été supprimées, car elles contiennent seulement deux valeurs non nulles.


### Remplir les valeurs nulles

Il peut parfois être judicieux de remplacer les valeurs manquantes par des valeurs qui pourraient être valides. Il existe plusieurs techniques pour remplir les valeurs nulles. La première consiste à utiliser les connaissances du domaine (connaissance du sujet sur lequel le jeu de données est basé) pour approximativement estimer les valeurs manquantes.

Vous pourriez utiliser `isnull` pour effectuer cette opération directement, mais cela peut être fastidieux, surtout si vous avez beaucoup de valeurs à remplir. Étant donné que cette tâche est très courante en science des données, pandas propose `fillna`, qui retourne une copie de la `Series` ou du `DataFrame` avec les valeurs manquantes remplacées par celles de votre choix. Créons un autre exemple de `Series` pour voir comment cela fonctionne en pratique.


### Données catégoriques (non numériques)
Commençons par les données non numériques. Dans les ensembles de données, nous avons des colonnes contenant des données catégoriques. Par exemple : Genre, Vrai ou Faux, etc.

Dans la plupart de ces cas, nous remplaçons les valeurs manquantes par le `mode` de la colonne. Supposons que nous avons 100 points de données, dont 90 indiquent Vrai, 8 indiquent Faux et 2 n'ont pas répondu. Alors, nous pouvons remplir les 2 valeurs manquantes avec Vrai, en prenant en compte l'ensemble de la colonne.

Encore une fois, ici, nous pouvons utiliser nos connaissances du domaine. Prenons un exemple de remplissage avec le mode.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Comme nous pouvons le voir, la valeur nulle a été remplacée. Inutile de dire que nous aurions pu écrire n'importe quoi à la place de `'True'` et cela aurait été substitué.


### Données numériques
Passons maintenant aux données numériques. Ici, nous avons deux méthodes courantes pour remplacer les valeurs manquantes :

1. Remplacer par la médiane de la ligne  
2. Remplacer par la moyenne de la ligne  

Nous utilisons la médiane dans le cas de données asymétriques avec des valeurs aberrantes. En effet, la médiane est robuste face aux valeurs aberrantes.

Lorsque les données sont normalisées, nous pouvons utiliser la moyenne, car dans ce cas, la moyenne et la médiane seront assez proches.

Tout d'abord, prenons une colonne qui suit une distribution normale et remplissons les valeurs manquantes avec la moyenne de la colonne.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


La moyenne de la colonne est


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Comme nous pouvons le voir, la valeur manquante a été remplacée par sa moyenne.


Maintenant, essayons un autre dataframe, et cette fois nous remplacerons les valeurs None par la médiane de la colonne.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


La médiane de la deuxième colonne est


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Comme nous pouvons le voir, la valeur NaN a été remplacée par la médiane de la colonne


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Vous pouvez remplir toutes les entrées nulles avec une seule valeur, comme `0` :


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Points clés :
1. Remplir les valeurs manquantes doit être fait soit lorsqu'il y a peu de données, soit lorsqu'il existe une stratégie pour combler les données manquantes.
2. Les connaissances du domaine peuvent être utilisées pour estimer et remplir les valeurs manquantes.
3. Pour les données catégoriques, les valeurs manquantes sont généralement remplacées par la mode de la colonne.
4. Pour les données numériques, les valeurs manquantes sont souvent remplacées par la moyenne (pour les ensembles de données normalisés) ou la médiane des colonnes.


### Exercice :


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Vous pouvez également **remplir en arrière** pour propager la prochaine valeur valide en arrière afin de remplir un nul :


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Comme vous pouvez le deviner, cela fonctionne de la même manière avec les DataFrames, mais vous pouvez également spécifier un `axis` le long duquel remplir les valeurs nulles :


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Notez que lorsqu'une valeur précédente n'est pas disponible pour le remplissage vers l'avant, la valeur nulle reste.


### Exercice :


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Vous pouvez être créatif dans l'utilisation de `fillna`. Par exemple, examinons à nouveau `example4`, mais cette fois remplissons les valeurs manquantes avec la moyenne de toutes les valeurs dans le `DataFrame` :


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Notez que la colonne 3 est toujours sans valeur : la direction par défaut est de remplir les valeurs ligne par ligne.

> **À retenir :** Il existe plusieurs façons de gérer les valeurs manquantes dans vos ensembles de données. La stratégie spécifique que vous utilisez (les supprimer, les remplacer, ou même la manière dont vous les remplacez) doit être dictée par les particularités de ces données. Vous développerez une meilleure intuition pour traiter les valeurs manquantes à mesure que vous manipulerez et interagirez avec des ensembles de données.


### Encodage des données catégorielles

Les modèles d'apprentissage automatique ne traitent que des chiffres et de toute forme de données numériques. Ils ne pourront pas faire la différence entre un Oui et un Non, mais ils pourront distinguer entre 0 et 1. Ainsi, après avoir rempli les valeurs manquantes, nous devons encoder les données catégorielles sous une forme numérique pour que le modèle puisse les comprendre.

L'encodage peut être réalisé de deux manières. Nous allons les aborder ensuite.


**ENCODAGE DES ÉTIQUETTES**

L'encodage des étiquettes consiste essentiellement à convertir chaque catégorie en un nombre. Par exemple, supposons que nous avons un jeu de données de passagers aériens et qu'il y a une colonne contenant leur classe parmi les suivantes : ['classe affaires', 'classe économique', 'première classe']. Si un encodage des étiquettes est appliqué, cela serait transformé en [0,1,2]. Voyons un exemple à travers du code. Comme nous allons apprendre `scikit-learn` dans les prochains notebooks, nous ne l'utiliserons pas ici.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Pour effectuer un encodage des étiquettes sur la première colonne, nous devons d'abord décrire une correspondance entre chaque classe et un numéro, avant de remplacer


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Comme nous pouvons le constater, le résultat correspond à ce que nous avions prévu. Alors, quand utilise-t-on l'encodage des labels ? L'encodage des labels est utilisé dans l'un ou les deux cas suivants :
1. Lorsque le nombre de catégories est élevé
2. Lorsque les catégories sont ordonnées.


**ENCODAGE ONE HOT**

Un autre type d'encodage est l'encodage One Hot. Dans ce type d'encodage, chaque catégorie de la colonne est ajoutée comme une colonne distincte, et chaque point de données recevra un 0 ou un 1 en fonction de la présence ou non de cette catégorie. Ainsi, s'il y a n catégories différentes, n colonnes seront ajoutées au dataframe.

Par exemple, prenons le même exemple de classe d'avion. Les catégories étaient : ['business class', 'economy class', 'first class']. Donc, si nous effectuons un encodage One Hot, les trois colonnes suivantes seront ajoutées au jeu de données : ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Effectuons un encodage one-hot sur la première colonne


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Chaque colonne encodée en one-hot contient 0 ou 1, ce qui spécifie si cette catégorie existe pour ce point de données.


Quand utilise-t-on l'encodage one hot ? L'encodage one hot est utilisé dans l'un ou les deux cas suivants :

1. Lorsque le nombre de catégories et la taille du jeu de données sont réduits.
2. Lorsque les catégories ne suivent aucun ordre particulier.


> Points clés :  
1. Le codage est effectué pour convertir des données non numériques en données numériques.  
2. Il existe deux types de codage : le codage par étiquettes et le codage One Hot, qui peuvent être réalisés en fonction des besoins du jeu de données.  


## Suppression des données dupliquées

> **Objectif d'apprentissage :** À la fin de cette sous-section, vous devriez être à l'aise pour identifier et supprimer les valeurs dupliquées dans les DataFrames.

En plus des données manquantes, vous rencontrerez souvent des données dupliquées dans des ensembles de données réels. Heureusement, pandas offre un moyen simple de détecter et de supprimer les entrées dupliquées.


### Identifier les doublons : `duplicated`

Vous pouvez facilement repérer les valeurs en double en utilisant la méthode `duplicated` de pandas, qui renvoie un masque booléen indiquant si une entrée dans un `DataFrame` est un doublon d'une précédente. Créons un autre exemple de `DataFrame` pour voir cela en action.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Suppression des doublons : `drop_duplicates`
`drop_duplicates` renvoie simplement une copie des données pour lesquelles toutes les valeurs `duplicated` sont `False` :


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Les deux `duplicated` et `drop_duplicates` considèrent par défaut toutes les colonnes, mais vous pouvez spécifier qu'ils examinent uniquement un sous-ensemble de colonnes dans votre `DataFrame` :


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Avertissement** :  
Ce document a été traduit à l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de recourir à une traduction professionnelle réalisée par un humain. Nous ne sommes pas responsables des malentendus ou des interprétations erronées résultant de l'utilisation de cette traduction.
