# Gegevensvoorbereiding

[Originele Notebook-bron uit *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio door Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Verkennen van `DataFrame`-informatie

> **Leerdoel:** Aan het einde van deze subsectie moet je in staat zijn om algemene informatie over de gegevens in pandas DataFrames te vinden.

Zodra je je gegevens in pandas hebt geladen, zullen ze hoogstwaarschijnlijk in een `DataFrame` staan. Maar als de dataset in je `DataFrame` 60.000 rijen en 400 kolommen bevat, hoe begin je dan überhaupt een idee te krijgen van waar je mee werkt? Gelukkig biedt pandas enkele handige tools om snel algemene informatie over een `DataFrame` te bekijken, naast de eerste en laatste paar rijen.

Om deze functionaliteit te verkennen, importeren we de Python scikit-learn bibliotheek en gebruiken we een iconische dataset die elke datawetenschapper honderden keren heeft gezien: de *Iris*-dataset van de Britse bioloog Ronald Fisher, gebruikt in zijn paper uit 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
We hebben de Iris Dataset geladen in de variabele `iris_df`. Voordat we de data verder onderzoeken, is het handig om te weten hoeveel datapunten we hebben en wat de totale omvang van de dataset is. Het is nuttig om een idee te krijgen van de hoeveelheid data waarmee we werken.


In [2]:
iris_df.shape

(150, 4)

We hebben te maken met 150 rijen en 4 kolommen aan gegevens. Elke rij vertegenwoordigt één datapunt en elke kolom vertegenwoordigt een enkele eigenschap die aan het data frame is gekoppeld. Kortom, er zijn 150 datapunten met elk 4 eigenschappen.

`shape` is hier een attribuut van het dataframe en geen functie, wat de reden is dat het niet eindigt met een paar haakjes.


### `DataFrame.columns`
Laten we nu de 4 kolommen met gegevens bekijken. Wat stelt elk van deze kolommen precies voor? Het attribuut `columns` geeft ons de namen van de kolommen in de dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Zoals we kunnen zien, zijn er vier (4) kolommen. De `columns`-attribuut vertelt ons de namen van de kolommen en verder eigenlijk niets. Dit attribuut wordt belangrijk wanneer we de kenmerken van een dataset willen identificeren.


### `DataFrame.info`
De hoeveelheid data (gegeven door het `shape` attribuut) en de namen van de kenmerken of kolommen (gegeven door het `columns` attribuut) vertellen ons iets over de dataset. Nu willen we dieper in de dataset duiken. De functie `DataFrame.info()` is hier erg handig voor.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Van hieruit kunnen we een paar observaties maken:
1. Het datatype van elke kolom: In deze dataset worden alle gegevens opgeslagen als 64-bit drijvende-komma getallen.
2. Aantal niet-nul waarden: Het omgaan met null-waarden is een belangrijke stap in de voorbereiding van gegevens. Dit zal later in het notebook worden behandeld.


### DataFrame.describe()
Stel dat we veel numerieke gegevens in onze dataset hebben. Univariate statistische berekeningen zoals het gemiddelde, de mediaan, kwartielen, enzovoort, kunnen afzonderlijk op elke kolom worden uitgevoerd. De functie `DataFrame.describe()` geeft ons een statistisch overzicht van de numerieke kolommen in een dataset.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


De bovenstaande output toont het totale aantal datapunten, het gemiddelde, de standaarddeviatie, het minimum, het onderste kwartiel (25%), de mediaan (50%), het bovenste kwartiel (75%) en de maximale waarde van elke kolom.


### `DataFrame.head`
Met alle bovenstaande functies en attributen hebben we een overzicht op hoog niveau van de dataset. We weten hoeveel datapunten er zijn, hoeveel kenmerken er zijn, het datatype van elk kenmerk en het aantal niet-nulwaarden voor elk kenmerk.

Nu is het tijd om naar de gegevens zelf te kijken. Laten we eens zien hoe de eerste paar rijen (de eerste paar datapunten) van onze `DataFrame` eruitzien:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Zoals we hier kunnen zien, zijn er vijf(5) vermeldingen van de dataset. Als we naar de index aan de linkerkant kijken, ontdekken we dat dit de eerste vijf rijen zijn.


### Oefening:

Uit het bovenstaande voorbeeld blijkt duidelijk dat `DataFrame.head` standaard de eerste vijf rijen van een `DataFrame` retourneert. Kun je in de onderstaande codecel een manier bedenken om meer dan vijf rijen weer te geven?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Een andere manier om naar de gegevens te kijken is vanaf het einde (in plaats van het begin). Het tegenovergestelde van `DataFrame.head` is `DataFrame.tail`, die de laatste vijf rijen van een `DataFrame` retourneert:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


In de praktijk is het handig om eenvoudig de eerste paar rijen of de laatste paar rijen van een `DataFrame` te kunnen bekijken, vooral wanneer je op zoek bent naar uitschieters in geordende datasets.

Alle functies en attributen die hierboven met behulp van codevoorbeelden zijn getoond, helpen ons om een indruk te krijgen van de gegevens.

> **Belangrijk punt:** Alleen al door te kijken naar de metadata over de informatie in een DataFrame of naar de eerste en laatste paar waarden ervan, kun je direct een idee krijgen van de grootte, vorm en inhoud van de gegevens waarmee je werkt.


### Ontbrekende Gegevens
Laten we ons verdiepen in ontbrekende gegevens. Ontbrekende gegevens ontstaan wanneer er geen waarde is opgeslagen in sommige kolommen.

Laten we een voorbeeld nemen: stel dat iemand bewust bezig is met zijn/haar gewicht en het veld voor gewicht in een enquête niet invult. Dan zal de waarde voor gewicht van die persoon ontbreken.

In de meeste gevallen komen ontbrekende waarden voor in datasets uit de echte wereld.

**Hoe Pandas omgaat met ontbrekende gegevens**

Pandas gaat op twee manieren om met ontbrekende waarden. De eerste manier heb je al eerder gezien in vorige secties: `NaN`, of Not a Number. Dit is eigenlijk een speciale waarde die deel uitmaakt van de IEEE floating-point specificatie en wordt alleen gebruikt om ontbrekende waarden van het type floating-point aan te geven.

Voor ontbrekende waarden anders dan floats gebruikt pandas het Python-object `None`. Hoewel het misschien verwarrend lijkt dat je twee verschillende soorten waarden tegenkomt die in wezen hetzelfde aangeven, zijn er goede programmatische redenen voor deze ontwerpkeuze. In de praktijk stelt deze aanpak pandas in staat om een goed compromis te bieden voor de overgrote meerderheid van de gevallen. Desondanks hebben zowel `None` als `NaN` beperkingen waar je rekening mee moet houden met betrekking tot hoe ze kunnen worden gebruikt.


### `None`: niet-vloeiende ontbrekende gegevens
Omdat `None` afkomstig is uit Python, kan het niet worden gebruikt in NumPy- en pandas-arrays die geen gegevenstype `'object'` hebben. Onthoud dat NumPy-arrays (en de datastructuren in pandas) slechts één type gegevens kunnen bevatten. Dit is wat hen hun enorme kracht geeft voor grootschalige data- en rekenkundige taken, maar het beperkt ook hun flexibiliteit. Dergelijke arrays moeten worden "geüpcast" naar de "kleinste gemene deler," het gegevenstype dat alles in de array kan omvatten. Wanneer `None` in de array voorkomt, betekent dit dat je werkt met Python-objecten.

Om dit in de praktijk te zien, bekijk het volgende voorbeeld van een array (let op de `dtype` ervan):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

De realiteit van opgewaardeerde datatypes brengt twee bijwerkingen met zich mee. Ten eerste worden bewerkingen uitgevoerd op het niveau van geïnterpreteerde Python-code in plaats van gecompileerde NumPy-code. In essentie betekent dit dat alle bewerkingen die `Series` of `DataFrames` met `None` bevatten, langzamer zullen zijn. Hoewel je deze prestatievermindering waarschijnlijk niet zult opmerken, kan het bij grote datasets een probleem worden.

De tweede bijwerking vloeit voort uit de eerste. Omdat `None` `Series` of `DataFrames` in feite terugbrengt naar de wereld van standaard Python, zal het gebruik van NumPy/pandas-aggregaties zoals `sum()` of `min()` op arrays die een `None`-waarde bevatten over het algemeen een fout veroorzaken:


In [10]:
example1.sum()

TypeError: ignored

**Belangrijkste punt**: Optelling (en andere bewerkingen) tussen gehele getallen en `None`-waarden is ongedefinieerd, wat kan beperken wat je kunt doen met datasets die ze bevatten.


### `NaN`: ontbrekende float-waarden

In tegenstelling tot `None` ondersteunt NumPy (en dus ook pandas) `NaN` voor zijn snelle, gevectoriseerde operaties en ufuncs. Het nadeel is dat elke rekenkundige bewerking met `NaN` altijd resulteert in `NaN`. Bijvoorbeeld:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Het goede nieuws: aggregaties die worden uitgevoerd op arrays met `NaN` erin veroorzaken geen fouten. Het slechte nieuws: de resultaten zijn niet uniform bruikbaar:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Oefening:


In [11]:
# What happens if you add np.nan and None together?


Onthoud: `NaN` is alleen voor ontbrekende drijvende-kommawaarden; er is geen `NaN`-equivalent voor gehele getallen, strings of Booleans.


### `NaN` en `None`: null-waarden in pandas

Hoewel `NaN` en `None` zich enigszins anders kunnen gedragen, is pandas ontworpen om ze door elkaar te gebruiken. Om te begrijpen wat hiermee wordt bedoeld, bekijk een `Series` van gehele getallen:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Oefening:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Bij het upcasten van datatypes om gegevenshomogeniteit te waarborgen in `Series` en `DataFrame`s, zal pandas zonder problemen ontbrekende waarden omzetten tussen `None` en `NaN`. Vanwege deze ontwerpkeuze kan het handig zijn om `None` en `NaN` te beschouwen als twee verschillende varianten van "null" in pandas. Sterker nog, sommige van de kernmethoden die je zult gebruiken om met ontbrekende waarden in pandas om te gaan, weerspiegelen dit idee in hun namen:

- `isnull()`: Genereert een Booleaanse maskering die ontbrekende waarden aangeeft
- `notnull()`: Het tegenovergestelde van `isnull()`
- `dropna()`: Geeft een gefilterde versie van de gegevens terug
- `fillna()`: Geeft een kopie van de gegevens terug waarbij ontbrekende waarden zijn ingevuld of geïmputeerd

Dit zijn belangrijke methoden om onder de knie te krijgen en vertrouwd mee te raken, dus laten we ze stuk voor stuk wat uitgebreider bespreken.


### Nullwaarden detecteren

Nu we het belang van ontbrekende waarden hebben begrepen, moeten we ze in onze dataset detecteren voordat we ermee aan de slag gaan.  
Zowel `isnull()` als `notnull()` zijn je belangrijkste methoden om nullwaarden te detecteren. Beide geven Booleaanse maskers over je data terug.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Kijk goed naar de output. Valt je iets op? Hoewel `0` een rekenkundige nul is, is het toch een volledig geldig geheel getal, en pandas behandelt het ook zo. `''` is iets subtieler. Hoewel we het in Sectie 1 gebruikten om een lege tekenreekswaarde weer te geven, is het toch een tekenreeksobject en geen representatie van null volgens pandas.

Laten we dit nu omdraaien en deze methoden gebruiken op een manier die meer lijkt op hoe je ze in de praktijk zult toepassen. Je kunt Booleaanse maskers direct gebruiken als een ``Series``- of ``DataFrame``-index, wat handig kan zijn wanneer je wilt werken met geïsoleerde ontbrekende (of aanwezige) waarden.

Als we het totale aantal ontbrekende waarden willen weten, kunnen we eenvoudig een som uitvoeren over het masker dat wordt geproduceerd door de `isnull()`-methode.


In [19]:
example3.isnull().sum()

2

### Oefening:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Belangrijkste punt**: Zowel de methoden `isnull()` als `notnull()` leveren vergelijkbare resultaten op wanneer je ze in DataFrames gebruikt: ze tonen de resultaten en de index van die resultaten, wat je enorm zal helpen bij het werken met je gegevens.


### Omgaan met ontbrekende gegevens

> **Leerdoel:** Aan het einde van deze subsectie weet je hoe en wanneer je null-waarden in DataFrames kunt vervangen of verwijderen.

Machine Learning-modellen kunnen niet zelf omgaan met ontbrekende gegevens. Voordat we de gegevens aan het model doorgeven, moeten we deze ontbrekende waarden verwerken.

Hoe ontbrekende gegevens worden behandeld, brengt subtiele afwegingen met zich mee en kan invloed hebben op je uiteindelijke analyse en resultaten in de praktijk.

Er zijn voornamelijk twee manieren om met ontbrekende gegevens om te gaan:

1.   De rij met de ontbrekende waarde verwijderen
2.   De ontbrekende waarde vervangen door een andere waarde

We zullen beide methoden en hun voor- en nadelen in detail bespreken.


### Nullwaarden verwijderen

De hoeveelheid data die we aan ons model doorgeven heeft een directe invloed op de prestaties ervan. Nullwaarden verwijderen betekent dat we het aantal datapunten verminderen, en daarmee de grootte van de dataset verkleinen. Het is dus aan te raden om rijen met nullwaarden te verwijderen wanneer de dataset behoorlijk groot is.

Een andere situatie kan zijn dat een bepaalde rij of kolom veel ontbrekende waarden heeft. In dat geval kunnen ze worden verwijderd omdat ze weinig waarde toevoegen aan onze analyse, aangezien de meeste data voor die rij/kolom ontbreekt.

Naast het identificeren van ontbrekende waarden biedt pandas een handige manier om nullwaarden te verwijderen uit `Series` en `DataFrame`s. Om dit in actie te zien, laten we teruggaan naar `example3`. De functie `DataFrame.dropna()` helpt bij het verwijderen van rijen met nullwaarden.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Merk op dat dit eruit zou moeten zien als je uitvoer van `example3[example3.notnull()]`. Het verschil hier is dat, in plaats van alleen te indexeren op de gemaskeerde waarden, `dropna` die ontbrekende waarden uit de `Series` `example3` heeft verwijderd.

Omdat DataFrames twee dimensies hebben, bieden ze meer mogelijkheden om gegevens te verwijderen.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Heb je gemerkt dat pandas twee van de kolommen heeft omgezet naar floats om de `NaN`s te accommoderen?)

Je kunt geen enkele waarde uit een `DataFrame` verwijderen, dus je moet volledige rijen of kolommen verwijderen. Afhankelijk van wat je aan het doen bent, wil je misschien het een of het ander doen, en daarom biedt pandas opties voor beide. Omdat in datawetenschap kolommen meestal variabelen vertegenwoordigen en rijen observaties, is de kans groter dat je rijen met gegevens verwijdert; de standaardinstelling voor `dropna()` is om alle rijen te verwijderen die null-waarden bevatten:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Als het nodig is, kun je NA-waarden uit kolommen verwijderen. Gebruik `axis=1` om dit te doen:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Merk op dat dit veel gegevens kan verwijderen die je misschien wilt behouden, vooral in kleinere datasets. Wat als je alleen rijen of kolommen wilt verwijderen die meerdere of zelfs alle nullwaarden bevatten? Je stelt deze instellingen in met `dropna` door de parameters `how` en `thresh` te gebruiken.

Standaard is `how='any'` (als je dit zelf wilt controleren of wilt zien welke andere parameters de methode heeft, voer dan `example4.dropna?` uit in een codecel). Je kunt ook `how='all'` specificeren om alleen rijen of kolommen te verwijderen die volledig uit nullwaarden bestaan. Laten we ons voorbeeld `DataFrame` uitbreiden om dit in actie te zien in de volgende oefening.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Belangrijkste punten:  
1. Het verwijderen van null-waarden is alleen een goed idee als de dataset groot genoeg is.  
2. Volledige rijen of kolommen kunnen worden verwijderd als het merendeel van de gegevens ontbreekt.  
3. De methode `DataFrame.dropna(axis=)` helpt bij het verwijderen van null-waarden. Het argument `axis` geeft aan of rijen of kolommen moeten worden verwijderd.  
4. Het argument `how` kan ook worden gebruikt. Standaard is dit ingesteld op `any`. Dit betekent dat alleen die rijen/kolommen worden verwijderd die een of meer null-waarden bevatten. Het kan worden ingesteld op `all` om aan te geven dat we alleen die rijen/kolommen verwijderen waar alle waarden null zijn.  


### Oefening:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


De parameter `thresh` geeft je fijnmazigere controle: je stelt het aantal *niet-nul* waarden in dat een rij of kolom moet hebben om behouden te blijven:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Hier zijn de eerste en laatste rij verwijderd, omdat ze slechts twee niet-nulwaarden bevatten.


### Null-waarden invullen

Het kan soms logisch zijn om ontbrekende waarden in te vullen met waarden die geldig zouden kunnen zijn. Er zijn een paar technieken om null-waarden in te vullen. De eerste is het gebruik van Domeinkennis (kennis van het onderwerp waarop de dataset is gebaseerd) om de ontbrekende waarden op een of andere manier te benaderen.

Je zou `isnull` kunnen gebruiken om dit direct te doen, maar dat kan tijdrovend zijn, vooral als je veel waarden moet invullen. Omdat dit een veelvoorkomende taak is in data science, biedt pandas `fillna`, wat een kopie van de `Series` of `DataFrame` retourneert met de ontbrekende waarden vervangen door een waarde naar keuze. Laten we een ander voorbeeld van een `Series` maken om te zien hoe dit in de praktijk werkt.


### Categorische gegevens (Niet-numeriek)
Laten we eerst niet-numerieke gegevens bekijken. In datasets hebben we kolommen met categorische gegevens, zoals geslacht, waar of onwaar, enz.

In de meeste gevallen vervangen we ontbrekende waarden door de `modus` van de kolom. Stel dat we 100 datapunten hebben, waarvan 90 "waar" hebben aangegeven, 8 "onwaar" en 2 niets hebben ingevuld. Dan kunnen we de 2 invullen met "waar", rekening houdend met de hele kolom.

Ook hier kunnen we domeinkennis gebruiken. Laten we een voorbeeld bekijken van invullen met de modus.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Zoals we kunnen zien, is de null-waarde vervangen. Het hoeft geen betoog dat we alles hadden kunnen schrijven in plaats van `'True'` en het zou zijn vervangen.


### Numerieke Gegevens
Nu gaan we naar numerieke gegevens. Hier zijn er twee veelvoorkomende manieren om ontbrekende waarden te vervangen:

1. Vervangen door de mediaan van de rij
2. Vervangen door het gemiddelde van de rij

We vervangen door de mediaan in het geval van scheve gegevens met uitschieters. Dit komt omdat de mediaan robuust is tegen uitschieters.

Wanneer de gegevens genormaliseerd zijn, kunnen we het gemiddelde gebruiken, omdat in dat geval het gemiddelde en de mediaan dicht bij elkaar liggen.

Laten we eerst een kolom nemen die normaal verdeeld is en de ontbrekende waarde invullen met het gemiddelde van de kolom.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Het gemiddelde van de kolom is


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Zoals we kunnen zien, is de ontbrekende waarde vervangen door het gemiddelde.


Laten we nu een andere dataframe proberen, en deze keer zullen we de None-waarden vervangen door de mediaan van de kolom.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


De mediaan van de tweede kolom is


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Zoals we kunnen zien, is de NaN-waarde vervangen door de mediaan van de kolom


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Je kunt alle lege invoervelden invullen met een enkele waarde, zoals `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Belangrijke punten:
1. Het invullen van ontbrekende waarden moet worden gedaan wanneer er weinig gegevens zijn of wanneer er een strategie is om de ontbrekende gegevens in te vullen.
2. Domeinkennis kan worden gebruikt om ontbrekende waarden in te vullen door ze te benaderen.
3. Voor categorische gegevens worden ontbrekende waarden meestal vervangen door de modus van de kolom.
4. Voor numerieke gegevens worden ontbrekende waarden meestal ingevuld met het gemiddelde (voor genormaliseerde datasets) of de mediaan van de kolommen.


### Oefening:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Je kunt null-waarden **vooruit invullen**, wat betekent dat je de laatste geldige waarde gebruikt om een null in te vullen:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Je kunt ook **back-fillen** om de volgende geldige waarde terugwaarts te propaganderen om een null te vullen:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Zoals je misschien al raadt, werkt dit hetzelfde met DataFrames, maar je kunt ook een `as` specificeren waarlangs je null-waarden wilt invullen:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Merk op dat wanneer een eerdere waarde niet beschikbaar is voor forward-filling, de null-waarde blijft.


### Oefening:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Je kunt creatief zijn met hoe je `fillna` gebruikt. Laten we bijvoorbeeld nog eens naar `example4` kijken, maar deze keer vullen we de ontbrekende waarden in met het gemiddelde van alle waarden in de `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Merk op dat kolom 3 nog steeds geen waarde heeft: de standaardrichting is om waarden rij-voor-rij in te vullen.

> **Belangrijk punt:** Er zijn meerdere manieren om om te gaan met ontbrekende waarden in je datasets. De specifieke strategie die je kiest (verwijderen, vervangen, of zelfs hoe je ze vervangt) moet worden bepaald door de specifieke kenmerken van die data. Je zult een beter gevoel ontwikkelen voor hoe je met ontbrekende waarden omgaat naarmate je meer met datasets werkt en ermee omgaat.


### Categoriale Gegevens Coderen

Machine learning-modellen werken alleen met getallen en elke vorm van numerieke gegevens. Ze kunnen geen onderscheid maken tussen een Ja en een Nee, maar wel tussen een 0 en een 1. Dus, nadat we de ontbrekende waarden hebben ingevuld, moeten we de categorische gegevens coderen naar een numerieke vorm zodat het model deze kan begrijpen.

Coderen kan op twee manieren worden gedaan. We zullen deze hierna bespreken.


**LABEL ENCODERING**

Label-encodering houdt in dat elke categorie wordt omgezet naar een nummer. Stel bijvoorbeeld dat we een dataset hebben van vliegtuigpassagiers en er is een kolom met hun klasse, zoals ['business class', 'economy class', 'first class']. Als we Label-encodering toepassen, wordt dit omgezet naar [0, 1, 2]. Laten we een voorbeeld bekijken via code. Aangezien we `scikit-learn` in de komende notebooks zullen leren, gebruiken we het hier niet.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Om labelcodering uit te voeren op de 1e kolom, moeten we eerst een mapping beschrijven van elke klasse naar een nummer, voordat we vervangen


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Zoals we kunnen zien, komt het resultaat overeen met wat we hadden verwacht. Dus, wanneer gebruiken we label encoding? Label encoding wordt gebruikt in een of beide van de volgende gevallen:
1. Wanneer het aantal categorieën groot is
2. Wanneer de categorieën een volgorde hebben.


**ONE HOT ENCODING**

Een andere vorm van codering is One Hot Encoding. Bij deze vorm van codering wordt elke categorie van de kolom toegevoegd als een aparte kolom, en elk datapunt krijgt een 0 of een 1 afhankelijk van of het die categorie bevat. Dus, als er n verschillende categorieën zijn, worden er n kolommen toegevoegd aan de dataframe.

Bijvoorbeeld, laten we hetzelfde voorbeeld van vliegtuigklassen nemen. De categorieën waren: ['business class', 'economy class', 'first class']. Als we One Hot Encoding toepassen, worden de volgende drie kolommen toegevoegd aan de dataset: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Laten we one-hot encoding uitvoeren op de 1e kolom


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Elke one-hot-gecodeerde kolom bevat 0 of 1, wat aangeeft of die categorie bestaat voor dat datapunt.


Wanneer gebruiken we one-hot encoding? One-hot encoding wordt gebruikt in een of beide van de volgende gevallen:

1. Wanneer het aantal categorieën en de grootte van de dataset klein is.
2. Wanneer de categorieën geen specifieke volgorde hebben.


> Belangrijke punten:
1. Codering wordt gebruikt om niet-numerieke gegevens om te zetten in numerieke gegevens.
2. Er zijn twee soorten codering: Labelcodering en One Hot-codering, die beide kunnen worden uitgevoerd op basis van de eisen van de dataset.


## Dubbele gegevens verwijderen

> **Leerdoel:** Aan het einde van deze subsectie moet je in staat zijn om dubbele waarden in DataFrames te herkennen en te verwijderen.

Naast ontbrekende gegevens kom je in datasets uit de praktijk vaak dubbele gegevens tegen. Gelukkig biedt pandas een eenvoudige manier om dubbele items te detecteren en te verwijderen.


### Duplicaten identificeren: `duplicated`

Je kunt duplicaten eenvoudig opsporen met de `duplicated`-methode in pandas, die een Booleaanse maskering retourneert om aan te geven of een invoer in een `DataFrame` een duplicaat is van een eerdere. Laten we een ander voorbeeld `DataFrame` maken om dit in actie te zien.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Duplicaten verwijderen: `drop_duplicates`
`drop_duplicates` geeft simpelweg een kopie van de gegevens terug waarvoor alle `duplicated` waarden `False` zijn:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Zowel `duplicated` als `drop_duplicates` beschouwen standaard alle kolommen, maar je kunt specificeren dat ze alleen een subset van kolommen in je `DataFrame` onderzoeken:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Disclaimer**:  
Dit document is vertaald met behulp van de AI-vertalingsservice [Co-op Translator](https://github.com/Azure/co-op-translator). Hoewel we streven naar nauwkeurigheid, dient u zich ervan bewust te zijn dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor kritieke informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.
