# Datenvorbereitung

[Originales Notebook aus *Data Science: Einführung in Machine Learning für Data Science Python und Machine Learning Studio von Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Untersuchung von `DataFrame`-Informationen

> **Lernziel:** Am Ende dieses Abschnitts sollten Sie in der Lage sein, allgemeine Informationen über die in pandas DataFrames gespeicherten Daten zu finden.

Sobald Sie Ihre Daten in pandas geladen haben, werden sie höchstwahrscheinlich in einem `DataFrame` vorliegen. Aber wenn der Datensatz in Ihrem `DataFrame` 60.000 Zeilen und 400 Spalten hat, wie fangen Sie überhaupt an, sich einen Überblick darüber zu verschaffen, womit Sie arbeiten? Glücklicherweise bietet pandas einige praktische Werkzeuge, um schnell allgemeine Informationen über ein `DataFrame` sowie die ersten und letzten Zeilen zu erhalten.

Um diese Funktionalität zu erkunden, werden wir die Python-Bibliothek scikit-learn importieren und einen ikonischen Datensatz verwenden, den jeder Data Scientist schon hunderte Male gesehen hat: Der britische Biologe Ronald Fisher's *Iris*-Datensatz, der in seinem Papier von 1936 "Die Verwendung von mehreren Messungen in taxonomischen Problemen" verwendet wurde:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Wir haben den Iris-Datensatz in der Variable `iris_df` geladen. Bevor wir uns tiefer mit den Daten beschäftigen, wäre es hilfreich zu wissen, wie viele Datenpunkte wir haben und wie groß der Datensatz insgesamt ist. Es ist nützlich, das Volumen der Daten, mit denen wir arbeiten, zu betrachten.


In [2]:
iris_df.shape

(150, 4)

Wir haben es hier mit 150 Zeilen und 4 Spalten von Daten zu tun. Jede Zeile repräsentiert einen Datenpunkt, und jede Spalte steht für ein einzelnes Merkmal, das mit dem Dataframe verknüpft ist. Im Grunde gibt es also 150 Datenpunkte, die jeweils 4 Merkmale enthalten.

`shape` ist hier ein Attribut des Dataframes und keine Funktion, weshalb es nicht mit einem Paar Klammern endet.


### `DataFrame.columns`
Lassen Sie uns nun die 4 Spalten der Daten betrachten. Was genau repräsentiert jede von ihnen? Das Attribut `columns` gibt uns die Namen der Spalten im DataFrame.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Wie wir sehen können, gibt es vier (4) Spalten. Das Attribut `columns` gibt uns die Namen der Spalten und im Grunde nichts anderes. Dieses Attribut wird wichtig, wenn wir die Merkmale eines Datensatzes identifizieren möchten.


### `DataFrame.info`
Die Menge der Daten (angegeben durch das Attribut `shape`) und die Namen der Merkmale oder Spalten (angegeben durch das Attribut `columns`) geben uns einige Informationen über den Datensatz. Nun möchten wir tiefer in den Datensatz eintauchen. Die Funktion `DataFrame.info()` ist dafür sehr nützlich.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Von hier aus können wir einige Beobachtungen machen:  
1. Der Datentyp jeder Spalte: In diesem Datensatz werden alle Daten als 64-Bit-Gleitkommazahlen gespeichert.  
2. Anzahl der Nicht-Null-Werte: Der Umgang mit Nullwerten ist ein wichtiger Schritt in der Datenvorbereitung. Dies wird später im Notebook behandelt.  


### DataFrame.describe()
Angenommen, wir haben viele numerische Daten in unserem Datensatz. Univariate statistische Berechnungen wie Mittelwert, Median, Quartile usw. können für jede Spalte einzeln durchgeführt werden. Die Funktion `DataFrame.describe()` liefert uns eine statistische Zusammenfassung der numerischen Spalten eines Datensatzes.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Die obige Ausgabe zeigt die Gesamtanzahl der Datenpunkte, den Mittelwert, die Standardabweichung, das Minimum, das untere Quartil (25%), den Median (50%), das obere Quartil (75%) und den Maximalwert jeder Spalte.


### `DataFrame.head`
Mit all den oben genannten Funktionen und Attributen haben wir einen Überblick über das Dataset erhalten. Wir wissen, wie viele Datenpunkte vorhanden sind, wie viele Merkmale es gibt, den Datentyp jedes Merkmals und die Anzahl der nicht-null Werte für jedes Merkmal.

Jetzt ist es an der Zeit, die Daten selbst anzuschauen. Sehen wir uns an, wie die ersten paar Zeilen (die ersten paar Datenpunkte) unseres `DataFrame` aussehen:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Als Ausgabe sehen wir hier fünf(5) Einträge des Datensatzes. Wenn wir uns den Index auf der linken Seite ansehen, stellen wir fest, dass dies die ersten fünf Zeilen sind.


### Übung:

Aus dem obigen Beispiel wird deutlich, dass `DataFrame.head` standardmäßig die ersten fünf Zeilen eines `DataFrame` zurückgibt. In der untenstehenden Code-Zelle, kannst du eine Möglichkeit finden, mehr als fünf Zeilen anzuzeigen?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Eine andere Möglichkeit, die Daten anzusehen, ist vom Ende her (anstatt vom Anfang). Das Gegenstück zu `DataFrame.head` ist `DataFrame.tail`, das die letzten fünf Zeilen eines `DataFrame` zurückgibt:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


In der Praxis ist es nützlich, die ersten oder letzten Zeilen eines `DataFrame` leicht untersuchen zu können, insbesondere wenn man nach Ausreißern in geordneten Datensätzen sucht.

Alle oben gezeigten Funktionen und Attribute, die mit Hilfe von Codebeispielen erläutert wurden, helfen uns, einen Eindruck von den Daten zu bekommen.

> **Fazit:** Schon allein durch das Betrachten der Metadaten über die Informationen in einem DataFrame oder der ersten und letzten Werte darin, kann man sich sofort ein Bild von der Größe, der Struktur und dem Inhalt der Daten machen, mit denen man arbeitet.


### Fehlende Daten
Lassen Sie uns in das Thema fehlende Daten eintauchen. Fehlende Daten treten auf, wenn in einigen Spalten keine Werte gespeichert sind.

Nehmen wir ein Beispiel: Angenommen, jemand ist sehr auf sein/ihr Gewicht bedacht und füllt das Feld für das Gewicht in einer Umfrage nicht aus. Dann wird der Gewichtswert für diese Person fehlen.

In den meisten Fällen treten fehlende Werte in realen Datensätzen auf.

**Wie Pandas mit fehlenden Daten umgeht**

Pandas geht auf zwei Arten mit fehlenden Werten um. Die erste haben Sie bereits in vorherigen Abschnitten gesehen: `NaN`, oder Not a Number. Dies ist tatsächlich ein spezieller Wert, der Teil der IEEE-Gleitkomma-Spezifikation ist und ausschließlich verwendet wird, um fehlende Gleitkommawerte anzuzeigen.

Für fehlende Werte, die keine Gleitkommazahlen sind, verwendet Pandas das Python-Objekt `None`. Auch wenn es verwirrend erscheinen mag, dass Sie zwei verschiedene Arten von Werten antreffen, die im Wesentlichen dasselbe aussagen, gibt es gute programmatische Gründe für diese Designentscheidung. In der Praxis ermöglicht dieser Ansatz Pandas, in den meisten Fällen einen guten Kompromiss zu bieten. Nichtsdestotrotz bringen sowohl `None` als auch `NaN` Einschränkungen mit sich, die Sie im Hinblick darauf, wie sie verwendet werden können, beachten müssen.


### `None`: nicht-float fehlende Daten
Da `None` aus Python stammt, kann es nicht in NumPy- und pandas-Arrays verwendet werden, die keinen Datentyp `'object'` haben. Denken Sie daran, dass NumPy-Arrays (und die Datenstrukturen in pandas) nur einen Datentyp enthalten können. Dies verleiht ihnen ihre enorme Leistungsfähigkeit für groß angelegte Daten- und Rechenarbeiten, schränkt jedoch auch ihre Flexibilität ein. Solche Arrays müssen auf den „kleinsten gemeinsamen Nenner“ hochgestuft werden, den Datentyp, der alles im Array umfassen kann. Wenn `None` im Array enthalten ist, bedeutet dies, dass Sie mit Python-Objekten arbeiten.

Um dies in Aktion zu sehen, betrachten Sie das folgende Beispiel-Array (beachten Sie den `dtype` dafür):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Die Realität von hochgestuften Datentypen bringt zwei Nebenwirkungen mit sich. Erstens werden Operationen auf der Ebene des interpretierten Python-Codes statt des kompilierten NumPy-Codes ausgeführt. Im Wesentlichen bedeutet dies, dass alle Operationen, die `Series` oder `DataFrames` mit `None` enthalten, langsamer sein werden. Obwohl Sie diesen Leistungseinbruch wahrscheinlich nicht bemerken würden, könnte er bei großen Datensätzen zu einem Problem werden.

Die zweite Nebenwirkung ergibt sich aus der ersten. Da `None` `Series` oder `DataFrames` im Grunde zurück in die Welt des reinen Python zieht, führen NumPy/pandas-Aggregationen wie `sum()` oder `min()` auf Arrays, die einen `None`-Wert enthalten, im Allgemeinen zu einem Fehler:


In [10]:
example1.sum()

TypeError: ignored

**Wichtigste Erkenntnis**: Die Addition (und andere Operationen) zwischen Ganzzahlen und `None`-Werten ist undefiniert, was einschränken kann, was Sie mit Datensätzen, die sie enthalten, tun können.


### `NaN`: Fehlende Gleitkommawerte

Im Gegensatz zu `None` unterstützt NumPy (und damit auch pandas) `NaN` für seine schnellen, vektorisierten Operationen und ufuncs. Die schlechte Nachricht ist, dass jede arithmetische Operation mit `NaN` immer zu `NaN` führt. Zum Beispiel:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Die gute Nachricht: Aggregationen, die auf Arrays mit `NaN` ausgeführt werden, verursachen keine Fehler. Die schlechte Nachricht: Die Ergebnisse sind nicht einheitlich nützlich:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Übung:


In [11]:
# What happens if you add np.nan and None together?


Denke daran: `NaN` ist nur für fehlende Gleitkommawerte; es gibt kein `NaN`-Äquivalent für Ganzzahlen, Zeichenketten oder Boolesche Werte.


### `NaN` und `None`: Nullwerte in pandas

Obwohl sich `NaN` und `None etwas unterschiedlich verhalten können, ist pandas dennoch darauf ausgelegt, sie austauschbar zu behandeln. Um zu verstehen, was wir meinen, betrachten Sie eine `Series` von Ganzzahlen:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Übung:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Beim Hochstufen von Datentypen, um Datenhomogenität in `Series` und `DataFrame`s zu gewährleisten, wechselt pandas bereitwillig fehlende Werte zwischen `None` und `NaN`. Aufgrund dieser Design-Eigenschaft kann es hilfreich sein, `None` und `NaN` als zwei verschiedene Varianten von "null" in pandas zu betrachten. Tatsächlich spiegeln einige der Kernmethoden, die Sie verwenden werden, um mit fehlenden Werten in pandas umzugehen, diese Idee in ihren Namen wider:

- `isnull()`: Erstellt eine Boolesche Maske, die fehlende Werte anzeigt
- `notnull()`: Gegenteil von `isnull()`
- `dropna()`: Gibt eine gefilterte Version der Daten zurück
- `fillna()`: Gibt eine Kopie der Daten zurück, bei der fehlende Werte gefüllt oder ersetzt wurden

Diese Methoden sind wichtig zu beherrschen und sich mit ihnen vertraut zu machen. Lassen Sie uns sie daher im Detail durchgehen.


### Erkennen von Nullwerten

Nachdem wir die Bedeutung fehlender Werte verstanden haben, müssen wir sie in unserem Datensatz erkennen, bevor wir sie behandeln.  
Sowohl `isnull()` als auch `notnull()` sind Ihre primären Methoden, um Nullwerte zu erkennen. Beide geben boolesche Masken für Ihre Daten zurück.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Schauen Sie sich die Ausgabe genau an. Überrascht Sie etwas davon? Während `0` ein arithmetisches Null ist, ist es dennoch eine vollkommen gültige Ganzzahl, und pandas behandelt es auch so. `''` ist etwas subtiler. Obwohl wir es in Abschnitt 1 verwendet haben, um einen leeren Zeichenkettenwert darzustellen, ist es dennoch ein Zeichenkettenobjekt und keine Darstellung von Null, zumindest aus der Sicht von pandas.

Wenden wir uns nun der Praxis zu und nutzen diese Methoden auf eine Weise, wie Sie sie tatsächlich verwenden würden. Sie können Boolesche Masken direkt als ``Series``- oder ``DataFrame``-Index verwenden, was nützlich sein kann, wenn Sie mit isolierten fehlenden (oder vorhandenen) Werten arbeiten möchten.

Wenn wir die Gesamtanzahl der fehlenden Werte ermitteln möchten, können wir einfach eine Summe über die Maske durchführen, die durch die Methode `isnull()` erzeugt wird.


In [19]:
example3.isnull().sum()

2

### Übung:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Wichtige Erkenntnis**: Sowohl die Methoden `isnull()` als auch `notnull()` liefern ähnliche Ergebnisse, wenn Sie sie in DataFrames verwenden: Sie zeigen die Ergebnisse und den Index dieser Ergebnisse, was Ihnen enorm helfen wird, wenn Sie mit Ihren Daten arbeiten.


### Umgang mit fehlenden Daten

> **Lernziel:** Am Ende dieses Abschnitts solltest du wissen, wie und wann du Nullwerte in DataFrames ersetzen oder entfernen kannst.

Machine-Learning-Modelle können nicht eigenständig mit fehlenden Daten umgehen. Daher müssen wir diese fehlenden Werte behandeln, bevor wir die Daten in das Modell einspeisen.

Die Art und Weise, wie fehlende Daten behandelt werden, bringt subtile Kompromisse mit sich und kann deine abschließende Analyse sowie die Ergebnisse in der realen Welt beeinflussen.

Es gibt hauptsächlich zwei Ansätze, um mit fehlenden Daten umzugehen:

1.   Die Zeile mit dem fehlenden Wert entfernen
2.   Den fehlenden Wert durch einen anderen Wert ersetzen

Wir werden beide Methoden sowie ihre Vor- und Nachteile im Detail besprechen.


### Nullwerte entfernen

Die Menge an Daten, die wir unserem Modell übergeben, hat einen direkten Einfluss auf dessen Leistung. Nullwerte zu entfernen bedeutet, dass wir die Anzahl der Datenpunkte reduzieren und somit die Größe des Datensatzes verringern. Daher ist es ratsam, Zeilen mit Nullwerten zu entfernen, wenn der Datensatz ziemlich groß ist.

Ein weiterer Fall könnte sein, dass eine bestimmte Zeile oder Spalte viele fehlende Werte enthält. In diesem Fall können sie entfernt werden, da sie nicht viel Wert für unsere Analyse hinzufügen würden, da die meisten Daten für diese Zeile/Spalte fehlen.

Neben der Identifizierung fehlender Werte bietet pandas eine praktische Möglichkeit, Nullwerte aus `Series` und `DataFrame`s zu entfernen. Um dies in Aktion zu sehen, kehren wir zu `example3` zurück. Die Funktion `DataFrame.dropna()` hilft dabei, die Zeilen mit Nullwerten zu entfernen.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Beachten Sie, dass dies wie Ihre Ausgabe von `example3[example3.notnull()]` aussehen sollte. Der Unterschied hier besteht darin, dass `dropna` anstelle des Indexierens auf die maskierten Werte diese fehlenden Werte aus der `Series` `example3` entfernt hat.

Da DataFrames zwei Dimensionen haben, bieten sie mehr Möglichkeiten zum Entfernen von Daten.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Haben Sie bemerkt, dass pandas zwei der Spalten zu Floats hochgestuft hat, um die `NaN`s zu berücksichtigen?)

Sie können keinen einzelnen Wert aus einem `DataFrame` entfernen, daher müssen Sie ganze Zeilen oder Spalten löschen. Je nachdem, was Sie tun möchten, könnten Sie sich für das eine oder das andere entscheiden, und pandas bietet Ihnen Optionen für beides. Da in der Datenwissenschaft Spalten im Allgemeinen Variablen und Zeilen Beobachtungen darstellen, ist es wahrscheinlicher, dass Sie Zeilen von Daten löschen; die Standardeinstellung für `dropna()` ist, alle Zeilen zu entfernen, die irgendeinen Nullwert enthalten:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Wenn nötig, können Sie NA-Werte aus Spalten entfernen. Verwenden Sie `axis=1`, um dies zu tun:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Beachten Sie, dass dies viele Daten entfernen kann, die Sie möglicherweise behalten möchten, insbesondere in kleineren Datensätzen. Was ist, wenn Sie nur Zeilen oder Spalten entfernen möchten, die mehrere oder sogar alle Nullwerte enthalten? Sie können diese Einstellungen in `dropna` mit den Parametern `how` und `thresh` festlegen.

Standardmäßig ist `how='any'` (wenn Sie dies selbst überprüfen oder sehen möchten, welche anderen Parameter die Methode hat, führen Sie `example4.dropna?` in einer Codezelle aus). Alternativ könnten Sie `how='all'` angeben, um nur Zeilen oder Spalten zu entfernen, die ausschließlich Nullwerte enthalten. Lassen Sie uns unser Beispiel-`DataFrame` erweitern, um dies im nächsten Übungsbeispiel in Aktion zu sehen.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Wichtige Erkenntnisse:  
1. Das Entfernen von Nullwerten ist nur dann sinnvoll, wenn der Datensatz groß genug ist.  
2. Ganze Zeilen oder Spalten können entfernt werden, wenn die meisten ihrer Daten fehlen.  
3. Die Methode `DataFrame.dropna(axis=)` hilft beim Entfernen von Nullwerten. Das Argument `axis` gibt an, ob Zeilen oder Spalten entfernt werden sollen.  
4. Das Argument `how` kann ebenfalls verwendet werden. Standardmäßig ist es auf `any` gesetzt. Dadurch werden nur die Zeilen/Spalten entfernt, die irgendeinen Nullwert enthalten. Es kann auf `all` gesetzt werden, um anzugeben, dass nur die Zeilen/Spalten entfernt werden, in denen alle Werte null sind.  


### Übung:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Der Parameter `thresh` gibt Ihnen eine feinere Kontrolle: Sie legen die Anzahl der *nicht-null* Werte fest, die eine Zeile oder Spalte haben muss, um beibehalten zu werden:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Hier wurden die erste und letzte Zeile entfernt, da sie nur zwei Nicht-Null-Werte enthalten.


### Auffüllen von Nullwerten

Manchmal ist es sinnvoll, fehlende Werte mit solchen zu ersetzen, die plausibel sein könnten. Es gibt einige Techniken, um Nullwerte aufzufüllen. Die erste besteht darin, Domänenwissen (Kenntnisse über das Thema, auf dem der Datensatz basiert) zu nutzen, um die fehlenden Werte irgendwie abzuschätzen.

Du könntest `isnull` verwenden, um dies direkt zu tun, aber das kann mühsam sein, besonders wenn du viele Werte auffüllen musst. Da dies eine so häufige Aufgabe in der Datenwissenschaft ist, stellt pandas die Funktion `fillna` bereit. Diese gibt eine Kopie der `Series` oder des `DataFrame` zurück, bei der die fehlenden Werte durch einen von dir gewählten Wert ersetzt werden. Lass uns ein weiteres Beispiel für eine `Series` erstellen, um zu sehen, wie das in der Praxis funktioniert.


### Kategorische Daten (Nicht-numerisch)
Betrachten wir zunächst nicht-numerische Daten. In Datensätzen gibt es Spalten mit kategorischen Daten, z. B. Geschlecht, Wahr oder Falsch usw.

In den meisten dieser Fälle ersetzen wir fehlende Werte durch den `Modus` der Spalte. Angenommen, wir haben 100 Datenpunkte, von denen 90 "Wahr" angegeben haben, 8 "Falsch" und 2 keine Angabe gemacht haben. Dann können wir die 2 fehlenden Werte mit "Wahr" auffüllen, indem wir die gesamte Spalte betrachten.

Auch hier können wir Fachwissen nutzen. Betrachten wir ein Beispiel, bei dem mit dem Modus aufgefüllt wird.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Wie wir sehen können, wurde der Nullwert ersetzt. Es versteht sich von selbst, dass wir anstelle von `'True'` alles hätten schreiben können, und es wäre ersetzt worden.


### Numerische Daten
Kommen wir nun zu numerischen Daten. Hier gibt es zwei gängige Methoden, um fehlende Werte zu ersetzen:

1. Ersetzen mit dem Median der Zeile  
2. Ersetzen mit dem Mittelwert der Zeile  

Wir ersetzen mit dem Median, wenn die Daten schief verteilt sind und Ausreißer enthalten. Das liegt daran, dass der Median unempfindlich gegenüber Ausreißern ist.

Wenn die Daten normalisiert sind, können wir den Mittelwert verwenden, da in diesem Fall Mittelwert und Median ziemlich nah beieinander liegen.

Nehmen wir zunächst eine Spalte, die normal verteilt ist, und füllen die fehlenden Werte mit dem Mittelwert der Spalte auf.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Der Mittelwert der Spalte ist


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Wie wir sehen können, wurde der fehlende Wert durch seinen Mittelwert ersetzt.


Lassen Sie uns nun ein weiteres DataFrame ausprobieren, und dieses Mal werden wir die None-Werte durch den Median der Spalte ersetzen.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Der Median der zweiten Spalte ist


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Wie wir sehen können, wurde der NaN-Wert durch den Median der Spalte ersetzt.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Sie können alle Null-Einträge mit einem einzigen Wert wie `0` ausfüllen:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Wichtige Erkenntnisse:  
1. Fehlende Werte sollten ausgefüllt werden, wenn entweder nur wenige Daten fehlen oder eine Strategie zum Auffüllen der fehlenden Daten vorhanden ist.  
2. Fachwissen kann genutzt werden, um fehlende Werte durch Schätzungen zu ersetzen.  
3. Bei kategorialen Daten werden fehlende Werte meist durch den Modus der Spalte ersetzt.  
4. Bei numerischen Daten werden fehlende Werte in der Regel mit dem Mittelwert (bei normalisierten Datensätzen) oder dem Median der Spalten aufgefüllt.  


### Übung:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Sie können **forward-fill** Nullwerte, indem Sie den letzten gültigen Wert verwenden, um einen Nullwert zu füllen:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Sie können auch **Back-Fill** verwenden, um den nächsten gültigen Wert rückwärts zu propagieren und eine Null zu füllen:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Wie Sie sich vielleicht denken können, funktioniert dies genauso mit DataFrames, aber Sie können auch eine `axis` angeben, entlang der Nullwerte ausgefüllt werden sollen:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Beachten Sie, dass der Nullwert bestehen bleibt, wenn kein vorheriger Wert zum Auffüllen verfügbar ist.


### Übung:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Du kannst kreativ sein, wie du `fillna` verwendest. Zum Beispiel, schauen wir uns `example4` noch einmal an, aber dieses Mal füllen wir die fehlenden Werte mit dem Durchschnitt aller Werte im `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Beachten Sie, dass Spalte 3 immer noch keinen Wert hat: Die Standardrichtung ist, die Werte zeilenweise zu füllen.

> **Fazit:** Es gibt mehrere Möglichkeiten, mit fehlenden Werten in Ihren Datensätzen umzugehen. Die spezifische Strategie, die Sie anwenden (sie entfernen, ersetzen oder wie Sie sie ersetzen), sollte von den Besonderheiten der Daten abhängen. Je mehr Sie mit Datensätzen arbeiten und interagieren, desto besser werden Sie ein Gespür dafür entwickeln, wie Sie mit fehlenden Werten umgehen können.


### Kodierung kategorischer Daten

Maschinenlernmodelle arbeiten ausschließlich mit Zahlen und jeglicher Art von numerischen Daten. Sie können nicht zwischen einem "Ja" und einem "Nein" unterscheiden, aber sie können zwischen 0 und 1 unterscheiden. Daher müssen wir, nachdem die fehlenden Werte ausgefüllt wurden, die kategorischen Daten in eine numerische Form kodieren, damit das Modell sie verstehen kann.

Die Kodierung kann auf zwei Arten erfolgen. Wir werden diese im Folgenden besprechen.


**LABEL-ENCODIERUNG**

Die Label-Encodierung wandelt im Grunde jede Kategorie in eine Zahl um. Nehmen wir zum Beispiel an, wir haben einen Datensatz von Flugpassagieren, und es gibt eine Spalte, die ihre Klasse aus den folgenden Optionen enthält: ['Business Class', 'Economy Class', 'First Class']. Wenn eine Label-Encodierung darauf angewendet wird, würde dies in [0,1,2] umgewandelt werden. Schauen wir uns ein Beispiel anhand von Code an. Da wir `scikit-learn` in den kommenden Notebooks lernen werden, verwenden wir es hier nicht.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Um die Label-Codierung auf der ersten Spalte durchzuführen, müssen wir zunächst eine Zuordnung von jeder Klasse zu einer Zahl beschreiben, bevor wir ersetzen.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Wie wir sehen können, entspricht das Ergebnis unseren Erwartungen. Wann verwenden wir also Label-Encoding? Label-Encoding wird in einem oder beiden der folgenden Fälle verwendet:
1. Wenn die Anzahl der Kategorien groß ist
2. Wenn die Kategorien in einer bestimmten Reihenfolge stehen.


**ONE HOT ENCODING**

Eine weitere Art der Kodierung ist das One Hot Encoding. Bei dieser Kodierung wird jede Kategorie der Spalte als separate Spalte hinzugefügt, und jeder Datenpunkt erhält eine 0 oder eine 1, je nachdem, ob er diese Kategorie enthält. Wenn es also n verschiedene Kategorien gibt, werden n Spalten zum Dataframe hinzugefügt.

Zum Beispiel nehmen wir das gleiche Beispiel mit den Flugzeugklassen. Die Kategorien waren: ['business class', 'economy class', 'first class']. Wenn wir also One Hot Encoding durchführen, werden die folgenden drei Spalten zum Datensatz hinzugefügt: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Lassen Sie uns eine One-Hot-Encoding auf der ersten Spalte durchführen


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Jede One-Hot-Encoded-Spalte enthält 0 oder 1, was angibt, ob diese Kategorie für diesen Datenpunkt existiert.


Wann verwenden wir One-Hot-Encoding? One-Hot-Encoding wird in einem oder beiden der folgenden Fälle verwendet:

1. Wenn die Anzahl der Kategorien und die Größe des Datensatzes kleiner sind.
2. Wenn die Kategorien keiner bestimmten Reihenfolge folgen.


> Wichtige Erkenntnisse:
1. Kodierung wird durchgeführt, um nicht-numerische Daten in numerische Daten umzuwandeln.
2. Es gibt zwei Arten der Kodierung: Label-Kodierung und One-Hot-Kodierung, die je nach Anforderungen des Datensatzes durchgeführt werden können.


## Entfernen von doppelten Daten

> **Lernziel:** Am Ende dieses Abschnitts solltest du in der Lage sein, doppelte Werte in DataFrames zu erkennen und zu entfernen.

Neben fehlenden Daten wirst du in realen Datensätzen häufig auf doppelte Daten stoßen. Glücklicherweise bietet pandas eine einfache Möglichkeit, doppelte Einträge zu erkennen und zu entfernen.


### Duplikate identifizieren: `duplicated`

Mit der Methode `duplicated` in pandas können Sie Duplikate ganz einfach erkennen. Sie gibt eine Boolesche Maske zurück, die anzeigt, ob ein Eintrag in einem `DataFrame` ein Duplikat eines früheren Eintrags ist. Lassen Sie uns ein weiteres Beispiel-`DataFrame` erstellen, um dies in Aktion zu sehen.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Duplikate entfernen: `drop_duplicates`
`drop_duplicates` gibt einfach eine Kopie der Daten zurück, bei der alle `duplicated` Werte `False` sind:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Sowohl `duplicated` als auch `drop_duplicates` berücksichtigen standardmäßig alle Spalten, aber Sie können angeben, dass sie nur einen Teil der Spalten in Ihrem `DataFrame` untersuchen:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Haftungsausschluss**:  
Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.
