# Dataklargøring

[Original Notebook-kilde fra *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Udforskning af `DataFrame`-information

> **Læringsmål:** Ved slutningen af dette afsnit bør du være komfortabel med at finde generel information om data, der er gemt i pandas DataFrames.

Når du har indlæst dine data i pandas, vil de sandsynligvis være i en `DataFrame`. Men hvis datasættet i din `DataFrame` har 60.000 rækker og 400 kolonner, hvordan begynder du så overhovedet at få en fornemmelse af, hvad du arbejder med? Heldigvis tilbyder pandas nogle praktiske værktøjer til hurtigt at få et overblik over en `DataFrame` samt de første og sidste par rækker.

For at udforske denne funktionalitet vil vi importere Python-biblioteket scikit-learn og bruge et ikonisk datasæt, som enhver dataforsker har set hundredevis af gange: Den britiske biolog Ronald Fishers *Iris*-datasæt, der blev brugt i hans artikel fra 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Vi har indlæst Iris-datasættet i variablen `iris_df`. Før vi dykker ned i dataene, vil det være nyttigt at kende antallet af datapunkter, vi har, samt den samlede størrelse af datasættet. Det er værdifuldt at få et overblik over mængden af data, vi arbejder med.


In [2]:
iris_df.shape

(150, 4)

Så vi har at gøre med 150 rækker og 4 kolonner af data. Hver række repræsenterer ét datapunkt, og hver kolonne repræsenterer en enkelt egenskab forbundet med dataframen. Så grundlæggende er der 150 datapunkter, der hver indeholder 4 egenskaber.

`shape` her er en attribut for dataframen og ikke en funktion, hvilket er grunden til, at den ikke slutter med et par parenteser.


### `DataFrame.columns`
Lad os nu se på de 4 kolonner af data. Hvad repræsenterer hver af dem præcist? Attributten `columns` vil give os navnene på kolonnerne i dataframen.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Som vi kan se, er der fire(4) kolonner. Attributten `columns` fortæller os navnene på kolonnerne og stort set ikke andet. Denne attribut bliver vigtig, når vi ønsker at identificere de funktioner, et datasæt indeholder.


### `DataFrame.info`
Mængden af data (givet af attributten `shape`) og navnene på funktionerne eller kolonnerne (givet af attributten `columns`) fortæller os noget om datasættet. Nu vil vi gerne dykke dybere ned i datasættet. Funktionen `DataFrame.info()` er meget nyttig til dette.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Fra dette punkt kan vi gøre nogle få observationer:
1. Datatypen for hver kolonne: I dette datasæt er alle data gemt som 64-bit flydende tal.
2. Antal ikke-null værdier: Håndtering af null-værdier er et vigtigt skridt i databehandling. Dette vil blive behandlet senere i notebooken.


### DataFrame.describe()
Lad os sige, at vi har en masse numeriske data i vores datasæt. Univariate statistiske beregninger såsom gennemsnit, median, kvartiler osv. kan udføres på hver af kolonnerne individuelt. Funktionen `DataFrame.describe()` giver os et statistisk overblik over de numeriske kolonner i et datasæt.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Outputtet ovenfor viser det samlede antal datapunkter, gennemsnit, standardafvigelse, minimum, nedre kvartil (25%), median (50%), øvre kvartil (75%) og maksimumværdien for hver kolonne.


### `DataFrame.head`
Med alle de ovenstående funktioner og attributter har vi fået et overordnet overblik over datasættet. Vi ved, hvor mange datapunkter der er, hvor mange funktioner der er, datatypen for hver funktion og antallet af ikke-null værdier for hver funktion.

Nu er det tid til at se på selve dataene. Lad os se, hvordan de første par rækker (de første par datapunkter) i vores `DataFrame` ser ud:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Som output her kan vi se fem(5) poster af datasættet. Hvis vi kigger på indekset til venstre, finder vi ud af, at dette er de første fem rækker.


### Øvelse:

Fra eksemplet ovenfor er det tydeligt, at `DataFrame.head` som standard returnerer de første fem rækker af en `DataFrame`. Kan du i kodecellen nedenfor finde en måde at vise mere end fem rækker?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
En anden måde at se på dataene kan være fra slutningen (i stedet for begyndelsen). Modstykket til `DataFrame.head` er `DataFrame.tail`, som returnerer de sidste fem rækker af en `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


I praksis er det nyttigt at kunne nemt undersøge de første par rækker eller de sidste par rækker af en `DataFrame`, især når du leder efter afvigelser i ordnede datasæt.

Alle de funktioner og attributter, der er vist ovenfor med hjælp fra kodeeksempler, hjælper os med at få et indtryk af dataene.

> **Konklusion:** Bare ved at kigge på metadata om informationen i en DataFrame eller de første og sidste par værdier i en, kan du få en øjeblikkelig idé om størrelsen, formen og indholdet af de data, du arbejder med.


### Manglende Data
Lad os dykke ned i manglende data. Manglende data opstår, når der ikke er gemt nogen værdi i nogle af kolonnerne.

Lad os tage et eksempel: forestil dig, at en person er bevidst om sin vægt og undlader at udfylde vægtfeltet i en undersøgelse. Så vil vægtværdien for denne person være manglende.

I de fleste tilfælde opstår manglende værdier i datasæt fra den virkelige verden.

**Hvordan Pandas håndterer manglende data**

Pandas håndterer manglende værdier på to måder. Den første har du set før i tidligere afsnit: `NaN`, eller Not a Number. Dette er faktisk en speciel værdi, der er en del af IEEE's flydende-punkt specifikation, og den bruges kun til at indikere manglende værdier af typen flydende tal.

For manglende værdier, der ikke er flydende tal, bruger pandas Python-objektet `None`. Selvom det kan virke forvirrende, at du støder på to forskellige typer værdier, der grundlæggende betyder det samme, er der gode programmatiske grunde til dette designvalg. I praksis gør denne tilgang det muligt for pandas at levere et godt kompromis i langt de fleste tilfælde. Ikke desto mindre har både `None` og `NaN` begrænsninger, som du skal være opmærksom på i forhold til, hvordan de kan bruges.


### `None`: ikke-flydende manglende data
Fordi `None` stammer fra Python, kan det ikke bruges i NumPy- og pandas-arrays, der ikke har datatypen `'object'`. Husk, at NumPy-arrays (og datastrukturerne i pandas) kun kan indeholde én type data. Dette er det, der giver dem deres enorme styrke til storskala data- og beregningsarbejde, men det begrænser også deres fleksibilitet. Sådanne arrays skal opgradere til den "laveste fællesnævner," den datatype, der kan rumme alt i arrayet. Når `None` er i arrayet, betyder det, at du arbejder med Python-objekter.

For at se dette i praksis, overvej følgende eksempel-array (bemærk `dtype` for det):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Virkeligheden ved opgraderede datatyper medfører to bivirkninger. For det første vil operationer blive udført på niveauet af fortolket Python-kode i stedet for kompileret NumPy-kode. Grundlæggende betyder det, at enhver operation, der involverer `Series` eller `DataFrames` med `None` i dem, vil være langsommere. Selvom du sandsynligvis ikke vil bemærke denne præstationsnedgang, kan det blive et problem for store datasæt.

Den anden bivirkning stammer fra den første. Fordi `None` i bund og grund trækker `Series` eller `DataFrame`s tilbage til den almindelige Python-verden, vil brugen af NumPy/pandas-aggregationer som `sum()` eller `min()` på arrays, der indeholder en ``None``-værdi, generelt resultere i en fejl:


In [10]:
example1.sum()

TypeError: ignored

**Vigtig pointe**: Addition (og andre operationer) mellem heltal og `None`-værdier er udefineret, hvilket kan begrænse, hvad du kan gøre med datasæt, der indeholder dem.


### `NaN`: manglende float-værdier

I modsætning til `None` understøtter NumPy (og dermed pandas) `NaN` for sine hurtige, vektoriserede operationer og ufuncs. Den dårlige nyhed er, at enhver aritmetisk operation udført på `NaN` altid resulterer i `NaN`. For eksempel:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Den gode nyhed: aggregeringer, der kører på arrays med `NaN` i dem, giver ikke fejl. Den dårlige nyhed: resultaterne er ikke ensartet nyttige:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Øvelse:


In [11]:
# What happens if you add np.nan and None together?


Husk: `NaN` er kun for manglende flydende punktværdier; der findes ingen `NaN`-ækvivalent for heltal, strenge eller boolske værdier.


### `NaN` og `None`: null-værdier i pandas

Selvom `NaN` og `None` kan opføre sig en smule forskelligt, er pandas stadig designet til at håndtere dem som udskiftelige. For at illustrere dette, lad os se på en `Series` af heltal:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Øvelse:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


I processen med at opgradere datatyper for at etablere datakonsistens i `Series` og `DataFrame`s, vil pandas villigt skifte manglende værdier mellem `None` og `NaN`. På grund af denne designfunktion kan det være nyttigt at tænke på `None` og `NaN` som to forskellige varianter af "null" i pandas. Faktisk afspejler nogle af de centrale metoder, du vil bruge til at håndtere manglende værdier i pandas, denne idé i deres navne:

- `isnull()`: Genererer en Boolean-maske, der angiver manglende værdier
- `notnull()`: Modsatte af `isnull()`
- `dropna()`: Returnerer en filtreret version af dataene
- `fillna()`: Returnerer en kopi af dataene med manglende værdier udfyldt eller estimeret

Disse metoder er vigtige at mestre og blive fortrolig med, så lad os gennemgå dem hver især i lidt dybde.


### Registrering af null-værdier

Nu hvor vi har forstået vigtigheden af manglende værdier, skal vi registrere dem i vores datasæt, før vi håndterer dem.  
Både `isnull()` og `notnull()` er dine primære metoder til at registrere null-data. Begge returnerer Boolean-masker over dine data.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Se nøje på outputtet. Er der noget af det, der overrasker dig? Selvom `0` er en aritmetisk nul, er det ikke desto mindre et fuldt gyldigt heltal, og pandas behandler det som sådan. `''` er lidt mere subtil. Selvom vi brugte det i Afsnit 1 til at repræsentere en tom strengværdi, er det ikke desto mindre et strengobjekt og ikke en repræsentation af null, når det kommer til pandas.

Lad os nu vende det om og bruge disse metoder på en måde, der minder mere om, hvordan du vil bruge dem i praksis. Du kan bruge Boolean-masker direkte som en ``Series``- eller ``DataFrame``-indeks, hvilket kan være nyttigt, når du forsøger at arbejde med isolerede manglende (eller tilstedeværende) værdier.

Hvis vi ønsker det samlede antal manglende værdier, kan vi blot lave en sum over masken, der produceres af `isnull()`-metoden.


In [19]:
example3.isnull().sum()

2

### Øvelse:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Vigtig pointe**: Både metoderne `isnull()` og `notnull()` giver lignende resultater, når du bruger dem i DataFrames: de viser resultaterne og indekset for disse resultater, hvilket vil hjælpe dig enormt, når du arbejder med dine data.


### Håndtering af manglende data

> **Læringsmål:** Ved slutningen af dette afsnit bør du vide, hvordan og hvornår du skal erstatte eller fjerne null-værdier fra DataFrames.

Maskinlæringsmodeller kan ikke selv håndtere manglende data. Derfor skal vi tage os af disse manglende værdier, inden vi sender dataene ind i modellen.

Måden, hvorpå manglende data håndteres, indebærer subtile afvejninger og kan påvirke din endelige analyse og resultater i den virkelige verden.

Der er primært to måder at håndtere manglende data på:

1.   Slet rækken, der indeholder den manglende værdi  
2.   Erstat den manglende værdi med en anden værdi  

Vi vil diskutere begge disse metoder samt deres fordele og ulemper i detaljer.


### Fjernelse af null-værdier

Mængden af data, vi giver til vores model, har en direkte indflydelse på dens ydeevne. At fjerne null-værdier betyder, at vi reducerer antallet af datapunkter og dermed størrelsen af datasættet. Derfor anbefales det at fjerne rækker med null-værdier, når datasættet er ret stort.

En anden situation kan være, at en bestemt række eller kolonne har mange manglende værdier. I så fald kan de fjernes, da de ikke vil bidrage væsentligt til vores analyse, fordi størstedelen af dataene mangler for den række/kolonne.

Udover at identificere manglende værdier tilbyder pandas en praktisk metode til at fjerne null-værdier fra `Series` og `DataFrame`s. For at se dette i praksis, lad os vende tilbage til `example3`. Funktionen `DataFrame.dropna()` hjælper med at fjerne rækker med null-værdier.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Bemærk, at dette skal ligne dit output fra `example3[example3.notnull()]`. Forskellen her er, at i stedet for blot at indeksere på de maskerede værdier, har `dropna` fjernet de manglende værdier fra `Series` `example3`.

Da DataFrames har to dimensioner, giver de flere muligheder for at fjerne data.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Lagde du mærke til, at pandas opgraderede to af kolonnerne til floats for at håndtere `NaN`-værdierne?)

Du kan ikke fjerne en enkelt værdi fra en `DataFrame`, så du er nødt til at fjerne hele rækker eller kolonner. Afhængigt af hvad du arbejder med, kan det være, at du vil gøre det ene eller det andet, og derfor giver pandas dig muligheder for begge dele. Fordi kolonner generelt repræsenterer variabler og rækker repræsenterer observationer inden for data science, er det mere sandsynligt, at du vil fjerne rækker af data; standardindstillingen for `dropna()` er at fjerne alle rækker, der indeholder nogen null-værdier:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Hvis nødvendigt, kan du fjerne NA-værdier fra kolonner. Brug `axis=1` til at gøre det:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Bemærk, at dette kan fjerne en del data, som du måske ønsker at beholde, især i mindre datasæt. Hvad hvis du kun vil fjerne rækker eller kolonner, der indeholder flere eller endda alle null-værdier? Du angiver disse indstillinger i `dropna` med parametrene `how` og `thresh`.

Som standard er `how='any'` (hvis du gerne vil kontrollere det selv eller se, hvilke andre parametre metoden har, kan du køre `example4.dropna?` i en kodecelle). Alternativt kan du angive `how='all'` for kun at fjerne rækker eller kolonner, der indeholder alle null-værdier. Lad os udvide vores eksempel `DataFrame` for at se dette i praksis i den næste øvelse.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Vigtige pointer:  
1. Det er kun en god idé at fjerne null-værdier, hvis datasættet er stort nok.  
2. Hele rækker eller kolonner kan fjernes, hvis størstedelen af deres data mangler.  
3. Metoden `DataFrame.dropna(axis=)` hjælper med at fjerne null-værdier. Argumentet `axis` angiver, om det er rækker eller kolonner, der skal fjernes.  
4. Argumentet `how` kan også bruges. Som standard er det sat til `any`. Det betyder, at kun de rækker/kolonner, der indeholder nogen null-værdier, fjernes. Det kan sættes til `all` for at specificere, at vi kun fjerner de rækker/kolonner, hvor alle værdier er null.  


### Øvelse:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh`-parameteren giver dig mere detaljeret kontrol: du angiver antallet af *ikke-null* værdier, som en række eller kolonne skal have for at blive bevaret:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Her er den første og sidste række blevet fjernet, fordi de kun indeholder to ikke-null værdier.


### Udfyldning af null-værdier

Det giver nogle gange mening at udfylde manglende værdier med nogle, der kunne være gyldige. Der er flere teknikker til at udfylde null-værdier. Den første er at bruge domæneviden (viden om det emne, som datasættet er baseret på) til på en eller anden måde at estimere de manglende værdier.

Du kunne bruge `isnull` til at gøre dette direkte, men det kan være tidskrævende, især hvis du har mange værdier, der skal udfyldes. Fordi dette er en så almindelig opgave inden for data science, tilbyder pandas `fillna`, som returnerer en kopi af `Series` eller `DataFrame` med de manglende værdier erstattet med en værdi, du vælger. Lad os oprette et andet eksempel på en `Series` for at se, hvordan dette fungerer i praksis.


### Kategoriske Data (Ikke-numerisk)
Lad os først se på ikke-numeriske data. I datasæt har vi kolonner med kategoriske data, f.eks. Køn, Sandt eller Falsk osv.

I de fleste af disse tilfælde erstatter vi manglende værdier med `mode` for kolonnen. Lad os sige, at vi har 100 datapunkter, hvor 90 har angivet Sandt, 8 har angivet Falsk, og 2 ikke har udfyldt. Så kan vi udfylde de 2 med Sandt, baseret på hele kolonnen.

Her kan vi igen bruge domæneviden. Lad os tage et eksempel på udfyldning med mode.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Som vi kan se, er null-værdien blevet erstattet. Det er unødvendigt at sige, at vi kunne have skrevet hvad som helst i stedet for `'True'`, og det ville være blevet erstattet.


### Numeriske Data
Nu, lad os se på numeriske data. Her har vi to almindelige måder at erstatte manglende værdier på:

1. Erstat med medianen af rækken
2. Erstat med gennemsnittet af rækken

Vi erstatter med medianen i tilfælde af skæve data med outliers. Dette skyldes, at medianen er robust over for outliers.

Når dataene er normaliserede, kan vi bruge gennemsnittet, da gennemsnit og median i så fald vil være ret tæt på hinanden.

Lad os først tage en kolonne, der er normalfordelt, og udfylde den manglende værdi med gennemsnittet af kolonnen.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Gennemsnittet af kolonnen er


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Som vi kan se, er den manglende værdi blevet erstattet med dens gennemsnit.


Nu lad os prøve en anden dataframe, og denne gang vil vi erstatte None-værdierne med medianen af kolonnen.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Medianen af den anden kolonne er


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Som vi kan se, er NaN-værdien blevet erstattet af medianen for kolonnen


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Du kan udfylde alle de tomme poster med en enkelt værdi, såsom `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Vigtige pointer:  
1. Udfyldning af manglende værdier bør kun ske, når der enten er få data, eller der findes en strategi til at udfylde de manglende data.  
2. Domæneviden kan bruges til at udfylde manglende værdier ved at estimere dem.  
3. For kategoriske data bliver manglende værdier oftest erstattet med modus for kolonnen.  
4. For numeriske data bliver manglende værdier normalt udfyldt med gennemsnittet (for normaliserede datasæt) eller medianen for kolonnerne.  


### Øvelse:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Du kan **forward-fill** null-værdier, hvilket vil sige at bruge den sidste gyldige værdi til at udfylde en null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Du kan også **bagudfylde** for at propagere den næste gyldige værdi bagud for at udfylde en null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Som du måske gætter, fungerer dette på samme måde med DataFrames, men du kan også angive en `axis`, langs hvilken null-værdier skal udfyldes:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Bemærk, at når en tidligere værdi ikke er tilgængelig for fremadfyldning, forbliver null-værdien.


### Øvelse:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Du kan være kreativ med, hvordan du bruger `fillna`. For eksempel, lad os se på `example4` igen, men denne gang lad os udfylde de manglende værdier med gennemsnittet af alle værdierne i `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Bemærk, at kolonne 3 stadig mangler værdier: standardretningen er at udfylde værdier rækkevis.

> **Hovedpointe:** Der er flere måder at håndtere manglende værdier i dine datasæt på. Den specifikke strategi, du vælger (at fjerne dem, erstatte dem eller endda hvordan du erstatter dem), bør afhænge af de specifikke forhold i dataene. Jo mere du arbejder med og interagerer med datasæt, desto bedre bliver du til at håndtere manglende værdier.


### Kodning af Kategoriske Data

Maskinlæringsmodeller arbejder kun med tal og enhver form for numeriske data. De kan ikke skelne mellem et Ja og et Nej, men de kan skelne mellem 0 og 1. Så efter at have udfyldt de manglende værdier, skal vi kode de kategoriske data til en numerisk form, som modellen kan forstå.

Kodning kan udføres på to måder. Vi vil diskutere dem i det følgende.


**LABEL ENCODERING**

Label-encodering handler grundlæggende om at konvertere hver kategori til et tal. For eksempel, lad os sige, at vi har et datasæt med flypassagerer, og der er en kolonne, der indeholder deres klasse blandt følgende ['business class', 'economy class', 'first class']. Hvis der udføres label-encodering på dette, vil det blive transformeret til [0,1,2]. Lad os se et eksempel via kode. Da vi kommer til at lære `scikit-learn` i de kommende notesbøger, vil vi ikke bruge det her.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


For at udføre label encoding på den første kolonne, skal vi først beskrive en mapping fra hver klasse til et nummer, før vi erstatter


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Som vi kan se, stemmer resultatet overens med, hvad vi forventede. Så hvornår bruger vi label encoding? Label encoding bruges i en eller begge af følgende tilfælde:
1. Når antallet af kategorier er stort
2. Når kategorierne er i rækkefølge.


**ONE HOT ENCODING**

En anden type kodning er One Hot Encoding. Ved denne type kodning bliver hver kategori i kolonnen tilføjet som en separat kolonne, og hver datapunkt får enten en 0 eller en 1, afhængigt af om det indeholder den pågældende kategori. Så hvis der er n forskellige kategorier, vil n kolonner blive tilføjet til dataframen.

For eksempel, lad os tage det samme eksempel med flyklasser. Kategorierne var: ['business class', 'economy class', 'first class']. Hvis vi udfører one hot encoding, vil de følgende tre kolonner blive tilføjet til datasættet: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Lad os udføre one hot encoding på den første kolonne


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Hver one-hot-kodet kolonne indeholder 0 eller 1, hvilket angiver, om den kategori findes for det datapunkt.


Hvornår bruger vi one hot encoding? One hot encoding bruges i en eller begge af følgende tilfælde:

1. Når antallet af kategorier og størrelsen på datasættet er mindre.
2. Når kategorierne ikke følger nogen bestemt rækkefølge.


> Vigtige pointer:
1. Kodning udføres for at konvertere ikke-numeriske data til numeriske data.
2. Der findes to typer kodning: Label-kodning og One Hot-kodning, som begge kan udføres afhængigt af datasetets behov.


## Fjernelse af duplikerede data

> **Læringsmål:** Ved slutningen af dette afsnit bør du være fortrolig med at identificere og fjerne duplikerede værdier fra DataFrames.

Ud over manglende data vil du ofte støde på duplikerede data i virkelige datasæt. Heldigvis tilbyder pandas en nem måde at opdage og fjerne duplikerede poster på.


### Identificering af dubletter: `duplicated`

Du kan nemt finde dubletter ved hjælp af metoden `duplicated` i pandas, som returnerer en Boolean-maske, der angiver, om en post i en `DataFrame` er en dublet af en tidligere. Lad os oprette et andet eksempel på en `DataFrame` for at se dette i praksis.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Fjernelse af dubletter: `drop_duplicates`
`drop_duplicates` returnerer blot en kopi af dataene, hvor alle værdier, der er `duplicated`, er `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Både `duplicated` og `drop_duplicates` tager som standard hensyn til alle kolonner, men du kan angive, at de kun skal undersøge et delmængde af kolonnerne i din `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Ansvarsfraskrivelse**:  
Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi er ikke ansvarlige for eventuelle misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.
