# Datapreparering

[Original Notebook-kilde fra *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Utforske informasjon i `DataFrame`

> **Læringsmål:** Etter å ha fullført denne delen, bør du være komfortabel med å finne generell informasjon om dataene som er lagret i pandas DataFrames.

Når du har lastet inn dataene dine i pandas, vil de mest sannsynlig være i en `DataFrame`. Men hvis datasettet i din `DataFrame` har 60 000 rader og 400 kolonner, hvordan begynner du i det hele tatt å få en forståelse av hva du jobber med? Heldigvis tilbyr pandas noen praktiske verktøy for raskt å se overordnet informasjon om en `DataFrame` i tillegg til de første og siste radene.

For å utforske denne funksjonaliteten, vil vi importere Python-biblioteket scikit-learn og bruke et ikonisk datasett som enhver dataforsker har sett hundrevis av ganger: Den britiske biologen Ronald Fishers *Iris*-datasett brukt i hans artikkel fra 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Vi har lastet inn Iris-datasettet i variabelen `iris_df`. Før vi dykker ned i dataene, kan det være nyttig å vite hvor mange datapunkter vi har og den totale størrelsen på datasettet. Det er verdifullt å få en oversikt over mengden data vi jobber med.


In [2]:
iris_df.shape

(150, 4)

Så, vi har 150 rader og 4 kolonner med data. Hver rad representerer ett datapunkt, og hver kolonne representerer en enkelt egenskap knyttet til datarammen. Så i bunn og grunn er det 150 datapunkter som inneholder 4 egenskaper hver.

`shape` her er en attributt til datarammen og ikke en funksjon, derfor slutter den ikke med et par parenteser.


### `DataFrame.columns`
La oss nå se nærmere på de 4 kolonnene med data. Hva representerer hver av dem egentlig? Attributtet `columns` gir oss navnene på kolonnene i dataframen.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Som vi kan se, er det fire (4) kolonner. Attributtet `columns` forteller oss navnene på kolonnene og egentlig ingenting annet. Dette attributtet blir viktig når vi ønsker å identifisere hvilke funksjoner et datasett inneholder.


### `DataFrame.info`
Mengden data (gitt av attributtet `shape`) og navnene på funksjonene eller kolonnene (gitt av attributtet `columns`) gir oss noe informasjon om datasettet. Nå ønsker vi å gå dypere inn i datasettet. Funksjonen `DataFrame.info()` er svært nyttig for dette.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Fra dette kan vi gjøre noen observasjoner:  
1. Datatypen for hver kolonne: I dette datasettet er alle data lagret som 64-biters flyttall.  
2. Antall ikke-null verdier: Håndtering av nullverdier er et viktig steg i databehandling. Dette vil bli tatt hånd om senere i notatboken.  


### DataFrame.describe()
La oss si at vi har mye numerisk data i datasettet vårt. Envariat statistiske beregninger som gjennomsnitt, median, kvartiler osv. kan utføres på hver av kolonnene individuelt. Funksjonen `DataFrame.describe()` gir oss en statistisk oppsummering av de numeriske kolonnene i et datasett.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Utdataene ovenfor viser det totale antallet datapunkter, gjennomsnitt, standardavvik, minimum, nedre kvartil (25 %), median (50 %), øvre kvartil (75 %) og maksimumsverdien for hver kolonne.


### `DataFrame.head`
Med alle funksjonene og attributtene nevnt ovenfor, har vi fått et overordnet bilde av datasettet. Vi vet hvor mange datapunkter som finnes, hvor mange egenskaper det er, datatypen til hver egenskap og antall ikke-null verdier for hver egenskap.

Nå er det på tide å se på selve dataene. La oss se hvordan de første radene (de første datapunktene) i vår `DataFrame` ser ut:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Som output her kan vi se fem(5) oppføringer av datasettet. Hvis vi ser på indeksen til venstre, finner vi ut at dette er de første fem radene.


### Øvelse:

Fra eksempelet ovenfor er det tydelig at `DataFrame.head` som standard returnerer de fem første radene i en `DataFrame`. I kodecellen nedenfor, kan du finne en måte å vise mer enn fem rader på?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
En annen måte å se på dataene kan være fra slutten (i stedet for starten). Motstykket til `DataFrame.head` er `DataFrame.tail`, som returnerer de siste fem radene i en `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


I praksis er det nyttig å enkelt kunne undersøke de første eller siste radene i en `DataFrame`, spesielt når du leter etter avvik i ordnede datasett.

Alle funksjonene og attributtene som er vist ovenfor med hjelp av kodeeksempler, hjelper oss med å få et inntrykk av dataene.

> **Hovedpoeng:** Bare ved å se på metadataene om informasjonen i en DataFrame eller de første og siste verdiene i en, kan du umiddelbart få en idé om størrelsen, formen og innholdet i dataene du jobber med.


### Manglende Data
La oss dykke ned i manglende data. Manglende data oppstår når ingen verdi er lagret i noen av kolonnene.

La oss ta et eksempel: si at noen er bevisst på vekten sin og ikke fyller ut vektfeltet i en undersøkelse. Da vil vektverdien for denne personen være manglende.

I de fleste tilfeller oppstår manglende verdier i datasett fra den virkelige verden.

**Hvordan Pandas håndterer manglende data**

Pandas håndterer manglende verdier på to måter. Den første har du sett tidligere i tidligere seksjoner: `NaN`, eller Not a Number. Dette er faktisk en spesiell verdi som er en del av IEEE-flyttallsstandarden, og den brukes kun til å indikere manglende flyttallsverdier.

For manglende verdier som ikke er flyttall, bruker pandas Python-objektet `None`. Selv om det kan virke forvirrende at du vil støte på to forskjellige typer verdier som i hovedsak sier det samme, finnes det gode programmatiske grunner for dette designvalget. I praksis gjør denne tilnærmingen det mulig for pandas å levere et godt kompromiss for de aller fleste tilfeller. Til tross for dette har både `None` og `NaN` begrensninger som du må være oppmerksom på med hensyn til hvordan de kan brukes.


### `None`: ikke-flyttende manglende data
Siden `None` kommer fra Python, kan det ikke brukes i NumPy- og pandas-arrays som ikke har datatypen `'object'`. Husk at NumPy-arrays (og datastrukturene i pandas) kun kan inneholde én type data. Dette er det som gir dem deres enorme kraft for storskala data- og beregningsarbeid, men det begrenser også fleksibiliteten deres. Slike arrays må oppgradere til den "laveste fellesnevneren," datatypen som kan omfatte alt i arrayet. Når `None` er i arrayet, betyr det at du jobber med Python-objekter.

For å se dette i praksis, vurder følgende eksempel-array (merk `dtype` for det):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realiteten med opphevede datatyper fører med seg to bivirkninger. For det første vil operasjoner utføres på nivået av tolket Python-kode i stedet for kompilert NumPy-kode. I praksis betyr dette at alle operasjoner som involverer `Series` eller `DataFrames` med `None` i seg, vil være tregere. Selv om du sannsynligvis ikke vil merke dette ytelsestapet, kan det bli et problem for store datasett.

Den andre bivirkningen stammer fra den første. Fordi `None` i hovedsak trekker `Series` eller `DataFrame`s tilbake til den grunnleggende Python-verdenen, vil bruk av NumPy/pandas-aggregasjoner som `sum()` eller `min()` på arrays som inneholder en ``None``-verdi generelt føre til en feil:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: manglende flyttallsverdier

I motsetning til `None` støtter NumPy (og dermed pandas) `NaN` for sine raske, vektoriserte operasjoner og ufuncs. Den dårlige nyheten er at enhver aritmetikk utført på `NaN` alltid resulterer i `NaN`. For eksempel:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Den gode nyheten: aggregeringer som kjøres på matriser med `NaN` i dem gir ikke feil. Den dårlige nyheten: resultatene er ikke alltid like nyttige:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` og `None`: nullverdier i pandas

Selv om `NaN` og `None` kan oppføre seg litt forskjellig, er pandas likevel laget for å håndtere dem om hverandre. For å forstå hva vi mener, se på en `Series` med heltall:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


I prosessen med å oppgradere datatyper for å etablere datalikhet i `Series` og `DataFrame`s, vil pandas villig bytte mellom manglende verdier som `None` og `NaN`. På grunn av denne designfunksjonen kan det være nyttig å tenke på `None` og `NaN` som to forskjellige varianter av "null" i pandas. Faktisk reflekterer noen av de sentrale metodene du vil bruke for å håndtere manglende verdier i pandas denne ideen i navnene deres:

- `isnull()`: Genererer en boolsk maske som indikerer manglende verdier
- `notnull()`: Motsatt av `isnull()`
- `dropna()`: Returnerer en filtrert versjon av dataene
- `fillna()`: Returnerer en kopi av dataene med manglende verdier fylt inn eller estimert

Disse er viktige metoder å mestre og bli komfortabel med, så la oss gå gjennom hver av dem i litt mer detalj.


### Oppdage nullverdier

Nå som vi har forstått viktigheten av manglende verdier, må vi oppdage dem i datasettet vårt før vi håndterer dem.  
Både `isnull()` og `notnull()` er dine primære metoder for å oppdage nullverdier. Begge returnerer boolske masker over dataene dine.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Se nøye på resultatet. Er det noe som overrasker deg? Selv om `0` er en aritmetisk null, er det likevel et fullverdig heltall, og pandas behandler det som sådan. `''` er litt mer subtilt. Selv om vi brukte det i Seksjon 1 for å representere en tom strengverdi, er det likevel et strengobjekt og ikke en representasjon av null slik pandas ser det.

La oss nå snu dette rundt og bruke disse metodene på en måte som ligner mer på hvordan du vil bruke dem i praksis. Du kan bruke boolske masker direkte som en ``Series``- eller ``DataFrame``-indeks, noe som kan være nyttig når du prøver å jobbe med isolerte manglende (eller tilstedeværende) verdier.

Hvis vi ønsker det totale antallet manglende verdier, kan vi bare summere masken som produseres av `isnull()`-metoden.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


### Håndtering av manglende data

> **Læringsmål:** Etter denne delen skal du vite hvordan og når du bør erstatte eller fjerne nullverdier fra DataFrames.

Maskinlæringsmodeller kan ikke håndtere manglende data direkte. Derfor må vi ta hånd om disse manglende verdiene før vi sender dataene inn i modellen.

Hvordan manglende data håndteres innebærer subtile avveininger, og kan påvirke både den endelige analysen og resultater i virkelige situasjoner.

Det finnes hovedsakelig to måter å håndtere manglende data på:

1.   Slette raden som inneholder den manglende verdien
2.   Erstatte den manglende verdien med en annen verdi

Vi vil diskutere begge disse metodene og deres fordeler og ulemper i detalj.


### Fjerne nullverdier

Mengden data vi gir til modellen vår har en direkte innvirkning på ytelsen. Å fjerne nullverdier betyr at vi reduserer antall datapunkter, og dermed reduserer størrelsen på datasettet. Derfor er det lurt å fjerne rader med nullverdier når datasettet er ganske stort.

En annen situasjon kan være at en bestemt rad eller kolonne har mange manglende verdier. Da kan de fjernes fordi de ikke vil tilføre særlig verdi til analysen vår, ettersom mesteparten av dataene mangler for den raden/kolonnen.

I tillegg til å identifisere manglende verdier, gir pandas en praktisk måte å fjerne nullverdier fra `Series` og `DataFrame`s. For å se dette i praksis, la oss gå tilbake til `example3`. Funksjonen `DataFrame.dropna()` hjelper med å fjerne rader med nullverdier.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Merk at dette skal se ut som resultatet fra `example3[example3.notnull()]`. Forskjellen her er at, i stedet for bare å indeksere på de maskerte verdiene, har `dropna` fjernet de manglende verdiene fra `Series`-objektet `example3`.

Siden DataFrames har to dimensjoner, gir de flere muligheter for å fjerne data.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(La du merke til at pandas oppgraderte to av kolonnene til flyttall for å håndtere `NaN`-verdiene?)

Du kan ikke fjerne en enkelt verdi fra en `DataFrame`, så du må fjerne hele rader eller kolonner. Avhengig av hva du jobber med, kan det være at du ønsker å gjøre det ene eller det andre, og derfor gir pandas deg alternativer for begge deler. Fordi kolonner generelt representerer variabler og rader representerer observasjoner i dataanalyse, er det mer sannsynlig at du fjerner rader med data. Standardinnstillingen for `dropna()` er å fjerne alle rader som inneholder noen nullverdier:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Hvis nødvendig, kan du fjerne NA-verdier fra kolonner. Bruk `axis=1` for å gjøre det:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Merk at dette kan fjerne mye data som du kanskje ønsker å beholde, spesielt i mindre datasett. Hva om du bare vil fjerne rader eller kolonner som inneholder flere eller til og med bare alle nullverdier? Du angir disse innstillingene i `dropna` med parameterne `how` og `thresh`.

Som standard er `how='any'` (hvis du vil sjekke selv eller se hvilke andre parametere metoden har, kan du kjøre `example4.dropna?` i en kodecelle). Du kan alternativt spesifisere `how='all'` for kun å fjerne rader eller kolonner som inneholder alle nullverdier. La oss utvide vårt eksempel `DataFrame` for å se dette i praksis i neste øvelse.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Viktige punkter:  
1. Å fjerne null-verdier er en god idé bare hvis datasettet er stort nok.  
2. Hele rader eller kolonner kan fjernes hvis mesteparten av dataene mangler.  
3. Metoden `DataFrame.dropna(axis=)` hjelper med å fjerne null-verdier. Argumentet `axis` angir om rader eller kolonner skal fjernes.  
4. Argumentet `how` kan også brukes. Som standard er det satt til `any`. Det betyr at det kun fjerner de radene/kolonnene som inneholder noen null-verdier. Det kan settes til `all` for å spesifisere at vi kun fjerner de radene/kolonnene hvor alle verdier er null.  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh`-parameteren gir deg mer finjustert kontroll: du angir antall *ikke-null* verdier som en rad eller kolonne må ha for å beholdes:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### Fylle inn nullverdier

Noen ganger gir det mening å fylle inn manglende verdier med verdier som kan være gyldige. Det finnes flere teknikker for å fylle inn nullverdier. Den første er å bruke domenekunnskap (kunnskap om emnet datasettet er basert på) for å på en eller annen måte anslå de manglende verdiene.

Du kan bruke `isnull` for å gjøre dette direkte, men det kan være tidkrevende, spesielt hvis du har mange verdier som må fylles inn. Siden dette er en så vanlig oppgave innen datavitenskap, tilbyr pandas `fillna`, som returnerer en kopi av `Series` eller `DataFrame` der de manglende verdiene er erstattet med en verdi du velger. La oss lage et annet eksempel på en `Series` for å se hvordan dette fungerer i praksis.


### Kategoriske data (ikke-numeriske)
La oss først se på ikke-numeriske data. I datasett har vi kolonner med kategoriske data, f.eks. Kjønn, Sant eller Usant osv.

I de fleste av disse tilfellene erstatter vi manglende verdier med `modus` for kolonnen. Si at vi har 100 datapunkter, og 90 har sagt Sant, 8 har sagt Usant, og 2 har ikke fylt ut. Da kan vi fylle de 2 med Sant, med tanke på hele kolonnen.

Igjen, her kan vi bruke domenekunnskap. La oss se på et eksempel på utfylling med modus.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


### Numeriske Data
La oss nå se på numeriske data. Her har vi to vanlige metoder for å erstatte manglende verdier:

1. Erstatte med medianen av raden  
2. Erstatte med gjennomsnittet av raden  

Vi erstatter med medianen i tilfeller med skjev data som inneholder uteliggere. Dette er fordi medianen er robust mot uteliggere.

Når dataene er normaliserte, kan vi bruke gjennomsnittet, ettersom gjennomsnitt og median i slike tilfeller vil være ganske like.

Først, la oss ta en kolonne som er normalfordelt og fylle inn de manglende verdiene med gjennomsnittet av kolonnen.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Gjennomsnittet av kolonnen er


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


La oss nå prøve en annen dataframe, og denne gangen vil vi erstatte None-verdiene med medianen av kolonnen.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Medianen av den andre kolonnen er


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Som vi kan se, har NaN-verdien blitt erstattet med medianen av kolonnen


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Du kan fylle alle nulloppføringer med en enkelt verdi, som `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Viktige punkter:
1. Å fylle inn manglende verdier bør gjøres enten når det er lite data eller når det finnes en strategi for å fylle inn de manglende verdiene.  
2. Domenekunnskap kan brukes til å fylle inn manglende verdier ved å anslå dem.  
3. For kategoriske data blir manglende verdier som oftest erstattet med modus for kolonnen.  
4. For numeriske data blir manglende verdier vanligvis fylt inn med gjennomsnittet (for normaliserte datasett) eller medianen for kolonnene.  


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Du kan også **back-fylle** for å propagere den neste gyldige verdien bakover for å fylle en null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Som du kanskje gjetter, fungerer dette på samme måte med DataFrames, men du kan også spesifisere en `axis` langs hvilken du vil fylle nullverdier:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Du kan være kreativ med hvordan du bruker `fillna`. For eksempel, la oss se på `example4` igjen, men denne gangen fyller vi de manglende verdiene med gjennomsnittet av alle verdiene i `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Merk at kolonne 3 fortsatt mangler verdier: standardretningen er å fylle verdier radvis.

> **Hovedpoeng:** Det finnes flere måter å håndtere manglende verdier i datasettene dine på. Den spesifikke strategien du velger (å fjerne dem, erstatte dem, eller hvordan du erstatter dem) bør styres av de spesifikke egenskapene til dataene. Du vil utvikle en bedre forståelse for hvordan du håndterer manglende verdier jo mer du jobber med og analyserer datasett.


### Koding av kategoriske data

Maskinlæringsmodeller håndterer kun tall og enhver form for numeriske data. De kan ikke skille mellom Ja og Nei, men de kan skille mellom 0 og 1. Så, etter at vi har fylt inn de manglende verdiene, må vi kode de kategoriske dataene til en numerisk form som modellen kan forstå.

Koding kan gjøres på to måter. Vi skal diskutere dem videre.


**ETIKETTKODING**

Etikettkoding innebærer i hovedsak å konvertere hver kategori til et tall. For eksempel, si at vi har et datasett med flypassasjerer, og det finnes en kolonne som inneholder deres klasse blant følgende ['business class', 'economy class', 'first class']. Hvis etikettkoding utføres på dette, vil det bli transformert til [0,1,2]. La oss se et eksempel via kode. Siden vi skal lære `scikit-learn` i de kommende notatbøkene, vil vi ikke bruke det her.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


For å utføre etikettkoding på den første kolonnen, må vi først beskrive en mapping fra hver klasse til et tall, før vi erstatter


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Som vi kan se, stemmer resultatet med det vi forventet. Så, når bruker vi etikettkoding? Etikettkoding brukes i ett eller begge av følgende tilfeller:
1. Når antallet kategorier er stort
2. Når kategoriene har en rekkefølge.


**ONE HOT ENCODING**

En annen type koding er One Hot Encoding. I denne typen koding blir hver kategori i kolonnen lagt til som en separat kolonne, og hver datapunkt får enten 0 eller 1 basert på om det inneholder den kategorien. Så, hvis det er n forskjellige kategorier, vil n kolonner bli lagt til i datasettet.

For eksempel, la oss ta det samme eksempelet med flyklasser. Kategoriene var: ['business class', 'economy class', 'first class']. Så, hvis vi utfører one hot encoding, vil følgende tre kolonner bli lagt til i datasettet: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


La oss utføre one hot encoding på den første kolonnen


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Hver én-kodet kolonne inneholder 0 eller 1, som angir om den kategorien eksisterer for det datapunktet.


Når bruker vi one hot encoding? One hot encoding brukes i ett eller begge av følgende tilfeller:

1. Når antall kategorier og størrelsen på datasettet er mindre.
2. Når kategoriene ikke følger noen bestemt rekkefølge.


> Viktige punkter:
1. Koding brukes for å konvertere ikke-numeriske data til numeriske data.
2. Det finnes to typer koding: Etikettkoding og One Hot-koding, som begge kan utføres basert på datasetets behov.


## Fjerne dupliserte data

> **Læringsmål:** Etter å ha fullført denne underseksjonen, bør du være komfortabel med å identifisere og fjerne dupliserte verdier fra DataFrames.

I tillegg til manglende data, vil du ofte støte på dupliserte data i virkelige datasett. Heldigvis tilbyr pandas en enkel måte å oppdage og fjerne dupliserte oppføringer på.


### Identifisere duplikater: `duplicated`

Du kan enkelt finne dupliserte verdier ved å bruke metoden `duplicated` i pandas, som returnerer en boolsk maske som indikerer om en oppføring i en `DataFrame` er en duplikat av en tidligere oppføring. La oss lage et annet eksempel på en `DataFrame` for å se dette i praksis.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Fjerne duplikater: `drop_duplicates`
`drop_duplicates` returnerer enkelt og greit en kopi av dataene der alle verdiene som er `duplicated` er `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Både `duplicated` og `drop_duplicates` vurderer som standard alle kolonner, men du kan spesifisere at de kun skal undersøke en delmengde av kolonnene i din `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Ansvarsfraskrivelse**:  
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi tilstreber nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.
