# Databeredning

[Original Notebook-källa från *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Utforska information i `DataFrame`

> **Lärandemål:** Efter denna del ska du känna dig bekväm med att hitta generell information om data som lagras i pandas DataFrames.

När du har laddat in din data i pandas kommer den med största sannolikhet att vara i en `DataFrame`. Men om datasettet i din `DataFrame` har 60,000 rader och 400 kolumner, hur börjar du ens få en uppfattning om vad du arbetar med? Lyckligtvis erbjuder pandas några praktiska verktyg för att snabbt få en översiktlig information om en `DataFrame` samt de första och sista raderna.

För att utforska denna funktionalitet kommer vi att importera Python-biblioteket scikit-learn och använda ett ikoniskt dataset som varje dataanalytiker har sett hundratals gånger: den brittiske biologen Ronald Fishers *Iris*-dataset som användes i hans artikel från 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Vi har laddat in Iris-datasetet i variabeln `iris_df`. Innan vi börjar analysera datan kan det vara värdefullt att veta hur många datapunkter vi har och den totala storleken på datasetet. Det är användbart att få en överblick över mängden data vi arbetar med.


In [2]:
iris_df.shape

(150, 4)

Så, vi har att göra med 150 rader och 4 kolumner av data. Varje rad representerar en datapunkt och varje kolumn representerar en enskild egenskap som är kopplad till dataframen. Så i princip finns det 150 datapunkter som vardera innehåller 4 egenskaper.

`shape` här är ett attribut för dataframen och inte en funktion, vilket är anledningen till att det inte avslutas med ett par parenteser.


### `DataFrame.columns`
Låt oss nu gå vidare till de 4 kolumnerna med data. Vad representerar var och en av dem egentligen? Attributet `columns` ger oss namnen på kolumnerna i dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Som vi kan se finns det fyra(4) kolumner. Attributet `columns` berättar namnen på kolumnerna och i princip inget annat. Detta attribut blir viktigt när vi vill identifiera vilka funktioner en dataset innehåller.


### `DataFrame.info`
Mängden data (angiven av attributet `shape`) och namnen på funktionerna eller kolumnerna (angiven av attributet `columns`) ger oss viss information om datasetet. Nu vill vi gå djupare in i datasetet. Funktionen `DataFrame.info()` är mycket användbar för detta.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Från detta kan vi göra några observationer:  
1. Datatypen för varje kolumn: I detta dataset är all data lagrad som 64-bitars flyttal.  
2. Antal icke-null-värden: Att hantera null-värden är ett viktigt steg i databeredningen. Detta kommer att behandlas senare i notebooken.  


### DataFrame.describe()
Anta att vi har mycket numerisk data i vårt dataset. Univariata statistiska beräkningar såsom medelvärde, median, kvartiler etc. kan göras på var och en av kolumnerna individuellt. Funktionen `DataFrame.describe()` ger oss en statistisk sammanfattning av de numeriska kolumnerna i ett dataset.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Utdata ovan visar det totala antalet datapunkter, medelvärde, standardavvikelse, minimum, nedre kvartil (25%), median (50%), övre kvartil (75%) och det maximala värdet för varje kolumn.


### `DataFrame.head`
Med alla ovanstående funktioner och attribut har vi fått en översikt av datasetet. Vi vet hur många datapunkter som finns, hur många egenskaper som finns, datatypen för varje egenskap och antalet icke-null-värden för varje egenskap.

Nu är det dags att titta på själva datan. Låt oss se hur de första raderna (de första datapunkterna) i vår `DataFrame` ser ut:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Som resultat här kan vi se fem(5) poster av datasetet. Om vi tittar på indexet till vänster, upptäcker vi att detta är de första fem raderna.


### Övning:

Från exemplet ovan är det tydligt att `DataFrame.head` som standard returnerar de första fem raderna i en `DataFrame`. Kan du i kodcellen nedan lista ut ett sätt att visa fler än fem rader?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Ett annat sätt att titta på data kan vara från slutet (istället för början). Motsatsen till `DataFrame.head` är `DataFrame.tail`, som returnerar de sista fem raderna i en `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


I praktiken är det användbart att enkelt kunna granska de första eller sista raderna i en `DataFrame`, särskilt när du letar efter avvikelser i ordnade dataset.

Alla funktioner och attribut som visas ovan med hjälp av kodexempel hjälper oss att få en överblick och känsla för datan.

> **Slutsats:** Bara genom att titta på metadata om informationen i en DataFrame eller de första och sista värdena i en, kan du snabbt få en uppfattning om storlek, form och innehåll i den data du arbetar med.


### Saknade Data
Låt oss dyka in i saknade data. Saknade data uppstår när inget värde är lagrat i vissa av kolumnerna.

Låt oss ta ett exempel: säg att någon är medveten om sin vikt och inte fyller i viktfältet i en enkät. Då kommer viktvärdet för den personen att saknas.

Oftast förekommer saknade värden i dataset från verkliga världen.

**Hur Pandas hanterar saknade data**

Pandas hanterar saknade värden på två sätt. Det första har du sett tidigare i tidigare avsnitt: `NaN`, eller Not a Number. Detta är faktiskt ett specialvärde som är en del av IEEE:s flyttalspecifikation och används endast för att indikera saknade flyttalsvärden.

För saknade värden som inte är flyttal använder pandas Python-objektet `None`. Även om det kan verka förvirrande att du kommer att stöta på två olika typer av värden som i princip säger samma sak, finns det goda programmatiska skäl för detta designval. I praktiken möjliggör detta att pandas kan erbjuda en bra kompromiss för de allra flesta fall. Trots detta har både `None` och `NaN` begränsningar som du behöver vara medveten om när det gäller hur de kan användas.


### `None`: icke-flytande saknade data
Eftersom `None` kommer från Python kan det inte användas i NumPy- och pandas-arrayer som inte har datatypen `'object'`. Kom ihåg att NumPy-arrayer (och datastrukturerna i pandas) kan innehålla endast en typ av data. Det är detta som ger dem deras enorma kraft för storskalig data- och beräkningsarbete, men det begränsar också deras flexibilitet. Sådana arrayer måste omvandlas till den "lägsta gemensamma nämnaren", datatypen som kan omfatta allt i arrayen. När `None` finns i arrayen betyder det att du arbetar med Python-objekt.

För att se detta i praktiken, överväg följande exempelarray (notera `dtype` för den):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Verkligheten med upphöjda datatyper medför två bieffekter. För det första kommer operationer att utföras på nivån av tolkad Python-kod snarare än kompilerad NumPy-kod. I praktiken innebär detta att alla operationer som involverar `Series` eller `DataFrames` med `None` i sig kommer att vara långsammare. Även om du förmodligen inte märker denna prestandaförlust, kan det bli ett problem för stora dataset.

Den andra bieffekten härrör från den första. Eftersom `None` i princip drar tillbaka `Series` eller `DataFrame`s till den vanliga Python-världen, kommer användning av NumPy/pandas-aggregationer som `sum()` eller `min()` på arrayer som innehåller ett ``None``-värde generellt att resultera i ett fel:


In [10]:
example1.sum()

TypeError: ignored

**Viktig poäng**: Addition (och andra operationer) mellan heltal och `None`-värden är odefinierad, vilket kan begränsa vad du kan göra med dataset som innehåller dem.


### `NaN`: saknade flyttalsvärden

Till skillnad från `None` stöder NumPy (och därmed pandas) `NaN` för sina snabba, vektoriserade operationer och ufuncs. Den dåliga nyheten är att all aritmetik som utförs på `NaN` alltid resulterar i `NaN`. Till exempel:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

De goda nyheterna: aggregeringar som körs på arrayer med `NaN` i dem ger inga fel. De dåliga nyheterna: resultaten är inte konsekvent användbara:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Övning:


In [11]:
# What happens if you add np.nan and None together?


Kom ihåg: `NaN` är endast för saknade flyttalsvärden; det finns ingen `NaN`-motsvarighet för heltal, strängar eller booleska värden.


### `NaN` och `None`: nullvärden i pandas

Även om `NaN` och `None` kan bete sig något olika, är pandas ändå utformat för att hantera dem som utbytbara. För att förstå vad vi menar, betrakta en `Series` av heltal:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Övning:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Vid uppgradering av datatyper för att skapa datahomogenitet i `Series` och `DataFrame`s, kommer pandas villigt att byta ut saknade värden mellan `None` och `NaN`. På grund av denna designfunktion kan det vara användbart att tänka på `None` och `NaN` som två olika varianter av "null" i pandas. Faktum är att några av de centrala metoderna du kommer att använda för att hantera saknade värden i pandas återspeglar denna idé i sina namn:

- `isnull()`: Genererar en Boolean-mask som indikerar saknade värden
- `notnull()`: Motsatsen till `isnull()`
- `dropna()`: Returnerar en filtrerad version av datan
- `fillna()`: Returnerar en kopia av datan med saknade värden fyllda eller imputerade

Dessa är viktiga metoder att bemästra och bli bekväm med, så låt oss gå igenom dem var och en lite mer ingående.


### Upptäcka nullvärden

Nu när vi har förstått vikten av saknade värden, behöver vi identifiera dem i vår dataset innan vi hanterar dem.  
Både `isnull()` och `notnull()` är dina primära metoder för att upptäcka nullvärden. Båda returnerar Boolean-masker över dina data.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Titta noga på resultatet. Är det något som förvånar dig? Även om `0` är ett aritmetiskt nollvärde, är det ändå ett fullvärdigt heltal och pandas behandlar det som sådant. `''` är lite mer subtilt. Även om vi använde det i avsnitt 1 för att representera ett tomt strängvärde, är det ändå ett strängobjekt och inte en representation av null enligt pandas.

Nu ska vi vända på detta och använda dessa metoder på ett sätt som liknar hur du kommer att använda dem i praktiken. Du kan använda Booleanska masker direkt som ett ``Series``- eller ``DataFrame``-index, vilket kan vara användbart när du försöker arbeta med isolerade saknade (eller befintliga) värden.

Om vi vill ha det totala antalet saknade värden kan vi helt enkelt summera masken som produceras av metoden `isnull()`.


In [19]:
example3.isnull().sum()

2

### Övning:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Viktig insikt**: Både metoderna `isnull()` och `notnull()` ger liknande resultat när du använder dem i DataFrames: de visar resultaten och indexet för dessa resultat, vilket kommer att hjälpa dig enormt när du arbetar med dina data.


### Hantering av saknade data

> **Lärandemål:** Efter att ha gått igenom denna del bör du veta hur och när du ska ersätta eller ta bort nullvärden från DataFrames.

Maskininlärningsmodeller kan inte hantera saknade data själva. Därför måste vi hantera dessa saknade värden innan vi skickar in datan i modellen.

Hur saknade data hanteras innebär subtila kompromisser och kan påverka din slutliga analys och verkliga resultat.

Det finns främst två sätt att hantera saknade data:

1.   Ta bort raden som innehåller det saknade värdet
2.   Ersätt det saknade värdet med något annat värde

Vi kommer att diskutera båda dessa metoder och deras för- och nackdelar i detalj.


### Ta bort nullvärden

Mängden data vi skickar vidare till vår modell har en direkt påverkan på dess prestanda. Att ta bort nullvärden innebär att vi minskar antalet datapunkter och därmed storleken på datasetet. Därför är det rekommenderat att ta bort rader med nullvärden när datasetet är ganska stort.

Ett annat exempel kan vara att en viss rad eller kolumn har många saknade värden. Då kan de tas bort eftersom de inte skulle tillföra mycket värde till vår analys, eftersom det mesta av datan saknas för den raden/kolumnen.

Utöver att identifiera saknade värden erbjuder pandas ett smidigt sätt att ta bort nullvärden från `Series` och `DataFrame`s. För att se detta i praktiken, låt oss återgå till `example3`. Funktionen `DataFrame.dropna()` hjälper till att ta bort rader med nullvärden.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Observera att detta ska se ut som ditt resultat från `example3[example3.notnull()]`. Skillnaden här är att, istället för att bara indexera på de maskerade värdena, har `dropna` tagit bort de saknade värdena från `Series` `example3`.

Eftersom DataFrames har två dimensioner, erbjuder de fler alternativ för att ta bort data.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Såg du att pandas konverterade två av kolumnerna till flyttal för att hantera `NaN`-värdena?)

Du kan inte ta bort en enskild värde från en `DataFrame`, så du måste ta bort hela rader eller kolumner. Beroende på vad du gör kan det vara mer lämpligt att välja det ena eller det andra, och därför ger pandas dig alternativ för båda. Eftersom kolumner i dataanalys vanligtvis representerar variabler och rader representerar observationer, är det mer sannolikt att du tar bort rader med data; standardinställningen för `dropna()` är att ta bort alla rader som innehåller några nullvärden:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Om det behövs kan du ta bort NA-värden från kolumner. Använd `axis=1` för att göra det:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Observera att detta kan ta bort mycket data som du kanske vill behålla, särskilt i mindre dataset. Vad händer om du bara vill ta bort rader eller kolumner som innehåller flera eller till och med bara alla nullvärden? Du anger dessa inställningar i `dropna` med parametrarna `how` och `thresh`.

Som standard är `how='any'` (om du vill kontrollera själv eller se vilka andra parametrar metoden har, kör `example4.dropna?` i en kodcell). Du kan alternativt ange `how='all'` för att endast ta bort rader eller kolumner som innehåller alla nullvärden. Låt oss utöka vårt exempel på `DataFrame` för att se detta i praktiken i nästa övning.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Viktiga punkter:  
1. Att ta bort nullvärden är en bra idé endast om datasetet är tillräckligt stort.  
2. Hela rader eller kolumner kan tas bort om de saknar större delen av sin data.  
3. Metoden `DataFrame.dropna(axis=)` hjälper till att ta bort nullvärden. Argumentet `axis` anger om rader eller kolumner ska tas bort.  
4. Argumentet `how` kan också användas. Som standard är det inställt på `any`, vilket innebär att endast de rader/kolumner som innehåller några nullvärden tas bort. Det kan ställas in på `all` för att ange att vi endast tar bort de rader/kolumner där alla värden är null.  


### Övning:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parametern `thresh` ger dig mer detaljerad kontroll: du anger antalet *icke-null* värden som en rad eller kolumn måste ha för att behållas:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Här har den första och sista raden tagits bort, eftersom de endast innehåller två icke-nollvärden.


### Fyll i nullvärden

Ibland kan det vara logiskt att fylla i saknade värden med sådana som kan vara giltiga. Det finns några tekniker för att fylla i nullvärden. Den första är att använda domänkunskap (kunskap om ämnet som datasetet baseras på) för att på något sätt approximera de saknade värdena.

Du kan använda `isnull` för att göra detta direkt, men det kan vara arbetskrävande, särskilt om du har många värden att fylla i. Eftersom detta är en så vanlig uppgift inom dataanalys, erbjuder pandas `fillna`, som returnerar en kopia av `Series` eller `DataFrame` där de saknade värdena ersätts med ett värde du väljer. Låt oss skapa ett annat exempel på `Series` för att se hur detta fungerar i praktiken.


### Kategoriska data (icke-numeriska)
Låt oss först titta på icke-numeriska data. I dataset har vi kolumner med kategoriska data, t.ex. kön, sant eller falskt osv.

I de flesta av dessa fall ersätter vi saknade värden med kolumnens `mode`. Anta att vi har 100 datapunkter där 90 har angett sant, 8 har angett falskt och 2 har inte fyllt i. Då kan vi fylla de 2 saknade värdena med sant, baserat på hela kolumnen.

Även här kan vi använda domänkunskap. Låt oss titta på ett exempel på att fylla med mode.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Som vi kan se har nullvärdet ersatts. Det säger sig självt att vi kunde ha skrivit vad som helst istället för `'True'` och det skulle ha blivit ersatt.


### Numerisk data
Nu går vi vidare till numerisk data. Här har vi två vanliga sätt att ersätta saknade värden:

1. Ersätt med medianen för raden  
2. Ersätt med medelvärdet för raden  

Vi ersätter med medianen när det handlar om snedfördelad data med avvikande värden. Detta beror på att medianen är robust mot avvikande värden.

När datan är normaliserad kan vi använda medelvärdet, eftersom medelvärde och median i det fallet skulle ligga ganska nära varandra.

Låt oss först ta en kolumn som är normalfördelad och fylla i det saknade värdet med kolumnens medelvärde.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Medelvärdet av kolumnen är


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Som vi kan se har det saknade värdet ersatts med sitt medelvärde.


Nu låt oss prova en annan dataframe, och den här gången kommer vi att ersätta None-värdena med medianen av kolumnen.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Medianen av den andra kolumnen är


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Som vi kan se har NaN-värdet ersatts med medianen av kolumnen


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Du kan fylla alla tomma poster med ett enda värde, såsom `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Viktiga punkter:
1. Att fylla i saknade värden bör göras antingen när det finns lite data eller när det finns en strategi för att fylla i de saknade värdena.
2. Domänkunskap kan användas för att fylla i saknade värden genom att approximera dem.
3. För kategoriska data ersätts saknade värden oftast med kolumnens typvärde.
4. För numeriska data fylls saknade värden vanligtvis i med medelvärdet (för normaliserade dataset) eller medianen av kolumnerna.


### Övning:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Du kan **framåtifylla** nullvärden, vilket innebär att använda det senaste giltiga värdet för att fylla ett null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Du kan också **bakåtifylla** för att sprida nästa giltiga värde bakåt för att fylla ett null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Som du kanske kan gissa fungerar detta på samma sätt med DataFrames, men du kan också ange en `axis` längs vilken du vill fylla nullvärden:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Observera att när ett tidigare värde inte är tillgängligt för framåtfyllning, kvarstår nullvärdet.


### Övning:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Du kan vara kreativ med hur du använder `fillna`. Till exempel, låt oss titta på `example4` igen, men den här gången fyller vi de saknade värdena med genomsnittet av alla värden i `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Observera att kolumn 3 fortfarande saknar värden: standardriktningen är att fylla värden radvis.

> **Slutsats:** Det finns flera sätt att hantera saknade värden i dina dataset. Den specifika strategi du använder (ta bort dem, ersätta dem, eller till och med hur du ersätter dem) bör styras av detaljerna i den specifika datan. Du kommer att utveckla en bättre känsla för hur du hanterar saknade värden ju mer du arbetar med och interagerar med dataset.


### Kodning av kategoriska data

Maskininlärningsmodeller hanterar endast siffror och all typ av numerisk data. De kan inte skilja mellan ett Ja och ett Nej, men de kan skilja mellan 0 och 1. Så efter att ha fyllt i de saknade värdena behöver vi koda den kategoriska datan till någon form av numerisk representation för att modellen ska kunna förstå.

Kodning kan göras på två sätt. Vi kommer att diskutera dem härnäst.


**ETIKETTKODNING**

Etikettkodning innebär att varje kategori omvandlas till ett nummer. Till exempel, säg att vi har en dataset med flygpassagerare och det finns en kolumn som innehåller deras klass bland följande ['business class', 'economy class', 'first class']. Om etikettkodning görs på detta, skulle det omvandlas till [0,1,2]. Låt oss se ett exempel via kod. Eftersom vi kommer att lära oss `scikit-learn` i de kommande anteckningsböckerna, kommer vi inte att använda det här.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


För att utföra etikettkodning på den första kolumnen måste vi först beskriva en mappning från varje klass till ett nummer, innan vi ersätter


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Som vi kan se, stämmer resultatet överens med vad vi förväntade oss. Så, när använder vi etikettkodning? Etikettkodning används i ett eller båda av följande fall:  
1. När antalet kategorier är stort  
2. När kategorierna har en ordning.  


**ONE HOT ENCODING**

En annan typ av kodning är One Hot Encoding. I denna typ av kodning läggs varje kategori i kolumnen till som en separat kolumn, och varje datapunkt får en 0 eller en 1 beroende på om den innehåller den kategorin eller inte. Så, om det finns n olika kategorier, kommer n kolumner att läggas till i dataramen.

Till exempel, låt oss ta samma exempel med flygplansklasser. Kategorierna var: ['business class', 'economy class', 'first class']. Om vi utför one hot encoding, kommer följande tre kolumner att läggas till i datasetet: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Låt oss utföra one hot encoding på den första kolumnen


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Varje one-hot-kodad kolumn innehåller 0 eller 1, vilket anger om den kategorin existerar för den datapunkten.


När använder vi one hot encoding? One hot encoding används i ett eller båda av följande fall:

1. När antalet kategorier och storleken på datasetet är mindre.
2. När kategorierna inte följer någon särskild ordning.


> Viktiga punkter:
1. Kodning görs för att omvandla icke-numerisk data till numerisk data.
2. Det finns två typer av kodning: Label encoding och One Hot encoding, som båda kan utföras beroende på datasetets behov.


## Ta bort duplicerad data

> **Lärandemål:** Efter denna del ska du känna dig bekväm med att identifiera och ta bort duplicerade värden från DataFrames.

Förutom saknade data kommer du ofta stöta på duplicerad data i verkliga dataset. Lyckligtvis erbjuder pandas ett enkelt sätt att upptäcka och ta bort duplicerade poster.


### Identifiera dubbletter: `duplicated`

Du kan enkelt hitta dubbla värden med metoden `duplicated` i pandas, som returnerar en Boolean-mask som visar om en post i en `DataFrame` är en kopia av en tidigare. Låt oss skapa ett annat exempel på en `DataFrame` för att se detta i praktiken.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Ta bort dubbletter: `drop_duplicates`
`drop_duplicates` returnerar helt enkelt en kopia av data där alla värden som är `duplicated` är `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Både `duplicated` och `drop_duplicates` har som standard att ta hänsyn till alla kolumner, men du kan ange att de endast ska undersöka en delmängd av kolumner i din `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Ansvarsfriskrivning**:  
Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, vänligen notera att automatiska översättningar kan innehålla fel eller felaktigheter. Det ursprungliga dokumentet på dess originalspråk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning.
