# Datan valmistelu

[Alkuperäinen muistikirja *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame`-tietojen tutkiminen

> **Oppimistavoite:** Tämän alajakson lopussa sinun pitäisi osata löytää yleistä tietoa pandas DataFrame -tietojen sisällöstä.

Kun olet ladannut datasi pandas-kirjastoon, se on todennäköisesti `DataFrame`-muodossa. Mutta jos `DataFrame` sisältää 60 000 riviä ja 400 saraketta, mistä edes aloitat saadaksesi käsityksen siitä, mitä sinulla on käsissäsi? Onneksi pandas tarjoaa käteviä työkaluja, joilla voit nopeasti tarkastella `DataFrame`-kokonaisuuden tietoja sekä ensimmäisiä että viimeisiä rivejä.

Tämän toiminnallisuuden tutkimiseksi tuomme käyttöön Pythonin scikit-learn-kirjaston ja käytämme ikonista datasettiä, jonka jokainen data-analyytikko on nähnyt satoja kertoja: brittiläisen biologin Ronald Fisherin *Iris*-datasetti, jota hän käytti vuonna 1936 julkaistussa artikkelissaan "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Olemme ladanneet Iris-datasarjan muuttujaan `iris_df`. Ennen kuin sukellamme dataan, olisi hyödyllistä tietää, kuinka monta datapistettä meillä on ja mikä on datasarjan kokonaiskoko. On hyödyllistä tarkastella datan määrää, jonka kanssa työskentelemme.


In [2]:
iris_df.shape

(150, 4)

Kyseessä on 150 riviä ja 4 saraketta sisältävä data. Jokainen rivi edustaa yhtä datapistettä, ja jokainen sarake vastaa yhtä ominaisuutta, joka liittyy datafreimiin. Käytännössä siis on 150 datapistettä, joista jokaisella on 4 ominaisuutta.

`shape` on tässä datafreimin attribuutti eikä funktio, minkä vuoksi se ei pääty sulkuihin.


### `DataFrame.columns`
Siirrytään nyt neljään datan sarakkeeseen. Mitä kukin niistä tarkalleen ottaen edustaa? `columns`-attribuutti antaa meille dataframeen kuuluvien sarakkeiden nimet.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Kuten voimme nähdä, on neljä (4) saraketta. `columns`-attribuutti kertoo meille sarakkeiden nimet eikä käytännössä mitään muuta. Tämä attribuutti saa merkitystä, kun haluamme tunnistaa, mitä ominaisuuksia tietojoukko sisältää.


### `DataFrame.info`
Tietomäärä (annettu `shape`-attribuutilla) ja ominaisuuksien tai sarakkeiden nimet (annettu `columns`-attribuutilla) kertovat meille jotain tietojoukosta. Nyt haluaisimme tutkia tietojoukkoa syvällisemmin. `DataFrame.info()`-funktio on tässä erittäin hyödyllinen.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Tästä voimme tehdä muutamia havaintoja:  
1. Kunkin sarakkeen tietotyyppi: Tässä datasetissä kaikki tiedot on tallennettu 64-bittisinä liukulukuina.  
2. Ei-null-arvojen lukumäärä: Null-arvojen käsittely on tärkeä vaihe datan valmistelussa. Tämä käsitellään myöhemmin muistikirjassa.  


### DataFrame.describe()
Oletetaan, että datasetissämme on paljon numeerista dataa. Yksittäisiä tilastollisia laskelmia, kuten keskiarvo, mediaani, kvartiilit jne., voidaan tehdä jokaiselle sarakkeelle erikseen. `DataFrame.describe()`-funktio tarjoaa tilastollisen yhteenvedon datasetin numeerisista sarakkeista.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Yllä oleva tulos näyttää kunkin sarakkeen kokonaisdatapisteiden määrän, keskiarvon, keskihajonnan, minimiarvon, alaneljänneksen (25%), mediaanin (50%), yläneljänneksen (75%) ja maksimiarvon.


### `DataFrame.head`
Kaikkien edellä mainittujen funktioiden ja attribuuttien avulla olemme saaneet yleiskuvan datasta. Tiedämme, kuinka monta datapistettä on, kuinka monta ominaisuutta on, kunkin ominaisuuden tietotyypin ja kuinka monta ei-null-arvoa kullekin ominaisuudelle.

Nyt on aika tarkastella itse dataa. Katsotaan, miltä `DataFrame`:n ensimmäiset rivit (ensimmäiset datapisteet) näyttävät:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kuten tässä tuloksessa näemme, datasetistä on viisi (5) merkintää. Jos katsomme vasemmalla olevaa indeksiä, huomaamme, että nämä ovat ensimmäiset viisi riviä.


### Harjoitus:

Yllä olevasta esimerkistä käy ilmi, että oletuksena `DataFrame.head` palauttaa `DataFrame`:n ensimmäiset viisi riviä. Alla olevassa koodisolussa, voitko keksiä tavan näyttää enemmän kuin viisi riviä?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Toinen tapa tarkastella dataa on sen loppupäästä (alkupään sijaan). `DataFrame.head`-metodin vastakohta on `DataFrame.tail`, joka palauttaa `DataFrame`:n viimeiset viisi riviä:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Käytännössä on hyödyllistä pystyä helposti tarkastelemaan `DataFrame`-taulukon ensimmäisiä tai viimeisiä rivejä, erityisesti silloin, kun etsit poikkeamia järjestetyistä aineistoista.

Kaikki yllä esitetyt funktiot ja attribuutit, joita havainnollistetaan koodiesimerkkien avulla, auttavat meitä saamaan käsityksen datasta.

> **Yhteenveto:** Jo pelkästään tarkastelemalla metatietoja `DataFrame`-taulukon sisällöstä tai sen ensimmäisiä ja viimeisiä arvoja, voit saada välittömän käsityksen datan koosta, muodosta ja sisällöstä, jonka kanssa työskentelet.


### Puuttuvat tiedot
Sukelletaanpa puuttuviin tietoihin. Puuttuvia tietoja syntyy, kun joissakin sarakkeissa ei ole tallennettua arvoa.

Otetaan esimerkki: sanotaan, että joku on tietoinen painostaan eikä täytä painokenttää kyselyssä. Tällöin kyseisen henkilön painoarvo puuttuu.

Useimmiten puuttuvia arvoja esiintyy todellisten maailmandatassa.

**Kuinka Pandas käsittelee puuttuvia tietoja**

Pandas käsittelee puuttuvia arvoja kahdella tavalla. Ensimmäinen, jonka olet nähnyt aiemmissa osioissa, on `NaN`, eli Not a Number. Tämä on itse asiassa erityinen arvo, joka kuuluu IEEE:n liukulukuja koskevaan määrittelyyn, ja sitä käytetään vain puuttuvien liukulukuarvojen merkitsemiseen.

Muiden kuin liukulukujen puuttuvien arvojen kohdalla pandas käyttää Pythonin `None`-objektia. Vaikka saattaa tuntua hämmentävältä kohdata kaksi erilaista arvoa, jotka tarkoittavat pohjimmiltaan samaa asiaa, tälle suunnitteluratkaisulle on hyvät ohjelmalliset perusteet. Käytännössä tämä lähestymistapa mahdollistaa sen, että pandas pystyy tarjoamaan hyvän kompromissin valtaosassa tapauksia. Tästä huolimatta sekä `None` että `NaN` sisältävät rajoituksia, jotka on syytä pitää mielessä niiden käyttöä koskien.


### `None`: ei-float puuttuva data
Koska `None` on peräisin Pythonista, sitä ei voida käyttää NumPy- ja pandas-taulukoissa, joiden tietotyyppi ei ole `'object'`. Muista, että NumPy-taulukot (ja pandas-rakenteet) voivat sisältää vain yhtä tietotyyppiä. Tämä ominaisuus antaa niille valtavan tehon suurten tietomäärien ja laskennan käsittelyssä, mutta samalla se rajoittaa niiden joustavuutta. Tällaiset taulukot täytyy "ylikääntää" alhaisimpaan yhteiseen nimittäjään, eli tietotyyppiin, joka kattaa kaiken taulukossa olevan. Kun taulukossa on `None`, se tarkoittaa, että työskentelet Python-objektien kanssa.

Tarkastellaan tätä käytännössä seuraavan esimerkkitaulukon avulla (huomaa sen `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Upcast-datatyyppien todellisuus tuo mukanaan kaksi sivuvaikutusta. Ensinnäkin, operaatiot suoritetaan tulkitun Python-koodin tasolla sen sijaan, että ne suoritettaisiin käännetyn NumPy-koodin tasolla. Käytännössä tämä tarkoittaa, että kaikki operaatiot, jotka sisältävät `Series`- tai `DataFrame`-objekteja, joissa on `None`, ovat hitaampia. Vaikka et todennäköisesti huomaisi tätä suorituskyvyn heikkenemistä, suurten tietoaineistojen kohdalla siitä saattaa tulla ongelma.

Toinen sivuvaikutus johtuu ensimmäisestä. Koska `None` käytännössä vetää `Series`- tai `DataFrame`-objektit takaisin perinteisen Pythonin maailmaan, NumPy/pandas-yhteenvedot, kuten `sum()` tai `min()`, taulukoissa, jotka sisältävät arvon ``None``, tuottavat yleensä virheen:


In [10]:
example1.sum()

TypeError: ignored

**Keskeinen huomio**: Kokonaislukujen ja `None`-arvojen välinen yhteenlasku (ja muut operaatiot) on määrittelemätön, mikä voi rajoittaa sitä, mitä voit tehdä niitä sisältävien datasetien kanssa.


### `NaN`: puuttuvat liukuluvut

Toisin kuin `None`, NumPy (ja siten pandas) tukee `NaN`-arvoja nopeiden, vektorisoitujen operaatioiden ja ufuncien kanssa. Huono uutinen on, että kaikki laskutoimitukset, jotka tehdään `NaN`-arvoilla, tuottavat aina `NaN`. Esimerkiksi:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Hyvät uutiset: `NaN`-arvoja sisältävillä taulukoilla suoritettavat aggregoinnit eivät aiheuta virheitä. Huonot uutiset: tulokset eivät ole tasaisesti hyödyllisiä:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Harjoitus:


In [11]:
# What happens if you add np.nan and None together?


Muista: `NaN` on tarkoitettu vain puuttuville liukulukuarvoille; kokonaisluvuille, merkkijonoille tai totuusarvoille ei ole vastaavaa `NaN`-arvoa.


### `NaN` ja `None`: nollaarvot pandas-kirjastossa

Vaikka `NaN` ja `None` voivat käyttäytyä hieman eri tavoin, pandas-kirjasto on kuitenkin suunniteltu käsittelemään niitä keskenään vaihdettavina. Katsotaanpa, mitä tämä tarkoittaa, tarkastelemalla kokonaislukujen `Series`-sarjaa:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Harjoitus:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Pandasin `Series`- ja `DataFrame`-objekteissa tietotyyppien yhtenäistämiseksi tehtävässä ylöspäin muuntamisessa puuttuvat arvot voivat vaihtua vapaasti `None`- ja `NaN`-arvojen välillä. Tämän suunnitteluominaisuuden vuoksi voi olla hyödyllistä ajatella `None`- ja `NaN`-arvoja kahtena eri "null"-tyyppinä pandasissa. Itse asiassa jotkin keskeiset menetelmät, joita käytät puuttuvien arvojen käsittelyyn pandasissa, heijastavat tätä ajatusta nimissään:

- `isnull()`: Luo totuusarvomaskin, joka osoittaa puuttuvat arvot
- `notnull()`: `isnull()`-menetelmän vastakohta
- `dropna()`: Palauttaa suodatetun version datasta
- `fillna()`: Palauttaa kopion datasta, jossa puuttuvat arvot on täytetty tai imputoitu

Nämä ovat tärkeitä menetelmiä, jotka kannattaa hallita ja joiden kanssa on hyvä tulla sinuiksi, joten käydään ne läpi hieman tarkemmin.


### Null-arvojen tunnistaminen

Kun olemme ymmärtäneet puuttuvien arvojen merkityksen, meidän täytyy tunnistaa ne aineistossamme ennen niiden käsittelyä. Sekä `isnull()` että `notnull()` ovat ensisijaisia menetelmiä null-datan tunnistamiseen. Molemmat palauttavat Boolean-maskin datasi päälle.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Katso tarkkaan tulosta. Yllättääkö jokin siinä? Vaikka `0` on aritmeettinen nolla, se on silti täysin kelvollinen kokonaisluku, ja pandas käsittelee sitä sellaisena. `''` on hieman hienovaraisempi tapaus. Vaikka käytimme sitä osassa 1 edustamaan tyhjää merkkijonoarvoa, se on silti merkkijono-olio eikä pandasille null-arvon esitys.

Käännetäänpä tämä nyt toisin päin ja käytetään näitä menetelmiä tavalla, joka muistuttaa enemmän niiden käytännön soveltamista. Voit käyttää Boolen maskeja suoraan ``Series``- tai ``DataFrame``-indeksinä, mikä voi olla hyödyllistä, kun yrität käsitellä eristettyjä puuttuvia (tai olemassa olevia) arvoja.

Jos haluamme puuttuvien arvojen kokonaismäärän, voimme yksinkertaisesti laskea yhteen `isnull()`-menetelmän tuottaman maskin.


In [19]:
example3.isnull().sum()

2

### Harjoitus:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Keskeinen huomio**: Sekä `isnull()`- että `notnull()`-menetelmät tuottavat samanlaisia tuloksia, kun käytät niitä DataFrameissa: ne näyttävät tulokset ja niiden indeksit, mikä auttaa sinua valtavasti, kun käsittelet dataasi.


### Puuttuvien tietojen käsittely

> **Oppimistavoite:** Tämän osion lopussa sinun tulisi tietää, miten ja milloin korvata tai poistaa puuttuvat arvot DataFrameista.

Koneoppimismallit eivät pysty käsittelemään puuttuvia tietoja itsestään. Siksi ennen datan syöttämistä malliin meidän täytyy käsitellä nämä puuttuvat arvot.

Puuttuvien tietojen käsittelyyn liittyy hienovaraisia kompromisseja, jotka voivat vaikuttaa lopulliseen analyysiin ja tosielämän tuloksiin.

Puuttuvien tietojen käsittelyyn on pääasiassa kaksi tapaa:

1.   Poista rivi, joka sisältää puuttuvan arvon
2.   Korvaa puuttuva arvo jollakin toisella arvolla

Käsittelemme molempia menetelmiä sekä niiden etuja ja haittoja yksityiskohtaisesti.


### Pudotetaan null-arvot

Datamäärä, jonka välitämme mallillemme, vaikuttaa suoraan sen suorituskykyyn. Null-arvojen pudottaminen tarkoittaa, että vähennämme datapisteiden määrää ja siten pienennämme datan kokoa. Siksi on suositeltavaa pudottaa rivit, joissa on null-arvoja, kun datasetti on melko suuri.

Toinen tilanne voi olla, että tietyssä rivissä tai sarakkeessa on paljon puuttuvia arvoja. Tällöin ne voidaan pudottaa, koska ne eivät todennäköisesti tuo paljon lisäarvoa analyysillemme, kun suurin osa datasta puuttuu kyseiseltä riviltä/sarakkeelta.

Puuttuvien arvojen tunnistamisen lisäksi pandas tarjoaa kätevän tavan poistaa null-arvot `Series`- ja `DataFrame`-objekteista. Katsotaanpa tätä käytännössä palaamalla `example3`:een. `DataFrame.dropna()`-funktio auttaa pudottamaan rivit, joissa on null-arvoja.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Huomaa, että tämä pitäisi näyttää samalta kuin tulos `example3[example3.notnull()]`. Erona tässä on, että sen sijaan, että vain indeksoitaisiin peitettyjä arvoja, `dropna` on poistanut nämä puuttuvat arvot `Series`-objektista `example3`.

Koska DataFrame-objekteilla on kaksi ulottuvuutta, ne tarjoavat enemmän vaihtoehtoja datan poistamiseen.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Huomasitko, että pandas muutti kaksi saraketta liukuluvuiksi mukautuakseen `NaN`-arvoihin?)

Et voi poistaa yksittäistä arvoa `DataFrame`-objektista, joten sinun täytyy poistaa kokonaisia rivejä tai sarakkeita. Riippuen siitä, mitä olet tekemässä, saatat haluta tehdä jomman kumman, ja siksi pandas tarjoaa vaihtoehdot molempiin. Koska datatieteessä sarakkeet edustavat yleensä muuttujia ja rivit havaintoja, on todennäköisempää, että poistat rivejä datasta; `dropna()`-toiminnon oletusasetuksena on poistaa kaikki rivit, jotka sisältävät minkä tahansa null-arvon:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jos tarpeellista, voit pudottaa NA-arvot sarakkeista. Käytä `axis=1` tehdäksesi niin:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Huomaa, että tämä voi poistaa paljon dataa, jonka haluaisit säilyttää, erityisesti pienemmissä aineistoissa. Mitä jos haluat poistaa rivejä tai sarakkeita, jotka sisältävät useita tai jopa kaikki null-arvot? Voit määrittää nämä asetukset `dropna`-metodissa käyttämällä `how`- ja `thresh`-parametreja.

Oletuksena `how='any'` (jos haluat tarkistaa itse tai nähdä, mitä muita parametreja metodilla on, suorita `example4.dropna?` koodisolussa). Voit vaihtoehtoisesti määrittää `how='all'`, jolloin poistetaan vain rivit tai sarakkeet, jotka sisältävät kaikki null-arvot. Laajennetaan esimerkkimme `DataFrame`-taulukkoa, jotta näemme tämän toiminnassa seuraavassa harjoituksessa.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Tärkeimmät asiat:  
1. Puuttuvien arvojen poistaminen on hyvä idea vain, jos tietojoukko on riittävän suuri.  
2. Kokonaisia rivejä tai sarakkeita voidaan poistaa, jos suurin osa niiden tiedoista puuttuu.  
3. `DataFrame.dropna(axis=)`-metodi auttaa puuttuvien arvojen poistamisessa. `axis`-argumentti määrittää, poistetaanko rivejä vai sarakkeita.  
4. Myös `how`-argumenttia voidaan käyttää. Oletuksena se on asetettu arvoon `any`. Tämä tarkoittaa, että poistetaan vain ne rivit/sarakkeet, joissa on mitä tahansa puuttuvia arvoja. Se voidaan asettaa arvoon `all`, jolloin poistetaan vain ne rivit/sarakkeet, joissa kaikki arvot puuttuvat.  


### Harjoitus:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh`-parametri antaa sinulle tarkemman hallinnan: asetat rivin tai sarakkeen tarvitsemien *ei-null* arvojen määrän, jotta se säilytetään:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Tässä ensimmäinen ja viimeinen rivi on pudotettu, koska ne sisältävät vain kaksi ei-null-arvoa.


### Puuttuvien arvojen täyttäminen

Joskus voi olla järkevää täyttää puuttuvat arvot sellaisilla, jotka voisivat olla kelvollisia. On olemassa muutamia tekniikoita puuttuvien arvojen täyttämiseen. Ensimmäinen on käyttää alakohtaista tietämystä (tietoa aiheesta, johon datasetti perustuu) arvioimaan puuttuvat arvot jollain tavalla.

Voit käyttää `isnull`-funktiota tämän tekemiseen suoraan, mutta se voi olla työlästä, erityisesti jos täytettäviä arvoja on paljon. Koska tämä on niin yleinen tehtävä data-analytiikassa, pandas tarjoaa `fillna`-funktion, joka palauttaa kopion `Series`- tai `DataFrame`-objektista, jossa puuttuvat arvot on korvattu valitsemallasi arvolla. Luodaan toinen esimerkki `Series`-objekti, jotta nähdään, miten tämä toimii käytännössä.


### Kategoriset tiedot (Ei-numeeriset)
Aloitetaan ei-numeerisista tiedoista. Datoissa on usein sarakkeita, joissa on kategorisia tietoja, kuten sukupuoli, Totta tai Epätotta jne.

Useimmissa näistä tapauksista korvaamme puuttuvat arvot sarakkeen `moodilla`. Esimerkiksi, jos meillä on 100 datapistettä, joista 90 on vastannut Totta, 8 on vastannut Epätotta ja 2 ei ole vastannut mitään, voimme täyttää nämä 2 puuttuvaa arvoa Totta, ottaen huomioon koko sarakkeen.

Tässäkin voimme käyttää asiantuntemusta. Otetaan esimerkki, jossa täytämme puuttuvat arvot moodilla.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Kuten voimme nähdä, null-arvo on korvattu. Tarpeetonta sanoa, että olisimme voineet kirjoittaa mitä tahansa `'True'`-paikalle ja se olisi tullut korvatuksi.


### Numeerinen data
Siirrytään nyt numeeriseen dataan. Tässä on kaksi yleistä tapaa korvata puuttuvat arvot:

1. Korvaa rivin mediaanilla
2. Korvaa rivin keskiarvolla

Käytämme mediaania, kun data on vinoutunutta ja sisältää poikkeavia arvoja. Tämä johtuu siitä, että mediaani on kestävä poikkeaville arvoille.

Kun data on normalisoitu, voimme käyttää keskiarvoa, koska siinä tapauksessa keskiarvo ja mediaani ovat melko lähellä toisiaan.

Ensiksi otetaan sarake, joka on normaalijakautunut, ja täytetään puuttuva arvo sarakkeen keskiarvolla.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Sarakkeen keskiarvo on


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Kuten voimme nähdä, puuttuva arvo on korvattu sen keskiarvolla.


Nyt kokeillaan toista tietokehystä, ja tällä kertaa korvaamme None-arvot sarakkeen mediaanilla.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Toisen sarakkeen mediaani on


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Kuten voimme nähdä, NaN-arvo on korvattu sarakkeen mediaanilla


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Voit täyttää kaikki tyhjät kentät yhdellä arvolla, kuten `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Keskeiset huomiot:  
1. Puuttuvien arvojen täyttäminen tulisi tehdä, kun dataa on vähän tai kun on olemassa strategia puuttuvien arvojen täyttämiseksi.  
2. Alakohtaisia tietoja voidaan käyttää puuttuvien arvojen arvioimiseen ja täyttämiseen.  
3. Kategorisessa datassa puuttuvat arvot korvataan useimmiten sarakkeen moodilla.  
4. Numeerisessa datassa puuttuvat arvot täytetään yleensä sarakkeiden keskiarvolla (normalisoiduissa aineistoissa) tai mediaanilla.  


### Harjoitus:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Voit **täyttää eteenpäin** null-arvot, mikä tarkoittaa viimeisen kelvollisen arvon käyttämistä null-arvon täyttämiseen:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Voit myös **täyttää taaksepäin** propagoidaksesi seuraavan kelvollisen arvon taaksepäin täyttääksesi null-arvon:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Kuten saattaisit arvata, tämä toimii samalla tavalla DataFramejen kanssa, mutta voit myös määrittää `axis`-parametrin, jonka mukaan täyttää null-arvot:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Huomaa, että kun aiempaa arvoa ei ole saatavilla eteenpäin täyttämistä varten, null-arvo säilyy.


### Harjoitus:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Voit olla luova `fillna`-toiminnon käytössä. Katsotaan esimerkiksi uudelleen `example4`, mutta tällä kertaa täytetään puuttuvat arvot `DataFrame`:n kaikkien arvojen keskiarvolla:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Huomaa, että sarake 3 on edelleen arvoton: oletussuuntana on täyttää arvot rivi kerrallaan.

> **Yhteenveto:** Puuttuvien arvojen käsittelyyn on useita tapoja. Käyttämäsi strategia (arvojen poistaminen, korvaaminen tai tapa, jolla korvaat ne) tulisi määritellä kyseisen datan erityispiirteiden mukaan. Kehität paremman käsityksen puuttuvien arvojen käsittelystä sitä mukaa, kun käsittelet ja työskentelet datasetien parissa.


### Kategorisen datan koodaus

Koneoppimismallit käsittelevät vain numeroita ja kaikenlaista numeerista dataa. Ne eivät pysty erottamaan kyllä ja ei -vastauksia, mutta ne voivat erottaa 0 ja 1 toisistaan. Joten, kun puuttuvat arvot on täytetty, meidän täytyy koodata kategorinen data numeeriseen muotoon, jotta malli ymmärtää sen.

Koodaus voidaan tehdä kahdella tavalla. Käymme ne läpi seuraavaksi.


**LABELIEN ENKODEROINTI**

Labelien enkoderointi tarkoittaa käytännössä jokaisen kategorian muuntamista numeroksi. Esimerkiksi, jos meillä on lentomatkustajien datasetti ja siinä on sarake, joka sisältää heidän matkustusluokkansa seuraavista vaihtoehdoista ['business class', 'economy class', 'first class']. Jos tähän sovelletaan labelien enkoderointia, se muunnetaan muotoon [0,1,2]. Katsotaanpa esimerkki koodin avulla. Koska tulevissa muistikirjoissa opimme käyttämään `scikit-learn`-kirjastoa, emme käytä sitä tässä.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Jotta voimme suorittaa tunnistekoodauksen ensimmäiselle sarakkeelle, meidän on ensin määriteltävä luokista numeroksi tehtävä vastaavuus ennen korvaamista.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Kuten näemme, tulos vastaa odotuksiamme. Joten, milloin käytämme label encodingia? Label encodingia käytetään jommassakummassa tai molemmissa seuraavista tapauksista:
1. Kun kategorioiden määrä on suuri
2. Kun kategoriat ovat järjestyksessä.


**ONE HOT ENCODING**

Toinen koodaustyyppi on One Hot Encoding. Tässä koodaustavassa jokainen sarakkeen kategoria lisätään omaksi sarakkeekseen, ja jokainen datapiste saa arvon 0 tai 1 sen mukaan, sisältääkö se kyseisen kategorian. Jos kategorioita on n kappaletta, datafreimiin lisätään n saraketta.

Esimerkiksi, otetaan sama lentokoneen luokkien esimerkki. Kategoriat olivat: ['business class', 'economy class', 'first class']. Jos suoritetaan One Hot Encoding, datasettiin lisätään seuraavat kolme saraketta: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Tehdään yksi-kuuma-koodaus ensimmäiselle sarakkeelle


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Jokainen yksi-kuuma koodattu sarake sisältää 0 tai 1, mikä määrittää, onko kyseinen kategorian olemassa kyseiselle datapisteelle.


Milloin käytämme one hot -enkoodausta? One hot -enkoodausta käytetään jommassakummassa tai molemmissa seuraavista tapauksista:

1. Kun kategorioiden määrä ja aineiston koko ovat pienempiä.
2. Kun kategorioilla ei ole erityistä järjestystä.


> Tärkeimmät huomiot:  
1. Koodaus tehdään muuntamaan ei-numeerinen data numeeriseksi dataksi.  
2. Koodausta on kahta tyyppiä: Label-koodaus ja One Hot -koodaus, joita molempia voidaan käyttää datasetin tarpeiden mukaan.  


## Poistetaan päällekkäiset tiedot

> **Oppimistavoite:** Tämän alajakson lopussa sinun tulisi osata tunnistaa ja poistaa päällekkäiset arvot DataFrameista.

Puuttuvien tietojen lisäksi todellisissa tietoaineistoissa kohtaat usein myös päällekkäisiä tietoja. Onneksi pandas tarjoaa helpon tavan havaita ja poistaa päällekkäiset merkinnät.


### Tunnistetaan duplikaatit: `duplicated`

Voit helposti tunnistaa päällekkäiset arvot käyttämällä pandas-kirjaston `duplicated`-metodia, joka palauttaa Boolean-maskin, joka osoittaa, onko `DataFrame`-merkintä aiemman merkinnän duplikaatti. Luodaan toinen esimerkki `DataFrame` tämän toiminnon havainnollistamiseksi.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Duplikaattien poistaminen: `drop_duplicates`
`drop_duplicates` palauttaa yksinkertaisesti kopion datasta, jossa kaikki `duplicated`-arvot ovat `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Sekä `duplicated` että `drop_duplicates` oletuksena tarkastelevat kaikkia sarakkeita, mutta voit määrittää, että ne tarkastelevat vain tiettyä sarakejoukkoa `DataFrame`-objektissasi:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Vastuuvapauslauseke**:  
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulisi pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa väärinkäsityksistä tai virhetulkinnoista, jotka johtuvat tämän käännöksen käytöstä.
