# Príprava dát

[Originálny zdroj notebooku z *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio od Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Preskúmanie informácií o `DataFrame`

> **Cieľ učenia:** Na konci tejto podsekcie by ste mali byť schopní pohodlne nájsť všeobecné informácie o dátach uložených v pandas DataFrame.

Keď načítate svoje dáta do pandas, je veľmi pravdepodobné, že budú uložené v `DataFrame`. Ak však má dátová sada vo vašom `DataFrame` 60 000 riadkov a 400 stĺpcov, ako vôbec začať získavať prehľad o tom, s čím pracujete? Našťastie pandas poskytuje niekoľko praktických nástrojov na rýchle získanie celkových informácií o `DataFrame`, ako aj na zobrazenie prvých a posledných niekoľkých riadkov.

Aby sme preskúmali túto funkcionalitu, importujeme knižnicu Python scikit-learn a použijeme ikonickú dátovú sadu, ktorú každý dátový vedec videl už stokrát: dátovú sadu britského biológa Ronalda Fishera *Iris*, použitú v jeho článku z roku 1936 "Použitie viacerých meraní v taxonomických problémoch":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Načítali sme dataset Iris do premennej `iris_df`. Predtým, než sa pustíme do analýzy údajov, by bolo užitočné zistiť, koľko dátových bodov máme a aká je celková veľkosť datasetu. Je užitočné pozrieť sa na objem údajov, s ktorými pracujeme.


In [2]:
iris_df.shape

(150, 4)

Takže máme do činenia so 150 riadkami a 4 stĺpcami údajov. Každý riadok predstavuje jeden dátový bod a každý stĺpec predstavuje jednu vlastnosť spojenú s dátovým rámcom. V podstate teda ide o 150 dátových bodov, z ktorých každý obsahuje 4 vlastnosti.

`shape` je tu atribútom dátového rámca, nie funkciou, a preto nekončí dvojicou zátvoriek.


### `DataFrame.columns`
Pozrime sa teraz na 4 stĺpce údajov. Čo presne každý z nich predstavuje? Atribút `columns` nám poskytne názvy stĺpcov v dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Ako môžeme vidieť, sú tu štyri (4) stĺpce. Atribút `columns` nám hovorí názvy stĺpcov a v podstate nič viac. Tento atribút nadobúda význam, keď chceme identifikovať vlastnosti, ktoré dataset obsahuje.


### `DataFrame.info`
Množstvo údajov (dané atribútom `shape`) a názvy vlastností alebo stĺpcov (dané atribútom `columns`) nám poskytujú určitý pohľad na dataset. Teraz by sme chceli ísť hlbšie do datasetu. Funkcia `DataFrame.info()` je na to veľmi užitočná.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Z tohto môžeme urobiť niekoľko pozorovaní:  
1. Dátový typ každého stĺpca: V tomto datasete sú všetky údaje uložené ako 64-bitové čísla s pohyblivou desatinnou čiarkou.  
2. Počet nenulových hodnôt: Práca s nulovými hodnotami je dôležitým krokom pri príprave údajov. Týmto sa budeme zaoberať neskôr v notebooku.  


### DataFrame.describe()
Predstavme si, že máme veľa číselných údajov v našej dátovej sade. Jednovariabilné štatistické výpočty, ako napríklad priemer, medián, kvartily a podobne, je možné vykonať na každom stĺpci samostatne. Funkcia `DataFrame.describe()` nám poskytuje štatistický prehľad číselných stĺpcov dátovej sady.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Výstup vyššie zobrazuje celkový počet dátových bodov, priemer, smerodajnú odchýlku, minimum, dolný kvartil (25 %), medián (50 %), horný kvartil (75 %) a maximálnu hodnotu každého stĺpca.


### `DataFrame.head`
S použitím všetkých vyššie uvedených funkcií a atribútov sme získali prehľad o dátovom súbore. Vieme, koľko dátových bodov obsahuje, koľko má vlastností, aký je dátový typ každej vlastnosti a koľko neprázdnych hodnôt má každá vlastnosť.

Teraz je čas pozrieť sa na samotné dáta. Pozrime sa, ako vyzerajú prvé riadky (prvé dátové body) nášho `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Ako výstup tu vidíme päť (5) záznamov z datasetu. Ak sa pozrieme na index vľavo, zistíme, že ide o prvých päť riadkov.


### Cvičenie:

Z vyššie uvedeného príkladu je zrejmé, že predvolene `DataFrame.head` vráti prvých päť riadkov `DataFrame`. V bunkách kódu nižšie, dokážete nájsť spôsob, ako zobraziť viac ako päť riadkov?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Ďalší spôsob, ako sa pozrieť na údaje, môže byť od konca (namiesto od začiatku). Opačnou funkciou k `DataFrame.head` je `DataFrame.tail`, ktorá vráti posledných päť riadkov `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


V praxi je užitočné mať možnosť jednoducho prezrieť prvých pár riadkov alebo posledných pár riadkov `DataFrame`, najmä keď hľadáte odľahlé hodnoty v usporiadaných datasetoch.

Všetky funkcie a atribúty uvedené vyššie pomocou príkladov kódu nám pomáhajú získať pohľad na dáta.

> **Poučenie:** Už len pohľad na metadáta o informáciách v `DataFrame` alebo na prvé a posledné hodnoty v ňom vám môže okamžite poskytnúť predstavu o veľkosti, tvare a obsahu dát, s ktorými pracujete.


### Chýbajúce údaje
Pozrime sa na chýbajúce údaje. Chýbajúce údaje vznikajú, keď v niektorých stĺpcoch nie je uložená žiadna hodnota.

Uveďme si príklad: povedzme, že niekto je citlivý na svoju váhu a nevyplní pole s váhou v prieskume. Potom bude hodnota váhy pre túto osobu chýbať.

Vo väčšine prípadov sa v reálnych datasetoch vyskytujú chýbajúce hodnoty.

**Ako Pandas spracováva chýbajúce údaje**

Pandas spracováva chýbajúce hodnoty dvoma spôsobmi. Prvý ste už videli v predchádzajúcich sekciách: `NaN`, alebo Not a Number. Toto je špeciálna hodnota, ktorá je súčasťou špecifikácie IEEE pre čísla s pohyblivou desatinnou čiarkou a používa sa iba na označenie chýbajúcich hodnôt typu float.

Pre chýbajúce hodnoty, ktoré nie sú typu float, pandas používa objekt `None` z Pythonu. Aj keď sa môže zdať mätúce, že sa stretnete s dvoma rôznymi typmi hodnôt, ktoré v podstate vyjadrujú to isté, existujú dobré programátorské dôvody pre toto rozhodnutie. V praxi tento prístup umožňuje pandas dosiahnuť dobrý kompromis vo väčšine prípadov. Napriek tomu majú `None` aj `NaN` určité obmedzenia, na ktoré si musíte dávať pozor, pokiaľ ide o ich použitie.


### `None`: nečíselné chýbajúce údaje
Keďže `None` pochádza z Pythonu, nemôže byť použitý v poliach NumPy a pandas, ktoré nemajú dátový typ `'object'`. Pamätajte, že polia NumPy (a dátové štruktúry v pandas) môžu obsahovať iba jeden typ údajov. Práve toto im dáva obrovskú silu pri práci s veľkými dátami a výpočtami, no zároveň to obmedzuje ich flexibilitu. Takéto polia musia byť "povýšené" na „najnižší spoločný menovateľ“, teda dátový typ, ktorý dokáže obsiahnuť všetko v poli. Ak je v poli `None`, znamená to, že pracujete s Python objektmi.

Aby ste to videli v praxi, zvážte nasledujúce príkladové pole (všimnite si jeho `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realita povýšených dátových typov prináša so sebou dva vedľajšie účinky. Po prvé, operácie sa budú vykonávať na úrovni interpretovaného Python kódu namiesto skompilovaného NumPy kódu. V podstate to znamená, že akékoľvek operácie zahŕňajúce `Series` alebo `DataFrames`, ktoré obsahujú `None`, budú pomalšie. Aj keď si tento pokles výkonu pravdepodobne nevšimnete, pri veľkých datasetoch by to mohlo predstavovať problém.

Druhý vedľajší účinok vyplýva z prvého. Keďže `None` v podstate vracia `Series` alebo `DataFrame`s späť do sveta základného Pythonu, použitie agregácií NumPy/pandas, ako napríklad `sum()` alebo `min()`, na poliach obsahujúcich hodnotu `None` vo všeobecnosti spôsobí chybu:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: chýbajúce hodnoty typu float

Na rozdiel od `None`, NumPy (a teda aj pandas) podporuje `NaN` pre svoje rýchle, vektorové operácie a ufuncs. Zlou správou je, že akákoľvek aritmetická operácia vykonaná na `NaN` vždy vedie k výsledku `NaN`. Napríklad:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobrá správa: agregácie spustené na poliach s `NaN` v nich nespôsobujú chyby. Zlá správa: výsledky nie sú jednotne užitočné:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` a `None`: nulové hodnoty v pandas

Aj keď sa `NaN` a `None` môžu správať trochu odlišne, pandas je navrhnutý tak, aby ich spracovával zameniteľne. Aby sme to ukázali, pozrime sa na `Series` celých čísel:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Pri upgradovaní dátových typov na zabezpečenie homogénnosti údajov v `Series` a `DataFrame`s, pandas ochotne prepína chýbajúce hodnoty medzi `None` a `NaN`. Kvôli tejto dizajnovej vlastnosti môže byť užitočné vnímať `None` a `NaN` ako dva rôzne typy "null" hodnôt v pandas. V skutočnosti niektoré základné metódy, ktoré budete používať na prácu s chýbajúcimi hodnotami v pandas, túto myšlienku odrážajú vo svojich názvoch:

- `isnull()`: Generuje Booleovskú masku označujúcu chýbajúce hodnoty
- `notnull()`: Opak metódy `isnull()`
- `dropna()`: Vráti filtrovanú verziu údajov
- `fillna()`: Vráti kópiu údajov s vyplnenými alebo imputovanými chýbajúcimi hodnotami

Tieto metódy sú dôležité na zvládnutie a získanie istoty pri ich používaní, preto si ich prejdime podrobnejšie.


### Detekcia nulových hodnôt

Teraz, keď sme pochopili dôležitosť chýbajúcich hodnôt, musíme ich v našej dátovej sade najskôr odhaliť, než s nimi začneme pracovať.  
Metódy `isnull()` a `notnull()` sú vaše hlavné nástroje na detekciu nulových údajov. Obe vracajú Booleovské masky nad vašimi údajmi.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Pozorne sa pozrite na výstup. Prekvapilo vás niečo? Aj keď `0` je aritmetická nula, stále je to úplne platné celé číslo a pandas ho tak aj považuje. `''` je o niečo jemnejšie. Aj keď sme ho v časti 1 použili na reprezentáciu prázdnej textovej hodnoty, stále ide o objekt typu string a nie o reprezentáciu nulovej hodnoty z pohľadu pandas.

Teraz to otočme a použime tieto metódy spôsobom, akým ich budete používať v praxi. Boolean masky môžete použiť priamo ako index ``Series`` alebo ``DataFrame``, čo môže byť užitočné pri práci s izolovanými chýbajúcimi (alebo prítomnými) hodnotami.

Ak chceme zistiť celkový počet chýbajúcich hodnôt, stačí nám urobiť súčet nad maskou, ktorú vytvorí metóda `isnull()`.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Hlavný bod**: Metódy `isnull()` a `notnull()` prinášajú podobné výsledky, keď ich použijete v DataFrame: zobrazujú výsledky a index týchto výsledkov, čo vám nesmierne pomôže pri práci s vašimi údajmi.


### Riešenie chýbajúcich údajov

> **Cieľ učenia:** Na konci tejto podsekcie by ste mali vedieť, ako a kedy nahradiť alebo odstrániť nulové hodnoty z DataFrames.

Modely strojového učenia nedokážu samy pracovať s chýbajúcimi údajmi. Preto je potrebné pred odovzdaním údajov do modelu vyriešiť tieto chýbajúce hodnoty.

Spôsob, akým sa chýbajúce údaje riešia, prináša jemné kompromisy a môže ovplyvniť vašu konečnú analýzu a výsledky v reálnom svete.

Existujú dva hlavné spôsoby riešenia chýbajúcich údajov:

1.   Odstrániť riadok obsahujúci chýbajúcu hodnotu
2.   Nahradiť chýbajúcu hodnotu inou hodnotou

Obe tieto metódy a ich výhody a nevýhody si podrobne rozoberieme.


### Odstraňovanie nulových hodnôt

Množstvo údajov, ktoré posúvame do nášho modelu, má priamy vplyv na jeho výkon. Odstraňovanie nulových hodnôt znamená, že znižujeme počet dátových bodov, a tým aj veľkosť datasetu. Preto je vhodné odstrániť riadky s nulovými hodnotami, keď je dataset pomerne veľký.

Ďalším prípadom môže byť situácia, keď určitý riadok alebo stĺpec obsahuje veľa chýbajúcich hodnôt. V takom prípade ich možno odstrániť, pretože by nepriniesli veľkú hodnotu do našej analýzy, keďže väčšina údajov pre daný riadok/stĺpec chýba.

Okrem identifikácie chýbajúcich hodnôt poskytuje pandas pohodlný spôsob na odstránenie nulových hodnôt zo `Series` a `DataFrame`. Aby sme to videli v praxi, vráťme sa k `example3`. Funkcia `DataFrame.dropna()` pomáha pri odstraňovaní riadkov s nulovými hodnotami.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Všimnite si, že toto by malo vyzerať ako váš výstup z `example3[example3.notnull()]`. Rozdiel je v tom, že namiesto indexovania na základe maskovaných hodnôt, `dropna` odstránil tieto chýbajúce hodnoty zo `Series` `example3`.

Keďže DataFrames majú dve dimenzie, ponúkajú viac možností na odstraňovanie údajov.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Všimli ste si, že pandas zmenil typ dvoch stĺpcov na float, aby mohli obsahovať hodnoty `NaN`?)

Nemôžete odstrániť jednu hodnotu z `DataFrame`, takže musíte odstrániť celé riadky alebo stĺpce. V závislosti od toho, čo robíte, môžete chcieť vykonať jedno alebo druhé, a preto vám pandas poskytuje možnosti pre obe. Keďže v dátovej vede stĺpce zvyčajne predstavujú premenné a riadky predstavujú pozorovania, je pravdepodobnejšie, že budete odstraňovať riadky dát; predvolené nastavenie pre `dropna()` je odstrániť všetky riadky, ktoré obsahujú akékoľvek nulové hodnoty:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Ak je to potrebné, môžete odstrániť hodnoty NA zo stĺpcov. Použite `axis=1` na to:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Upozorňujeme, že toto môže odstrániť veľa údajov, ktoré by ste mohli chcieť zachovať, najmä v menších datasetoch. Čo ak chcete odstrániť iba riadky alebo stĺpce, ktoré obsahujú niekoľko alebo dokonca všetky nulové hodnoty? Tieto nastavenia môžete špecifikovať v `dropna` pomocou parametrov `how` a `thresh`.

Predvolene je nastavené `how='any'` (ak by ste si to chceli overiť sami alebo zistiť, aké ďalšie parametre táto metóda má, spustite `example4.dropna?` v bunkách kódu). Alternatívne môžete špecifikovať `how='all'`, aby sa odstránili iba riadky alebo stĺpce, ktoré obsahujú všetky nulové hodnoty. Rozšírme náš príklad `DataFrame`, aby sme si to ukázali v praxi v nasledujúcom cvičení.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Kľúčové poznatky:  
1. Odstraňovanie nulových hodnôt je dobrý nápad iba v prípade, že dataset je dostatočne veľký.  
2. Celé riadky alebo stĺpce môžu byť odstránené, ak im chýba väčšina údajov.  
3. Metóda `DataFrame.dropna(axis=)` pomáha pri odstraňovaní nulových hodnôt. Argument `axis` určuje, či sa majú odstrániť riadky alebo stĺpce.  
4. Môže sa použiť aj argument `how`. Predvolene je nastavený na hodnotu `any`. To znamená, že odstráni iba tie riadky/stĺpce, ktoré obsahujú akékoľvek nulové hodnoty. Môže byť nastavený na hodnotu `all`, aby sa špecifikovalo, že odstránime iba tie riadky/stĺpce, kde sú všetky hodnoty nulové.  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parameter `thresh` vám poskytuje jemnejšiu kontrolu: nastavíte počet *nenulových* hodnôt, ktoré musí riadok alebo stĺpec obsahovať, aby bol zachovaný:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### Vyplnenie nulových hodnôt

Niekedy má zmysel vyplniť chýbajúce hodnoty takými, ktoré by mohli byť platné. Existuje niekoľko techník na vyplnenie nulových hodnôt. Prvou je použitie doménových znalostí (znalostí o téme, na ktorej je dataset založený) na približné určenie chýbajúcich hodnôt.

Môžete použiť `isnull` na vykonanie tejto operácie priamo, ale to môže byť zdĺhavé, najmä ak máte veľa hodnôt na vyplnenie. Keďže ide o tak bežnú úlohu v dátovej vede, pandas poskytuje funkciu `fillna`, ktorá vráti kópiu `Series` alebo `DataFrame` s chýbajúcimi hodnotami nahradenými hodnotami podľa vášho výberu. Vytvorme si ďalší príklad `Series`, aby sme videli, ako to funguje v praxi.


### Kategorické údaje (Nenumerické)
Najprv sa pozrime na nenumerické údaje. V datasetoch máme stĺpce s kategorizovanými údajmi, napr. Pohlavie, Pravda alebo Nepravda atď.

Vo väčšine týchto prípadov nahrádzame chýbajúce hodnoty `modom` stĺpca. Povedzme, že máme 100 dátových bodov, z ktorých 90 uviedlo Pravda, 8 uviedlo Nepravda a 2 nevyplnili. Potom môžeme tieto 2 nahradiť hodnotou Pravda, berúc do úvahy celý stĺpec.

Opäť tu môžeme využiť znalosti z danej oblasti. Pozrime sa na príklad vyplnenia pomocou modu.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Ako vidíme, nulová hodnota bola nahradená. Netreba dodávať, že sme mohli napísať čokoľvek namiesto `'True'` a bolo by to nahradené.


### Číselné údaje
Teraz sa pozrime na číselné údaje. Tu máme dva bežné spôsoby nahrádzania chýbajúcich hodnôt:

1. Nahradiť mediánom riadku
2. Nahradiť priemerom riadku

Medián používame v prípade, že údaje sú skreslené a obsahujú odľahlé hodnoty. Je to preto, že medián je odolný voči odľahlým hodnotám.

Keď sú údaje normalizované, môžeme použiť priemer, pretože v takom prípade budú priemer a medián veľmi podobné.

Najprv si vezmime stĺpec, ktorý má normálne rozdelenie, a vyplňme chýbajúce hodnoty priemerom stĺpca.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Priemer stĺpca je


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Ako môžeme vidieť, chýbajúca hodnota bola nahradená jej priemerom.


Teraz vyskúšajme ďalší dataframe a tentokrát nahradíme hodnoty None mediánom stĺpca.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Medián druhého stĺpca je


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Ako môžeme vidieť, hodnota NaN bola nahradená mediánom stĺpca


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Všetky prázdne položky môžete vyplniť jednou hodnotou, napríklad `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Hlavné body:
1. Dopĺňanie chýbajúcich hodnôt by sa malo vykonávať buď v prípade, že je málo údajov, alebo ak existuje stratégia na doplnenie chýbajúcich údajov.
2. Na doplnenie chýbajúcich hodnôt je možné využiť znalosti z danej oblasti a odhadnúť ich.
3. Pri kategóriálnych údajoch sa chýbajúce hodnoty najčastejšie nahrádzajú módou stĺpca.
4. Pri číselných údajoch sa chýbajúce hodnoty zvyčajne dopĺňajú priemerom (pre normalizované datasety) alebo mediánom stĺpcov.


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Môžete tiež **spätne doplniť**, aby ste spätne propagovali ďalšiu platnú hodnotu na vyplnenie null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Ako môžete hádať, toto funguje rovnako s DataFrames, ale môžete tiež špecifikovať `axis`, pozdĺž ktorého chcete vyplniť nulové hodnoty:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Všimnite si, že keď nie je k dispozícii predchádzajúca hodnota na doplnenie, zostáva nulová hodnota.


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Môžete byť kreatívni pri používaní `fillna`. Napríklad sa pozrime znova na `example4`, ale tentokrát vyplňme chýbajúce hodnoty priemerom všetkých hodnôt v `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Všimnite si, že stĺpec 3 je stále bez hodnoty: predvolený smer je vyplniť hodnoty po riadkoch.

> **Poučenie:** Existuje viacero spôsobov, ako sa vysporiadať s chýbajúcimi hodnotami vo vašich dátových súboroch. Konkrétna stratégia, ktorú použijete (odstránenie, nahradenie alebo spôsob, akým ich nahradíte), by mala byť určená špecifikami daných dát. Lepší zmysel pre prácu s chýbajúcimi hodnotami si vyviniete čím viac budete pracovať a interagovať s dátovými súbormi.


### Kódovanie kategóriálnych údajov

Modely strojového učenia pracujú iba s číslami a akoukoľvek formou číselných údajov. Nebudú schopné rozlíšiť medzi Áno a Nie, ale dokážu rozlíšiť medzi 0 a 1. Preto po doplnení chýbajúcich hodnôt musíme kategóriálne údaje zakódovať do nejakej číselnej formy, aby ich model pochopil.

Kódovanie je možné vykonať dvoma spôsobmi. Budeme ich diskutovať ďalej.


**KÓDOVANIE ŠTÍTKA**

Kódovanie štítka v podstate znamená prevod každej kategórie na číslo. Napríklad, povedzme, že máme dataset leteckých pasažierov a je tu stĺpec obsahujúci ich triedu medzi nasledujúcimi ['business class', 'economy class', 'first class']. Ak sa vykoná kódovanie štítka, bude to transformované na [0,1,2]. Pozrime sa na príklad pomocou kódu. Keďže sa budeme učiť `scikit-learn` v nadchádzajúcich poznámkových blokoch, tu ho nepoužijeme.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Na vykonanie kódovania štítkov v 1. stĺpci musíme najprv opísať mapovanie z každej triedy na číslo, predtým ako nahradíme


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Ako vidíme, výsledok zodpovedá tomu, čo sme očakávali. Takže, kedy používame kódovanie štítkov? Kódovanie štítkov sa používa v jednej alebo oboch z nasledujúcich situácií:
1. Keď je počet kategórií veľký
2. Keď sú kategórie usporiadané.


**JEDNOHORÚCE KÓDOVANIE**

Ďalším typom kódovania je Jednohorúce kódovanie. Pri tomto type kódovania sa každá kategória stĺpca pridá ako samostatný stĺpec a každému dátovému bodu sa priradí 0 alebo 1 podľa toho, či obsahuje danú kategóriu. Ak teda existuje n rôznych kategórií, do dátového rámca sa pridá n stĺpcov.

Napríklad, vezmime si ten istý príklad triedy lietadla. Kategórie boli: ['business class', 'economy class', 'first class']. Ak vykonáme jednohorúce kódovanie, do datasetu sa pridajú nasledujúce tri stĺpce: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Poďme vykonať one hot encoding na 1. stĺpci


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Každý stĺpec s jedným horúcim kódovaním obsahuje 0 alebo 1, čo určuje, či daná kategória existuje pre daný dátový bod.


Kedy používame one hot encoding? One hot encoding sa používa v jednej alebo oboch z nasledujúcich situácií:

1. Keď je počet kategórií a veľkosť datasetu menšia.
2. Keď kategórie nemajú žiadne konkrétne poradie.


> Kľúčové poznatky:  
1. Kódovanie sa vykonáva na prevod nenumerických údajov na numerické údaje.  
2. Existujú dva typy kódovania: Label encoding a One Hot encoding, pričom oba môžu byť použité podľa požiadaviek datasetu.  


## Odstraňovanie duplicitných údajov

> **Cieľ učenia:** Na konci tejto podsekcie by ste mali byť schopní identifikovať a odstrániť duplicitné hodnoty z DataFrames.

Okrem chýbajúcich údajov sa často stretnete s duplicitnými údajmi v reálnych datasetoch. Našťastie, pandas poskytuje jednoduchý spôsob na detekciu a odstránenie duplicitných záznamov.


### Identifikácia duplicitných hodnôt: `duplicated`

Duplicitné hodnoty môžete jednoducho identifikovať pomocou metódy `duplicated` v pandas, ktorá vracia Booleovskú masku označujúcu, či je záznam v `DataFrame` duplicitou skoršieho záznamu. Vytvorme ďalší príklad `DataFrame`, aby sme si to ukázali v praxi.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Odstránenie duplicitných hodnôt: `drop_duplicates`
`drop_duplicates` jednoducho vráti kópiu údajov, pre ktoré sú všetky hodnoty označené ako `duplicated` nastavené na `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Oba `duplicated` a `drop_duplicates` štandardne zohľadňujú všetky stĺpce, ale môžete špecifikovať, aby skúmali iba podmnožinu stĺpcov vo vašom `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Upozornenie**:  
Tento dokument bol preložený pomocou služby na automatický preklad [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, upozorňujeme, že automatické preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nezodpovedáme za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.
