# Příprava dat

[Originální zdroj notebooku z *Data Science: Úvod do strojového učení pro datovou vědu Python a Machine Learning Studio od Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Zkoumání informací o `DataFrame`

> **Cíl učení:** Na konci této podsekce byste měli být schopni pohodlně najít obecné informace o datech uložených v pandas DataFrames.

Jakmile načtete svá data do pandas, je velmi pravděpodobné, že budou uložena v `DataFrame`. Ale pokud má datová sada ve vašem `DataFrame` 60 000 řádků a 400 sloupců, jak vůbec začít získávat přehled o tom, s čím pracujete? Naštěstí pandas poskytuje několik praktických nástrojů, které umožňují rychle získat celkový přehled o `DataFrame`, kromě zobrazení prvních a posledních několika řádků.

Abychom prozkoumali tuto funkcionalitu, importujeme knihovnu Python scikit-learn a použijeme ikonickou datovou sadu, kterou každý datový vědec viděl už stokrát: datovou sadu *Iris* britského biologa Ronalda Fishera, použitou v jeho článku z roku 1936 "Použití více měření v taxonomických problémech":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Načetli jsme dataset Iris do proměnné `iris_df`. Než se pustíme do analýzy dat, bylo by užitečné zjistit počet datových bodů, které máme, a celkovou velikost datasetu. Je dobré mít přehled o objemu dat, se kterými pracujeme.


In [2]:
iris_df.shape

(150, 4)

Takže máme 150 řádků a 4 sloupce dat. Každý řádek představuje jeden datový bod a každý sloupec představuje jednu vlastnost spojenou s datovým rámcem. V podstatě tedy máme 150 datových bodů, z nichž každý obsahuje 4 vlastnosti.

`shape` je zde atributem datového rámce, nikoliv funkcí, což je důvod, proč nekončí párem závorek.


### `DataFrame.columns`
Nyní se podíváme na 4 sloupce dat. Co přesně každý z nich představuje? Atribut `columns` nám poskytne názvy sloupců v datovém rámci.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Jak vidíme, jsou zde čtyři (4) sloupce. Atribut `columns` nám říká názvy sloupců a v podstatě nic jiného. Tento atribut nabývá na důležitosti, když chceme identifikovat vlastnosti, které datová sada obsahuje.


### `DataFrame.info`
Množství dat (určené atributem `shape`) a názvy vlastností nebo sloupců (určené atributem `columns`) nám poskytují určité informace o datové sadě. Nyní bychom chtěli jít hlouběji do datové sady. Funkce `DataFrame.info()` je pro tento účel velmi užitečná.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Zde můžeme udělat několik pozorování:
1. Datový typ každého sloupce: V tomto datasetu jsou všechna data uložena jako 64bitová čísla s plovoucí desetinnou čárkou.
2. Počet nenulových hodnot: Práce s nulovými hodnotami je důležitým krokem při přípravě dat. Tím se budeme zabývat později v notebooku.


### DataFrame.describe()
Řekněme, že máme v našem datasetu hodně číselných dat. Jednovariabilní statistické výpočty, jako je průměr, medián, kvartily atd., lze provádět na jednotlivých sloupcích. Funkce `DataFrame.describe()` nám poskytuje statistický přehled číselných sloupců datasetu.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Výstup výše ukazuje celkový počet datových bodů, průměr, směrodatnou odchylku, minimum, dolní kvartil (25 %), medián (50 %), horní kvartil (75 %) a maximální hodnotu každého sloupce.


### `DataFrame.head`
S využitím všech výše uvedených funkcí a atributů jsme získali přehled na nejvyšší úrovni o datové sadě. Víme, kolik datových bodů je k dispozici, kolik je vlastností, jaký je datový typ každé vlastnosti a kolik hodnot není nulových pro každou vlastnost.

Teď je čas podívat se na samotná data. Podívejme se, jak vypadají první řádky (první datové body) našeho `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Jak vidíme v tomto výstupu, máme pět (5) záznamů datové sady. Pokud se podíváme na index vlevo, zjistíme, že se jedná o prvních pět řádků.


### Cvičení:

Z výše uvedeného příkladu je zřejmé, že `DataFrame.head` ve výchozím nastavení vrací prvních pět řádků `DataFrame`. V níže uvedené buňce kódu, dokážete najít způsob, jak zobrazit více než pět řádků?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Další způsob, jak se podívat na data, může být od konce (namísto od začátku). Opakem `DataFrame.head` je `DataFrame.tail`, který vrací posledních pět řádků `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


V praxi je užitečné mít možnost snadno prohlédnout prvních několik řádků nebo posledních několik řádků `DataFrame`, zejména když hledáte odlehlé hodnoty v uspořádaných datových sadách.

Všechny funkce a atributy uvedené výše pomocí příkladů kódu nám pomáhají získat přehled o datech.

> **Shrnutí:** Už jen pohledem na metadata o informacích v `DataFrame` nebo na prvních a posledních několik hodnot v něm můžete okamžitě získat představu o velikosti, tvaru a obsahu dat, se kterými pracujete.


### Chybějící data
Pojďme se podívat na chybějící data. Chybějící data nastávají, když v některých sloupcích nejsou uloženy žádné hodnoty.

Uveďme si příklad: řekněme, že někdo je citlivý na svou váhu a nevyplní pole s váhou v dotazníku. Potom bude hodnota váhy pro tuto osobu chybět.

Ve většině případů se v reálných datových sadách chybějící hodnoty vyskytují.

**Jak Pandas zpracovává chybějící data**

Pandas zpracovává chybějící hodnoty dvěma způsoby. První způsob jste již viděli v předchozích sekcích: `NaN`, neboli Not a Number. Toto je ve skutečnosti speciální hodnota, která je součástí specifikace IEEE pro čísla s plovoucí desetinnou čárkou, a používá se pouze k označení chybějících hodnot typu float.

Pro chybějící hodnoty jiného typu než float používá pandas objekt `None` z Pythonu. I když se může zdát matoucí, že se setkáte se dvěma různými typy hodnot, které v podstatě znamenají totéž, existují logické programátorské důvody pro toto rozhodnutí. V praxi tento přístup umožňuje pandas nabídnout dobrý kompromis pro drtivou většinu případů. Přesto však jak `None`, tak `NaN` mají určitá omezení, na která je třeba dávat pozor, pokud jde o jejich použití.


### `None`: nečíselná chybějící data
Protože `None` pochází z Pythonu, nemůže být použito v polích NumPy a pandas, která nemají datový typ `'object'`. Pamatujte, že NumPy pole (a datové struktury v pandas) mohou obsahovat pouze jeden typ dat. To jim dává obrovskou sílu pro práci s velkými objemy dat a výpočty, ale zároveň omezuje jejich flexibilitu. Taková pole musí být převedena na „nejnižší společný jmenovatel“, tedy datový typ, který zahrne vše v poli. Když je v poli `None`, znamená to, že pracujete s Python objekty.

Pro ukázku, jak to funguje, zvažte následující příklad pole (všimněte si jeho `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realita upcast datových typů s sebou nese dva vedlejší efekty. Za prvé, operace budou prováděny na úrovni interpretovaného Python kódu namísto zkompilovaného NumPy kódu. To v podstatě znamená, že jakékoli operace zahrnující `Series` nebo `DataFrames` s hodnotou `None` budou pomalejší. I když si tohoto zpomalení pravděpodobně nevšimnete, u velkých datových sad by to mohlo představovat problém.

Druhý vedlejší efekt vyplývá z prvního. Protože `None` v podstatě vrací `Series` nebo `DataFrame` zpět do světa základního Pythonu, použití agregací NumPy/pandas, jako je `sum()` nebo `min()`, na polích obsahujících hodnotu ``None`` obvykle vyvolá chybu:


In [10]:
example1.sum()

TypeError: ignored

**Klíčová myšlenka**: Sčítání (a jiné operace) mezi celými čísly a hodnotami `None` není definováno, což může omezit možnosti práce s datovými sadami, které je obsahují.


### `NaN`: chybějící hodnoty typu float

Na rozdíl od `None` podporuje NumPy (a tím pádem i pandas) `NaN` pro své rychlé, vektorové operace a ufuncs. Špatnou zprávou je, že jakákoli aritmetická operace provedená na `NaN` vždy vrátí `NaN`. Například:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobrá zpráva: agregace prováděné na polích obsahujících `NaN` nevyvolávají chyby. Špatná zpráva: výsledky nejsou jednotně užitečné:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Cvičení:


In [11]:
# What happens if you add np.nan and None together?


Pamatujte: `NaN` je pouze pro chybějící hodnoty s plovoucí desetinnou čárkou; neexistuje žádný ekvivalent `NaN` pro celá čísla, řetězce nebo Booleovské hodnoty.


### `NaN` a `None`: nulové hodnoty v pandas

I když se `NaN` a `None` mohou chovat poněkud odlišně, pandas je navrženo tak, aby s nimi zacházelo zaměnitelně. Pro lepší pochopení si vezměme `Series` celých čísel:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Cvičení:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Při procesu převodu datových typů za účelem dosažení homogenity dat v `Series` a `DataFrame`, pandas ochotně přepíná chybějící hodnoty mezi `None` a `NaN`. Díky této vlastnosti návrhu může být užitečné považovat `None` a `NaN` za dvě různé podoby "null" v pandas. Ve skutečnosti některé základní metody, které budete používat k práci s chybějícími hodnotami v pandas, tuto myšlenku odrážejí ve svých názvech:

- `isnull()`: Vytváří Booleovskou masku označující chybějící hodnoty
- `notnull()`: Opak metody `isnull()`
- `dropna()`: Vrací filtrovanou verzi dat
- `fillna()`: Vrací kopii dat s vyplněnými nebo imputovanými chybějícími hodnotami

Tyto metody jsou důležité zvládnout a osvojit si, takže si je podrobněji projdeme jednu po druhé.


### Detekce nulových hodnot

Nyní, když jsme pochopili důležitost chybějících hodnot, musíme je v našem datovém souboru nejprve detekovat, než s nimi začneme pracovat. 
Metody `isnull()` a `notnull()` jsou vaše hlavní nástroje pro detekci nulových dat. Obě vracejí Booleovské masky nad vašimi daty.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Podívejte se pozorně na výstup. Překvapuje vás něco? Zatímco `0` je aritmetická nula, je to přesto zcela platné celé číslo a pandas ho takto i považuje. `''` je o něco jemnější. Zatímco jsme ho v sekci 1 použili k reprezentaci prázdné hodnoty řetězce, je to přesto objekt typu řetězec a nikoli reprezentace nulové hodnoty, pokud jde o pandas.

Teď to otočíme a použijeme tyto metody způsobem, jakým je pravděpodobně budete používat v praxi. Boolean masky můžete použít přímo jako index ``Series`` nebo ``DataFrame``, což může být užitečné při práci s izolovanými chybějícími (nebo přítomnými) hodnotami.

Pokud chceme celkový počet chybějících hodnot, stačí provést součet přes masku vytvořenou metodou `isnull()`.


In [19]:
example3.isnull().sum()

2

### Cvičení:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Klíčové poznatky**: Metody `isnull()` a `notnull()` produkují podobné výsledky, když je použijete v DataFramech: zobrazují výsledky a index těchto výsledků, což vám může nesmírně pomoci při práci s vašimi daty.


### Práce s chybějícími daty

> **Cíl učení:** Na konci této podkapitoly byste měli vědět, jak a kdy nahradit nebo odstranit nulové hodnoty z DataFrames.

Modely strojového učení si samy nedokážou poradit s chybějícími daty. Proto je potřeba tyto chybějící hodnoty zpracovat ještě předtím, než data předáme modelu.

Způsob, jakým se chybějící data zpracovávají, s sebou nese jemné kompromisy a může ovlivnit vaši finální analýzu i reálné výsledky.

Existují především dva způsoby, jak se vypořádat s chybějícími daty:

1.   Odstranit řádek obsahující chybějící hodnotu  
2.   Nahradit chybějící hodnotu jinou hodnotou  

Oba tyto přístupy a jejich výhody a nevýhody si podrobně rozebereme.


### Odstranění nulových hodnot

Množství dat, které předáváme našemu modelu, má přímý vliv na jeho výkon. Odstranění nulových hodnot znamená, že snižujeme počet datových bodů, a tím i velikost datové sady. Proto je vhodné odstranit řádky s nulovými hodnotami, pokud je datová sada poměrně velká.

Dalším případem může být situace, kdy určitý řádek nebo sloupec obsahuje mnoho chybějících hodnot. V takovém případě je možné je odstranit, protože by nepřidaly příliš hodnotu naší analýze, jelikož většina dat pro daný řádek/sloupec chybí.

Kromě identifikace chybějících hodnot poskytuje pandas pohodlný způsob, jak odstranit nulové hodnoty z `Series` a `DataFrame`. Abychom si to ukázali v praxi, vraťme se k `example3`. Funkce `DataFrame.dropna()` pomáhá odstranit řádky s nulovými hodnotami.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Všimněte si, že by to mělo vypadat jako váš výstup z `example3[example3.notnull()]`. Rozdíl zde spočívá v tom, že místo pouhého indexování na základě maskovaných hodnot metoda `dropna` odstranila tyto chybějící hodnoty ze `Series` `example3`.

Protože DataFrames mají dvě dimenze, nabízejí více možností pro odstranění dat.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Všimli jste si, že pandas převedl dva sloupce na typ float, aby mohl pracovat s hodnotami `NaN`?)

Nemůžete odstranit jednotlivou hodnotu z `DataFrame`, takže musíte odstranit celé řádky nebo sloupce. V závislosti na tom, co děláte, můžete chtít provést jedno nebo druhé, a proto vám pandas nabízí možnosti pro obě varianty. Protože ve vědě o datech sloupce obvykle představují proměnné a řádky představují pozorování, je pravděpodobnější, že budete odstraňovat řádky dat; výchozí nastavení pro `dropna()` je odstranit všechny řádky, které obsahují jakékoli nulové hodnoty:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Pokud je to nutné, můžete odstranit hodnoty NA ze sloupců. Použijte `axis=1` k tomu:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Všimněte si, že to může odstranit mnoho dat, která byste mohli chtít zachovat, zejména u menších datových sad. Co když chcete odstranit pouze řádky nebo sloupce, které obsahují několik nebo dokonce všechny nulové hodnoty? Tyto nastavení určíte v `dropna` pomocí parametrů `how` a `thresh`.

Ve výchozím nastavení je `how='any'` (pokud si to chcete ověřit sami nebo zjistit, jaké další parametry metoda má, spusťte `example4.dropna?` v buňce kódu). Alternativně můžete specifikovat `how='all`, abyste odstranili pouze řádky nebo sloupce, které obsahují všechny nulové hodnoty. Rozšíříme náš příklad `DataFrame`, abychom to viděli v praxi v následujícím cvičení.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Klíčové poznatky:  
1. Odstranění nulových hodnot je dobrý nápad pouze tehdy, pokud je datová sada dostatečně velká.  
2. Celé řádky nebo sloupce lze odstranit, pokud jim chybí většina dat.  
3. Metoda `DataFrame.dropna(axis=)` pomáhá při odstraňování nulových hodnot. Argument `axis` určuje, zda mají být odstraněny řádky nebo sloupce.  
4. Lze použít také argument `how`. Ve výchozím nastavení je nastaven na `any`. To znamená, že odstraní pouze ty řádky/sloupce, které obsahují jakékoli nulové hodnoty. Může být nastaven na `all`, což specifikuje, že odstraníme pouze ty řádky/sloupce, kde jsou všechny hodnoty nulové.  


### Cvičení:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parametr `thresh` vám poskytuje jemnější kontrolu: nastavíte počet *ne-null* hodnot, které řádek nebo sloupec musí mít, aby byl zachován:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Zde byly první a poslední řádek odstraněny, protože obsahují pouze dvě nenulové hodnoty.


### Vyplňování nulových hodnot

Někdy má smysl doplnit chybějící hodnoty takovými, které by mohly být platné. Existuje několik technik, jak vyplnit nulové hodnoty. První z nich je použití znalostí domény (znalostí o tématu, na kterém je datová sada založena) k přibližnému odhadu chybějících hodnot.

Můžete použít `isnull` k provedení této operace přímo, ale to může být zdlouhavé, zejména pokud máte mnoho hodnot k vyplnění. Protože se jedná o tak běžný úkol v datové vědě, pandas poskytuje funkci `fillna`, která vrací kopii `Series` nebo `DataFrame` s chybějícími hodnotami nahrazenými hodnotami podle vašeho výběru. Pojďme vytvořit další příklad `Series`, abychom viděli, jak to funguje v praxi.


### Kategorická data (Nenumerická)
Nejprve se podívejme na nenumerická data. V datových sadách máme sloupce s kategorickými daty. Například pohlaví, Pravda nebo Nepravda atd.

Ve většině těchto případů nahrazujeme chybějící hodnoty `modem` sloupce. Řekněme, že máme 100 datových bodů, z nichž 90 uvedlo Pravda, 8 uvedlo Nepravda a 2 nevyplnili. Poté můžeme tyto 2 nahradit hodnotou Pravda, pokud zohledníme celý sloupec.

I zde můžeme využít znalosti z dané oblasti. Podívejme se na příklad vyplnění pomocí modu.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Jak vidíme, nulová hodnota byla nahrazena. Netřeba dodávat, že jsme mohli napsat cokoli místo `'True'` a bylo by to nahrazeno.


### Číselná data
Nyní se podíváme na číselná data. Zde máme dva běžné způsoby nahrazování chybějících hodnot:

1. Nahrazení mediánem řádku
2. Nahrazení průměrem řádku

Medián používáme v případě, že data jsou zkreslená a obsahují odlehlé hodnoty. Je to proto, že medián je vůči odlehlým hodnotám odolný.

Když jsou data normalizovaná, můžeme použít průměr, protože v takovém případě jsou průměr a medián velmi blízko.

Nejprve si vezměme sloupec, který má normální rozdělení, a vyplňme chybějící hodnoty průměrem sloupce.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Průměr sloupce je


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Jak vidíme, chybějící hodnota byla nahrazena jejím průměrem.


Nyní zkusme další dataframe a tentokrát nahradíme hodnoty None mediánem sloupce.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Medián druhého sloupce je


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Jak vidíme, hodnota NaN byla nahrazena mediánem sloupce


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Můžete vyplnit všechny prázdné položky jednou hodnotou, například `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Klíčové poznatky:  
1. Vyplňování chybějících hodnot by mělo být prováděno buď tehdy, když je méně dat, nebo když existuje strategie pro doplnění chybějících dat.  
2. K doplnění chybějících hodnot lze využít znalosti z dané oblasti tím, že se hodnoty přibližně odhadnou.  
3. U kategoriálních dat se chybějící hodnoty většinou nahrazují módem sloupce.  
4. U číselných dat se chybějící hodnoty obvykle doplňují průměrem (pro normalizované datové sady) nebo mediánem sloupců.  


### Cvičení:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Můžete **doplnit** nulové hodnoty, což znamená použít poslední platnou hodnotu k vyplnění nulové hodnoty:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Můžete také **zpětně vyplnit**, abyste zpětně propagovali další platnou hodnotu a vyplnili null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Jak můžete tušit, toto funguje stejně s DataFrames, ale můžete také specifikovat `axis`, podél kterého chcete vyplnit nulové hodnoty:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Všimněte si, že když není k dispozici předchozí hodnota pro doplnění, zůstává nulová hodnota.


### Cvičení:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Můžete být kreativní při používání `fillna`. Například se podívejme znovu na `example4`, ale tentokrát vyplňme chybějící hodnoty průměrem všech hodnot v `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Všimněte si, že sloupec 3 je stále bez hodnoty: výchozí směr je vyplňovat hodnoty po řádcích.

> **Shrnutí:** Existuje několik způsobů, jak se vypořádat s chybějícími hodnotami ve vašich datových sadách. Konkrétní strategie, kterou použijete (odstranění, nahrazení nebo způsob, jakým je nahradíte), by měla být určena specifiky těchto dat. Čím více budete s datovými sadami pracovat a interagovat, tím lepší smysl pro řešení chybějících hodnot si vyvinete.


### Kódování kategorických dat

Modely strojového učení pracují pouze s čísly a jakoukoli formou číselných dat. Nejsou schopny rozlišit mezi Ano a Ne, ale dokážou rozlišit mezi 0 a 1. Proto je po doplnění chybějících hodnot potřeba zakódovat kategorická data do číselné podoby, aby jim model porozuměl.

Kódování lze provést dvěma způsoby. Ty si nyní rozebereme.


**KÓDOVÁNÍ ŠTÍTKŮ**

Kódování štítků spočívá v převodu každé kategorie na číslo. Například, řekněme, že máme dataset cestujících letecké společnosti a je zde sloupec obsahující jejich třídu mezi následujícími ['business class', 'economy class', 'first class']. Pokud by bylo provedeno kódování štítků, bylo by to převedeno na [0,1,2]. Podívejme se na příklad pomocí kódu. Protože se budeme učit `scikit-learn` v nadcházejících poznámkových blocích, zde ho nepoužijeme.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Pro provedení kódování štítků na prvním sloupci musíme nejprve popsat mapování každé třídy na číslo, než provedeme nahrazení


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Jak vidíme, výsledek odpovídá tomu, co jsme očekávali. Kdy tedy použít label encoding? Label encoding se používá v jednom nebo obou z následujících případů:
1. Když je počet kategorií velký
2. Když jsou kategorie v pořadí.


**JEDNOHOTOVÉ KÓDOVÁNÍ**

Dalším typem kódování je Jednohotové kódování (One Hot Encoding). Při tomto typu kódování se každá kategorie ve sloupci přidá jako samostatný sloupec a každý datový bod dostane hodnotu 0 nebo 1 podle toho, zda obsahuje danou kategorii. Pokud tedy existuje n různých kategorií, do datového rámce bude přidáno n sloupců.

Například vezměme stejný příklad s třídami v letadle. Kategorie byly: ['business class', 'economy class', 'first class']. Pokud tedy provedeme jednohotové kódování, do datové sady budou přidány následující tři sloupce: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Proveďme one hot encoding na 1. sloupci


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Každý sloupec s jedním horkým kódováním obsahuje 0 nebo 1, což určuje, zda daná kategorie existuje pro daný datový bod.


Kdy používáme one hot encoding? One hot encoding se používá v jednom nebo obou z následujících případů:

1. Když je počet kategorií a velikost datového souboru menší.
2. Když kategorie nemají žádné konkrétní pořadí.


> Klíčové poznatky:
1. Kódování se provádí za účelem převodu nenumerických dat na numerická data.
2. Existují dva typy kódování: Label encoding a One Hot encoding, které lze použít podle požadavků datové sady.


## Odstranění duplicitních dat

> **Cíl učení:** Na konci této podsekce byste měli být schopni identifikovat a odstranit duplicitní hodnoty z DataFrames.

Kromě chybějících dat se v reálných datových sadách často setkáte s duplicitními daty. Naštěstí pandas nabízí jednoduchý způsob, jak detekovat a odstranit duplicitní záznamy.


### Identifikace duplicit: `duplicated`

Duplicitní hodnoty můžete snadno identifikovat pomocí metody `duplicated` v pandas, která vrací Booleovskou masku označující, zda je záznam v `DataFrame` duplicitou dřívějšího záznamu. Vytvořme další příklad `DataFrame`, abychom si to ukázali v praxi.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Odstranění duplicit: `drop_duplicates`
`drop_duplicates` jednoduše vrátí kopii dat, u kterých jsou všechny hodnoty označené jako `duplicated` nastaveny na `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Oba `duplicated` a `drop_duplicates` standardně zvažují všechny sloupce, ale můžete specifikovat, že mají zkoumat pouze podmnožinu sloupců ve vašem `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Prohlášení**:  
Tento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.
