# Adatelőkészítés

[Az eredeti jegyzet forrása: *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## A `DataFrame` információinak felfedezése

> **Tanulási cél:** Ennek az alfejezetnek a végére képes leszel általános információkat találni a pandas DataFrame-ekben tárolt adatokról.

Miután betöltötted az adatokat a pandasba, nagy valószínűséggel egy `DataFrame` formátumban lesznek. De ha a `DataFrame`-edben lévő adatállomány 60,000 sorból és 400 oszlopból áll, hogyan kezdhetsz neki annak, hogy átlásd, mivel dolgozol? Szerencsére a pandas biztosít néhány kényelmes eszközt, amelyekkel gyorsan áttekintheted egy `DataFrame` általános információit, valamint az első és utolsó néhány sort.

Ennek a funkciónak a felfedezéséhez importálni fogjuk a Python scikit-learn könyvtárat, és használni fogunk egy ikonikus adatállományt, amelyet minden adatkutató már több százszor látott: a brit biológus Ronald Fisher *Iris* adatállományát, amelyet az 1936-os "A több mérések használata taxonómiai problémákban" című tanulmányában használt:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Betöltöttük az Iris adathalmazt az `iris_df` változóba. Mielőtt mélyebben belemerülnénk az adatokba, érdemes lenne megtudni, hány adatpontunk van, és mekkora az adathalmaz teljes mérete. Hasznos lehet áttekinteni, mekkora adatmennyiséggel dolgozunk.


In [2]:
iris_df.shape

(150, 4)

Tehát, 150 sor és 4 oszlopnyi adatról van szó. Minden sor egy adatpontot képvisel, és minden oszlop egy-egy jellemzőt tartalmaz, amely az adatkerethez kapcsolódik. Alapvetően tehát 150 adatpont van, mindegyik 4 jellemzővel.

A `shape` itt az adatkeret egy attribútuma, nem pedig egy függvény, ezért nem zárul zárójelekkel.


### `DataFrame.columns`
Most nézzük meg a 4 adat oszlopot. Mit is jelentenek pontosan? A `columns` attribútum megadja nekünk az oszlopok nevét a dataframe-ben.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Amint láthatjuk, négy (4) oszlop van. A `columns` attribútum megadja az oszlopok nevét, és alapvetően semmi mást. Ez az attribútum akkor válik fontossá, amikor az adathalmazban található jellemzőket szeretnénk azonosítani.


### `DataFrame.info`
Az adatok mennyisége (amit a `shape` attribútum ad meg) és a jellemzők vagy oszlopok nevei (amit a `columns` attribútum ad meg) már adnak némi információt az adathalmazról. Most szeretnénk mélyebben belemerülni az adathalmazba. Ebben nagyon hasznos a `DataFrame.info()` függvény.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Innen néhány megfigyelést tehetünk:

1. Az egyes oszlopok adattípusa: Ebben az adathalmazban az összes adat 64 bites lebegőpontos számként van tárolva.  
2. Nem null értékek száma: A null értékek kezelése fontos lépés az adatelőkészítés során. Ezzel később foglalkozunk a notebookban.


### DataFrame.describe()
Tegyük fel, hogy sok numerikus adat található az adatállományunkban. Egyváltozós statisztikai számítások, mint például az átlag, medián, kvartilisek stb., elvégezhetők az egyes oszlopokon külön-külön. A `DataFrame.describe()` függvény statisztikai összefoglalót nyújt az adatállomány numerikus oszlopairól.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


A fenti kimenet megmutatja az adatok összesített számát, az átlagot, a szórást, a minimumot, az alsó kvartilist (25%), a mediánt (50%), a felső kvartilist (75%) és az egyes oszlopok maximális értékét.


### `DataFrame.head`
Az összes fent említett függvénnyel és attribútummal már kaptunk egy átfogó képet az adathalmazról. Tudjuk, hány adatpont van benne, hány jellemző található, az egyes jellemzők adattípusát, valamint az egyes jellemzők nem null értékeinek számát.

Most itt az ideje, hogy magát az adatot is megnézzük. Nézzük meg, hogyan néznek ki a `DataFrame` első néhány sora (az első néhány adatpont):


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


A kimenetben itt láthatjuk az adathalmaz öt (5) bejegyzését. Ha megnézzük a bal oldali indexet, kiderül, hogy ezek az első öt sor.


### Feladat:

A fenti példából egyértelmű, hogy alapértelmezés szerint a `DataFrame.head` az első öt sort adja vissza egy `DataFrame`-ből. Az alábbi kódcella alapján ki tudsz találni egy módot arra, hogy több mint öt sort jeleníts meg?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Egy másik módja az adatok megtekintésének az, ha a végét nézzük (nem az elejét). A `DataFrame.head` ellentéte a `DataFrame.tail`, amely a `DataFrame` utolsó öt sorát adja vissza:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


A gyakorlatban hasznos, ha könnyen meg tudjuk vizsgálni egy `DataFrame` első néhány sorát vagy utolsó néhány sorát, különösen akkor, amikor rendezetlen adathalmazokban keresünk kiugró értékeket.

Az összes fent bemutatott függvény és attribútum, amelyeket kódpéldák segítségével ismertettünk, segít abban, hogy betekintést nyerjünk az adatokba.

> **Tanulság:** Már pusztán azzal, hogy megnézzük a `DataFrame` metaadatait vagy az első és utolsó néhány értéket, azonnali képet kaphatunk az adatok méretéről, alakjáról és tartalmáról, amelyekkel dolgozunk.


### Hiányzó adatok
Merüljünk el a hiányzó adatok témájában. Hiányzó adatok akkor fordulnak elő, amikor egyes oszlopokban nincs érték tárolva.

Vegyünk egy példát: tegyük fel, hogy valaki nagyon odafigyel a testsúlyára, és nem tölti ki a testsúly mezőt egy kérdőívben. Ebben az esetben az adott személy testsúly értéke hiányozni fog.

A valós adathalmazokban a hiányzó értékek gyakran előfordulnak.

**Hogyan kezeli a Pandas a hiányzó adatokat**

A Pandas kétféleképpen kezeli a hiányzó értékeket. Az első, amit már korábbi szakaszokban láthattál, a `NaN`, vagyis Not a Number. Ez valójában egy speciális érték, amely az IEEE lebegőpontos specifikáció része, és kizárólag a hiányzó lebegőpontos értékek jelzésére használják.

A lebegőpontos értékeken kívüli hiányzó adatok esetében a Pandas a Python `None` objektumát használja. Bár zavarónak tűnhet, hogy két különböző típusú értékkel találkozol, amelyek lényegében ugyanazt jelentik, ennek a tervezési döntésnek programozási szempontból megalapozott okai vannak. A gyakorlatban ez a megközelítés lehetővé teszi, hogy a Pandas a legtöbb esetben jó kompromisszumot nyújtson. Ennek ellenére mind a `None`, mind a `NaN` bizonyos korlátozásokkal jár, amelyekre figyelned kell, különösen azzal kapcsolatban, hogy hogyan használhatók.


### `None`: nem-float hiányzó adatok
Mivel a `None` a Pythonból származik, nem használható olyan NumPy és pandas tömbökben, amelyek adattípusa nem `'object'`. Ne feledd, a NumPy tömbök (és a pandas adatstruktúrák) csak egyféle adattípust tartalmazhatnak. Ez adja meg számukra azt a hatalmas erejüket a nagyszabású adat- és számítási munkákhoz, de egyben korlátozza is a rugalmasságukat. Az ilyen tömböknek a „legkisebb közös nevezőre” kell átalakulniuk, azaz arra az adattípusra, amely mindent magába foglal a tömbben. Ha a tömbben `None` található, az azt jelenti, hogy Python objektumokkal dolgozol.

Hogy ezt a gyakorlatban is lásd, nézd meg a következő példatömböt (figyeld meg a `dtype` értékét):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

A feljebb konvertált adattípusok valósága két mellékhatással jár. Először is, a műveletek az értelmezett Python kód szintjén fognak végbemenni, nem pedig a lefordított NumPy kód szintjén. Ez lényegében azt jelenti, hogy bármilyen művelet, amely `Series` vagy `DataFrame` objektumokat tartalmaz `None` értékkel, lassabb lesz. Bár valószínűleg nem fogod észrevenni ezt a teljesítménycsökkenést, nagyobb adathalmazok esetén problémát jelenthet.

A második mellékhatás az elsőből ered. Mivel a `None` lényegében visszahúzza a `Series` vagy `DataFrame` objektumokat a hagyományos Python világába, a NumPy/pandas aggregációk, mint például a `sum()` vagy a `min()`, olyan tömbökön, amelyek tartalmaznak egy ``None`` értéket, általában hibát fognak eredményezni:


In [10]:
example1.sum()

TypeError: ignored

**Fő tanulság**: Az egész számok és a `None` értékek közötti összeadás (és más műveletek) nincs definiálva, ami korlátozhatja az ilyen értékeket tartalmazó adathalmazokkal végezhető műveleteket.


### `NaN`: hiányzó lebegőpontos értékek

A `None`-nal ellentétben a NumPy (és így a pandas is) támogatja a `NaN`-t a gyors, vektorizált műveletekhez és ufunc-okhoz. A rossz hír az, hogy bármilyen aritmetikai művelet, amelyet `NaN`-nal végeznek, mindig `NaN`-t eredményez. Például:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

A jó hír: a `NaN` értékeket tartalmazó tömbökön futó aggregációk nem okoznak hibákat. A rossz hír: az eredmények nem egyformán hasznosak:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Gyakorlat:


In [11]:
# What happens if you add np.nan and None together?


Ne feledd: a `NaN` csak a hiányzó lebegőpontos értékekre vonatkozik; nincs `NaN` megfelelője az egész számok, sztringek vagy logikai értékek esetében.


### `NaN` és `None`: null értékek a pandasban

Bár a `NaN` és a `None` viselkedése némileg eltérhet, a pandas úgy van kialakítva, hogy ezeket felcserélhetően kezelje. Hogy megértsük, mire gondolunk, nézzünk egy egész számokat tartalmazó `Series`-t:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Gyakorlat:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


A `Series` és `DataFrame` adattípusok egységesítéséhez szükséges típuskonverzió során a pandas hajlandó a hiányzó értékeket `None` és `NaN` között váltogatni. Ennek a tervezési jellemzőnek köszönhetően hasznos lehet úgy gondolni a `None`-ra és a `NaN`-ra, mint a "null" két különböző változatára a pandasban. Valójában néhány alapvető módszer, amelyeket a hiányzó értékek kezelésére használunk a pandasban, ezt az elképzelést tükrözi az elnevezésükben:

- `isnull()`: Egy logikai maszkot generál, amely jelzi a hiányzó értékeket
- `notnull()`: Az `isnull()` ellentéte
- `dropna()`: A szűrt adatokat adja vissza
- `fillna()`: Az adat másolatát adja vissza, amelyben a hiányzó értékek kitöltve vagy imputálva vannak

Ezek fontos módszerek, amelyeket érdemes elsajátítani és magabiztosan használni, ezért nézzük meg őket részletesebben.


### Null értékek felismerése

Most, hogy megértettük a hiányzó értékek fontosságát, fel kell ismernünk őket az adatainkban, mielőtt foglalkoznánk velük.  
Az `isnull()` és a `notnull()` a két fő módszer a null értékek felismerésére. Mindkettő logikai maszkokat ad vissza az adatokra vonatkozóan.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Nézzük meg közelebbről az eredményt. Meglepett valami? Bár a `0` egy aritmetikai nullának számít, mégis egy teljesen érvényes egész szám, és a pandas is így kezeli. A `''` egy kicsit trükkösebb. Míg az 1. szakaszban üres szövegértékként használtuk, valójában egy szövegobjektum, és a pandas szempontjából nem tekinthető nullának.

Most fordítsuk meg a dolgot, és használjuk ezeket a módszereket olyan módon, ahogyan a gyakorlatban is alkalmazni fogjuk őket. A logikai maszkokat közvetlenül használhatjuk ``Series`` vagy ``DataFrame`` indexként, ami hasznos lehet, ha elszigetelt hiányzó (vagy meglévő) értékekkel szeretnénk dolgozni.

Ha meg akarjuk tudni a hiányzó értékek teljes számát, egyszerűen összegezhetjük a `isnull()` metódus által létrehozott maszkot.


In [19]:
example3.isnull().sum()

2

### Gyakorlat:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Fő tanulság**: Mind az `isnull()`, mind a `notnull()` metódusok hasonló eredményeket hoznak, amikor DataFrame-ekben használod őket: megmutatják az eredményeket és azok indexét, ami óriási segítséget nyújt, amikor az adataiddal dolgozol.


### Hiányzó adatok kezelése

> **Tanulási cél:** Ennek az alfejezetnek a végére tudni fogod, hogyan és mikor kell helyettesíteni vagy eltávolítani a hiányzó értékeket a DataFrame-ekből.

A gépi tanulási modellek önmagukban nem tudnak mit kezdeni a hiányzó adatokkal. Ezért, mielőtt az adatokat átadnánk a modellnek, foglalkoznunk kell ezekkel a hiányzó értékekkel.

A hiányzó adatok kezelése finom kompromisszumokat hordoz magában, és hatással lehet a végső elemzésre, valamint a valós eredményekre.

Alapvetően két módja van a hiányzó adatok kezelésének:

1.   Az a sor eltávolítása, amelyik hiányzó értéket tartalmaz
2.   A hiányzó érték helyettesítése valamilyen másik értékkel

Mindkét módszert részletesen megvitatjuk, beleértve azok előnyeit és hátrányait.


### Null értékek elhagyása

Az adatmennyiség, amelyet a modellünknek átadunk, közvetlen hatással van annak teljesítményére. A null értékek elhagyása azt jelenti, hogy csökkentjük az adatpontok számát, és ezzel együtt az adathalmaz méretét is. Ezért ajánlott elhagyni azokat a sorokat, amelyek null értékeket tartalmaznak, különösen akkor, ha az adathalmaz meglehetősen nagy.

Egy másik eset lehet, hogy egy adott sor vagy oszlop sok hiányzó értéket tartalmaz. Ilyenkor ezeket el lehet hagyni, mivel nem sok értéket adnának az elemzésünkhöz, hiszen az adott sor/oszlop adatai nagyrészt hiányoznak.

A hiányzó értékek azonosításán túl a pandas kényelmes eszközt biztosít a null értékek eltávolítására `Series` és `DataFrame` objektumokból. Hogy ezt gyakorlatban is lássuk, térjünk vissza az `example3`-hoz. A `DataFrame.dropna()` függvény segít a null értékeket tartalmazó sorok elhagyásában.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Ne feledje, hogy ennek úgy kell kinéznie, mint az `example3[example3.notnull()]` kimenete. A különbség itt az, hogy ahelyett, hogy csak a maszkolt értékekre indexelne, a `dropna` eltávolította azokat a hiányzó értékeket a `Series` `example3`-ból.

Mivel a DataFrame-eknek két dimenziójuk van, több lehetőséget kínálnak az adatok elhagyására.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Észrevetted, hogy a pandas két oszlopot is float típusra konvertált, hogy kezelje a `NaN` értékeket?)

Egyetlen értéket nem tudsz eltávolítani egy `DataFrame`-ből, ezért teljes sorokat vagy oszlopokat kell törölnöd. Attól függően, hogy mit szeretnél elérni, az egyik vagy a másik megoldást választhatod, és a pandas mindkettőhöz biztosít lehetőségeket. Mivel az adatelemzésben az oszlopok általában változókat, a sorok pedig megfigyeléseket jelentenek, valószínűbb, hogy sorokat fogsz eltávolítani az adatokból; a `dropna()` alapértelmezett beállítása az, hogy minden olyan sort töröl, amely bármilyen null értéket tartalmaz:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Ha szükséges, elhagyhatja az NA értékeket az oszlopokból. Használja az `axis=1` paramétert ehhez:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Ne feledje, hogy ez sok adatot elveszíthet, amelyet esetleg meg szeretne tartani, különösen kisebb adathalmazok esetén. Mi van akkor, ha csak azokat a sorokat vagy oszlopokat szeretné eltávolítani, amelyek több vagy akár az összes értékükben nullák? Ezeket a beállításokat a `dropna` metódusban adhatja meg a `how` és `thresh` paraméterekkel.

Alapértelmezés szerint a `how='any'` van beállítva (ha szeretné ellenőrizni, vagy megnézni, milyen más paraméterek érhetők el a metódusban, futtassa a `example4.dropna?` parancsot egy kódcellában). Alternatívaként megadhatja a `how='all'` értéket is, hogy csak azokat a sorokat vagy oszlopokat távolítsa el, amelyekben minden érték null. Bővítsük ki példánk `DataFrame`-jét, hogy a következő gyakorlatban ezt működés közben is láthassuk.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Főbb tanulságok:  
1. A null értékek elhagyása csak akkor jó ötlet, ha az adathalmaz elég nagy.  
2. Teljes sorokat vagy oszlopokat el lehet hagyni, ha az adatok nagy része hiányzik.  
3. A `DataFrame.dropna(axis=)` metódus segít a null értékek elhagyásában. Az `axis` argumentum jelzi, hogy sorokat vagy oszlopokat kell-e elhagyni.  
4. A `how` argumentumot is lehet használni. Alapértelmezés szerint az értéke `any`. Ezért csak azokat a sorokat/oszlopokat hagyja el, amelyekben bármilyen null érték található. Be lehet állítani `all` értékre is, hogy csak azokat a sorokat/oszlopokat hagyjuk el, ahol minden érték null.  


### Gyakorlat:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


A `thresh` paraméter finomabb szabályozást biztosít: megadja, hogy egy sorban vagy oszlopban hány *nem-null* értéknek kell lennie ahhoz, hogy megtartsa.


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Itt az első és az utolsó sor ki lett hagyva, mert csak két nem null értéket tartalmaznak.


### Hiányzó értékek kitöltése

Néha van értelme a hiányzó értékeket olyanokkal pótolni, amelyek érvényesek lehetnek. Több technika is létezik a null értékek kitöltésére. Az első módszer a Domain Knowledge (a dataset alapjául szolgáló téma ismerete) használata, hogy valamilyen módon megközelítsük a hiányzó értékeket.

Használhatod az `isnull` függvényt, hogy ezt helyben elvégezd, de ez fáradságos lehet, különösen, ha sok értéket kell kitölteni. Mivel ez egy nagyon gyakori feladat az adatelemzésben, a pandas biztosítja a `fillna` függvényt, amely egy másolatot ad vissza a `Series` vagy `DataFrame` objektumról, ahol a hiányzó értékeket az általad választott értékekkel helyettesíti. Hozzunk létre egy másik példát egy `Series` objektummal, hogy lássuk, hogyan működik ez a gyakorlatban.


### Kategóriális adatok (Nem numerikus)
Először nézzük meg a nem numerikus adatokat. Az adathalmazokban vannak oszlopok kategóriális adatokkal. Például: Nem, Igaz vagy Hamis stb.

A legtöbb ilyen esetben a hiányzó értékeket az oszlop `móduszával` helyettesítjük. Tegyük fel, hogy van 100 adatpontunk, amelyek közül 90 Igaz, 8 Hamis, és 2 nincs kitöltve. Ekkor a hiányzó 2 értéket kitölthetjük Igaz értékkel, figyelembe véve az egész oszlopot.

Itt ismét használhatunk szakmai ismereteket. Nézzünk egy példát a módusszal való kitöltésre.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Amint láthatjuk, a null érték helyettesítve lett. Mondanom sem kell, bármit írhattunk volna a `'True'` helyére, és az helyettesítve lett volna.


### Numerikus adatok
Most térjünk rá a numerikus adatokra. Itt két gyakori módszer van a hiányzó értékek pótlására:

1. Sor mediánjával való pótlás
2. Sor átlagával való pótlás

A mediánnal pótoljuk, ha az adatok ferde eloszlásúak és tartalmaznak kiugró értékeket. Ennek oka, hogy a medián ellenálló a kiugró értékekkel szemben.

Amikor az adatok normalizáltak, használhatjuk az átlagot, mivel ebben az esetben az átlag és a medián nagyon közel lesz egymáshoz.

Először vegyünk egy oszlopot, amely normál eloszlású, és töltsük ki a hiányzó értéket az oszlop átlagával.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


A oszlop átlaga


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Amint láthatjuk, a hiányzó értéket a középértékével helyettesítették.


Most nézzünk meg egy másik adatkeretet, és ezúttal a None értékeket a oszlop mediánjával fogjuk helyettesíteni.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


A második oszlop mediánja


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Amint láthatjuk, a NaN értéket a oszlop mediánjával helyettesítették.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Kitöltheti az összes null értéket egyetlen értékkel, például `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Főbb tanulságok:  
1. A hiányzó értékek kitöltését akkor érdemes elvégezni, ha kevés az adat, vagy ha van egy stratégia a hiányzó adatok pótlására.  
2. A hiányzó értékek becslésére felhasználható a szakterületi ismeret.  
3. Kategorikus adatok esetén a hiányzó értékeket többnyire az oszlop móduszával helyettesítik.  
4. Numerikus adatok esetén a hiányzó értékeket általában az oszlopok átlagával (normalizált adathalmazok esetén) vagy mediánjával töltik ki.  


### Gyakorlat:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Kitöltheti a null értékeket **előre kitöltéssel**, ami azt jelenti, hogy az utolsó érvényes értéket használja a null kitöltésére:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

A következő érvényes értéket **visszafelé kitöltéssel** is terjesztheti, hogy kitöltse a nullát:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Amint sejtheted, ez ugyanígy működik DataFrame-ekkel, de megadhatsz egy `axis` értéket is, amely mentén kitöltheted a null értékeket:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Figyelje meg, hogy amikor egy korábbi érték nem áll rendelkezésre előre kitöltéshez, a null érték megmarad.


### Gyakorlat:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Használhatod kreatívan a `fillna` funkciót. Például nézzük meg újra az `example4`-et, de ezúttal töltsük ki a hiányzó értékeket a `DataFrame` összes értékének átlagával:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Figyeld meg, hogy a 3. oszlop továbbra is érték nélküli: az alapértelmezett irány az, hogy az értékeket soronként töltjük ki.

> **Tanulság:** Számos módja van a hiányzó értékek kezelésének az adathalmazokban. Az, hogy melyik stratégiát választod (eltávolítás, helyettesítés, vagy akár az, hogyan helyettesíted őket), az adott adatok sajátosságaitól függ. Minél többet foglalkozol és dolgozol adathalmazokkal, annál jobb érzéked lesz a hiányzó értékek kezeléséhez.


### Kategorikus adatok kódolása

A gépi tanulási modellek kizárólag számokkal és bármilyen numerikus adattal tudnak dolgozni. Nem tudják megkülönböztetni az "Igen"-t a "Nem"-től, de a 0 és 1 közötti különbséget már igen. Ezért, miután kitöltöttük a hiányzó értékeket, a kategorikus adatokat valamilyen numerikus formára kell kódolnunk, hogy a modell megértse.

A kódolás kétféleképpen végezhető el. Ezeket a következőkben tárgyaljuk.


**CÍMKEKÓDOLÁS**

A címkekódolás lényege, hogy minden kategóriát egy számra alakítunk. Például, tegyük fel, hogy van egy légitársasági utasokból álló adatállományunk, amely tartalmaz egy oszlopot az utasok osztályával a következő kategóriák közül: ['business class', 'economy class', 'first class']. Ha címkekódolást alkalmazunk, ez átalakul [0,1,2] formára. Nézzünk meg egy példát kóddal. Mivel a következő jegyzetfüzetekben a `scikit-learn` könyvtárat fogjuk tanulni, itt nem fogjuk használni.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Az első oszlop címkéinek kódolásához először meg kell határoznunk egy leképezést, amely minden osztályt egy számhoz rendel, mielőtt kicserélnénk.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Amint láthatjuk, az eredmény megfelel annak, amit vártunk. Tehát mikor használjuk a címke kódolást? A címke kódolást az alábbi esetekben használjuk:  
1. Ha a kategóriák száma nagy  
2. Ha a kategóriák sorrendben vannak.  


**EGY HOT ENCODING**

Az egyik kódolási típus az Egy Hot Encoding. Ennél a kódolási típusnál az oszlop minden kategóriája külön oszlopként kerül hozzáadásra, és minden adatpont 0-t vagy 1-et kap attól függően, hogy tartalmazza-e az adott kategóriát. Tehát, ha n különböző kategória van, n oszlop kerül hozzáfűzésre az adatkerethez.

Például vegyük ugyanazt a repülőgép osztály példát. A kategóriák a következők voltak: ['business class', 'economy class', 'first class']. Ha egy hot encodingot hajtunk végre, a következő három oszlop kerül hozzáadásra az adathalmazhoz: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Végezzük el az egyértékű kódolást az első oszlopon


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Minden egyes one-hot kódolt oszlop 0-t vagy 1-et tartalmaz, amely meghatározza, hogy az adott kategória létezik-e az adott adatpontnál.


Mikor használjuk a one hot encodingot? A one hot encodingot az alábbi esetekben használjuk:

1. Amikor a kategóriák száma és az adathalmaz mérete kisebb.
2. Amikor a kategóriák között nincs meghatározott sorrend.


> Főbb tanulságok:  
1. Az enkódolás célja, hogy a nem numerikus adatokat numerikus adatokká alakítsa.  
2. Kétféle enkódolás létezik: címkeenkódolás és One Hot enkódolás, amelyek a dataset igényei alapján alkalmazhatók.  


## Duplikált adatok eltávolítása

> **Tanulási cél:** Ennek az alfejezetnek a végére képesnek kell lenned azonosítani és eltávolítani a duplikált értékeket a DataFrame-ekből.

A hiányzó adatok mellett gyakran találkozhatsz duplikált adatokkal is a valós adathalmazokban. Szerencsére a pandas egyszerű eszközöket kínál a duplikált bejegyzések felismerésére és eltávolítására.


### Duplikátumok azonosítása: `duplicated`

A duplikált értékeket könnyen észlelheted a pandas `duplicated` metódusával, amely egy logikai maszkot ad vissza, jelezve, hogy egy `DataFrame` bejegyzés egy korábbi bejegyzés duplikátuma-e. Hozzunk létre egy újabb példát egy `DataFrame`-re, hogy ezt működés közben lássuk.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Duplikátumok eltávolítása: `drop_duplicates`
A `drop_duplicates` egyszerűen visszaadja az adatokat egy másolatban, amelyben minden `duplicated` érték `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Mind a `duplicated`, mind a `drop_duplicates` alapértelmezés szerint az összes oszlopot figyelembe veszi, de megadhatja, hogy csak az `DataFrame` egy oszlopcsoportját vizsgálják:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Felelősség kizárása**:  
Ez a dokumentum az AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével lett lefordítva. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális emberi fordítást igénybe venni. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely a fordítás használatából eredhet.
