# Duomenų Paruošimas

[Originalus užrašų knygelės šaltinis iš *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` informacijos tyrinėjimas

> **Mokymosi tikslas:** Šios poskyrio pabaigoje turėtumėte jaustis patogiai ieškodami bendros informacijos apie duomenis, saugomus pandas `DataFrame`.

Kai jau įkėlėte savo duomenis į pandas, jie greičiausiai bus `DataFrame` formatu. Tačiau, jei jūsų `DataFrame` duomenų rinkinys turi 60 000 eilučių ir 400 stulpelių, nuo ko pradėti, kad suprastumėte, su kuo dirbate? Laimei, pandas suteikia keletą patogių įrankių, leidžiančių greitai peržiūrėti bendrą informaciją apie `DataFrame`, taip pat pirmąsias ir paskutines kelias eilutes.

Norėdami išbandyti šią funkcionalumą, importuosime Python scikit-learn biblioteką ir naudosime ikonišką duomenų rinkinį, kurį kiekvienas duomenų mokslininkas yra matęs šimtus kartų: britų biologo Ronaldo Fisherio *Iris* duomenų rinkinį, naudotą jo 1936 metų straipsnyje „Daugybinių matavimų naudojimas taksonomijos problemose“:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Mes įkėlėme Iris duomenų rinkinį į kintamąjį `iris_df`. Prieš pradedant analizuoti duomenis, būtų naudinga sužinoti, kiek duomenų taškų turime ir kokio dydžio yra visas duomenų rinkinys. Naudinga pažvelgti į duomenų apimtį, su kuria dirbame.


In [2]:
iris_df.shape

(150, 4)

Taigi, mes turime 150 eilučių ir 4 stulpelius duomenų. Kiekviena eilutė atspindi vieną duomenų tašką, o kiekvienas stulpelis – vieną savybę, susijusią su duomenų rėmeliu. Taigi, iš esmės yra 150 duomenų taškų, kuriuose kiekviename yra po 4 savybes.

`shape` čia yra duomenų rėmelio atributas, o ne funkcija, todėl jis nesibaigia skliausteliais.


### `DataFrame.columns`
Dabar pereikime prie 4 duomenų stulpelių. Ką tiksliai kiekvienas iš jų reiškia? `columns` atributas suteiks mums stulpelių pavadinimus duomenų rėmelyje.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Kaip matome, yra keturios (4) stulpeliai. `columns` atributas nurodo stulpelių pavadinimus ir iš esmės nieko daugiau. Šis atributas tampa svarbus, kai norime nustatyti, kokias savybes turi duomenų rinkinys.


### `DataFrame.info`
Duomenų kiekis (nurodytas `shape` atributu) ir savybių ar stulpelių pavadinimai (nurodyti `columns` atributu) suteikia mums tam tikrą informaciją apie duomenų rinkinį. Dabar norėtume giliau pažvelgti į duomenų rinkinį. Funkcija `DataFrame.info()` yra labai naudinga šiuo atveju.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Iš čia galime padaryti keletą pastebėjimų:  
1. Kiekvienos stulpelio duomenų tipas: Šiame duomenų rinkinyje visi duomenys yra saugomi kaip 64 bitų slankiojo kablelio skaičiai.  
2. Ne-null reikšmių skaičius: Darbas su null reikšmėmis yra svarbus duomenų paruošimo žingsnis. Tai bus aptarta vėliau užrašų knygelėje.  


### DataFrame.describe()
Tarkime, turime daug skaitinių duomenų savo duomenų rinkinyje. Vieno kintamojo statistiniai skaičiavimai, tokie kaip vidurkis, mediana, kvartiliai ir pan., gali būti atliekami kiekvienai stulpeliui atskirai. Funkcija `DataFrame.describe()` pateikia statistinę santrauką apie skaitinius duomenų rinkinio stulpelius.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Rezultatas aukščiau rodo bendrą duomenų taškų skaičių, vidurkį, standartinį nuokrypį, minimumą, apatinį kvartilį (25%), medianą (50%), viršutinį kvartilį (75%) ir maksimalų kiekvienos stulpelio reikšmę.


### `DataFrame.head`
Turėdami visas aukščiau paminėtas funkcijas ir atributus, jau turime bendrą duomenų rinkinio vaizdą. Žinome, kiek yra duomenų taškų, kiek yra požymių, kokio tipo yra kiekvienas požymis ir kiek kiekvienas požymis turi nenulinių reikšmių.

Dabar laikas pažvelgti į pačius duomenis. Pažiūrėkime, kaip atrodo pirmosios kelios mūsų `DataFrame` eilutės (pirmieji keli duomenų taškai):


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kaip matome išvestyje, čia pateikti penki (5) duomenų rinkinio įrašai. Jei pažvelgsime į indeksą kairėje, sužinosime, kad tai yra pirmosios penkios eilutės.


### Pratimas:

Iš pateikto pavyzdžio aišku, kad pagal numatytuosius nustatymus `DataFrame.head` grąžina pirmas penkias `DataFrame` eilutes. Ar galite sugalvoti būdą, kaip parodyti daugiau nei penkias eilutes žemiau esančiame kodo langelyje?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Kitas būdas peržiūrėti duomenis yra nuo pabaigos (vietoj pradžios). Priešingybė `DataFrame.head` yra `DataFrame.tail`, kuris grąžina paskutines penkias `DataFrame` eilutes:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Praktiškai yra naudinga lengvai peržiūrėti pirmas kelias arba paskutines kelias `DataFrame` eilutes, ypač kai ieškote išskirtinių reikšmių tvarkinguose duomenų rinkiniuose.

Visos aukščiau pateiktos funkcijos ir atributai, parodyti su kodo pavyzdžiais, padeda mums susidaryti įspūdį apie duomenis.

> **Svarbiausia mintis:** Net vien pažvelgus į metaduomenis apie informaciją `DataFrame` arba į pirmas ir paskutines kelias reikšmes, galite iš karto susidaryti įspūdį apie duomenų dydį, formą ir turinį, su kuriais dirbate.


### Trūkstami Duomenys
Panagrinėkime trūkstamus duomenis. Trūkstami duomenys atsiranda, kai kai kuriuose stulpeliuose nėra išsaugota jokia reikšmė.

Pavyzdžiui: tarkime, kažkas yra labai susirūpinęs savo svoriu ir nepildo svorio lauko apklausoje. Tokiu atveju, to žmogaus svorio reikšmė bus trūkstama.

Dažniausiai realaus pasaulio duomenų rinkiniuose pasitaiko trūkstamų reikšmių.

**Kaip Pandas tvarko trūkstamus duomenis**

Pandas trūkstamas reikšmes tvarko dviem būdais. Pirmasis būdas, kurį jau matėte ankstesnėse dalyse, yra `NaN`, arba Not a Number (ne skaičius). Tai iš tikrųjų yra speciali reikšmė, kuri yra IEEE slankiojo kablelio specifikacijos dalis ir naudojama tik trūkstamoms slankiojo kablelio reikšmėms nurodyti.

Kitoms trūkstamoms reikšmėms, išskyrus slankiojo kablelio reikšmes, pandas naudoja Python objektą `None`. Nors gali atrodyti painu, kad susidursite su dviem skirtingais reikšmių tipais, kurie iš esmės reiškia tą patį, yra pagrįstų programavimo priežasčių, kodėl buvo pasirinktas toks dizainas. Praktikoje toks sprendimas leidžia pandas pasiekti gerą kompromisą daugeliu atvejų. Nepaisant to, tiek `None`, tiek `NaN` turi apribojimų, kuriuos reikia žinoti, atsižvelgiant į tai, kaip jie gali būti naudojami.


### `None`: trūkstami duomenys, kurie nėra skaičiai
Kadangi `None` yra iš Python, jis negali būti naudojamas NumPy ir pandas masyvuose, kurių duomenų tipas nėra `'object'`. Atminkite, kad NumPy masyvai (ir pandas duomenų struktūros) gali turėti tik vieno tipo duomenis. Tai suteikia jiems didžiulę galią dirbant su didelio masto duomenimis ir atliekant skaičiavimus, tačiau tuo pačiu apriboja jų lankstumą. Tokie masyvai turi būti perkelti į „mažiausią bendrą vardiklį“, duomenų tipą, kuris apima viską masyve. Kai masyve yra `None`, tai reiškia, kad dirbate su Python objektais.

Norėdami tai pamatyti praktiškai, apsvarstykite šį pavyzdinį masyvą (atkreipkite dėmesį į jo `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realybė, susijusi su duomenų tipų konvertavimu į aukštesnį lygį, turi dvi pasekmes. Pirma, operacijos bus vykdomos interpretuojamo Python kodo lygiu, o ne kompiliuoto NumPy kodo lygiu. Iš esmės tai reiškia, kad bet kokios operacijos, susijusios su `Series` ar `DataFrame` objektais, kuriuose yra `None`, bus lėtesnės. Nors greičiausiai šio našumo sumažėjimo nepastebėsite, didelių duomenų rinkinių atveju tai gali tapti problema.

Antroji pasekmė kyla iš pirmosios. Kadangi `None` iš esmės grąžina `Series` ar `DataFrame` į paprasto Python pasaulį, naudojant NumPy/pandas agregavimo funkcijas, tokias kaip `sum()` ar `min()`, masyvuose, kuriuose yra `None` reikšmė, paprastai bus sugeneruota klaida:


In [10]:
example1.sum()

TypeError: ignored

**Pagrindinė mintis**: Sudėtis (ir kitos operacijos) tarp sveikųjų skaičių ir `None` reikšmių yra neapibrėžta, todėl tai gali apriboti galimybes dirbti su duomenų rinkiniais, kuriuose jos yra.


### `NaN`: trūkstamos slankiojo kablelio reikšmės

Skirtingai nei `None`, NumPy (ir todėl pandas) palaiko `NaN`, kad būtų galima atlikti greitas, vektorizuotas operacijas ir ufuncs. Bloga žinia yra ta, kad bet kokia aritmetika, atliekama su `NaN`, visada duoda `NaN`. Pavyzdžiui:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Geros naujienos: agregacijos, vykdomos su masyvais, kuriuose yra `NaN`, nesukelia klaidų. Blogos naujienos: rezultatai nėra vienodai naudingi:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Pratimas:


In [11]:
# What happens if you add np.nan and None together?


Atminkite: `NaN` yra skirtas tik trūkstamoms slankiojo kablelio reikšmėms; nėra `NaN` ekvivalento sveikiesiems skaičiams, eilutėms ar loginėms reikšmėms.


### `NaN` ir `None`: null reikšmės pandas bibliotekoje

Nors `NaN` ir `None` gali elgtis šiek tiek skirtingai, pandas biblioteka yra sukurta taip, kad su jais būtų galima dirbti kaip su lygiavertėmis reikšmėmis. Kad tai suprastume, pažiūrėkime į `Series` su sveikaisiais skaičiais:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Pratimas:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Pandas, siekdama užtikrinti duomenų homogeniškumą `Series` ir `DataFrame` objektuose, lengvai keičia trūkstamas reikšmes tarp `None` ir `NaN`. Dėl šios dizaino ypatybės naudinga galvoti apie `None` ir `NaN` kaip apie dvi skirtingas „null“ reikšmių formas pandas bibliotekoje. Iš tiesų, kai kurie pagrindiniai metodai, kuriuos naudosite tvarkydami trūkstamas reikšmes pandas, atspindi šią idėją savo pavadinimuose:

- `isnull()`: Sukuria loginę kaukę, nurodančią trūkstamas reikšmes
- `notnull()`: Priešingas `isnull()`
- `dropna()`: Grąžina filtruotą duomenų versiją
- `fillna()`: Grąžina duomenų kopiją su užpildytomis arba įterptomis trūkstamomis reikšmėmis

Šie metodai yra labai svarbūs, todėl verta juos gerai išmokti ir jaustis patogiai juos naudojant. Dabar išsamiau aptarkime kiekvieną iš jų.


### Nustatyti null reikšmes

Dabar, kai supratome trūkstamų reikšmių svarbą, turime jas nustatyti savo duomenų rinkinyje, prieš pradėdami jas tvarkyti. 
Tiek `isnull()`, tiek `notnull()` yra pagrindiniai metodai, skirti nustatyti null duomenis. Abu grąžina Boole'o kaukes jūsų duomenims.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Ar atidžiai pažvelgėte į rezultatą? Ar kas nors jus nustebino? Nors `0` yra aritmetinis nulis, jis vis tiek yra visiškai tinkamas sveikasis skaičius, ir pandas jį taip ir traktuoja. `''` yra šiek tiek subtilesnis atvejis. Nors 1 skyriuje jį naudojome kaip tuščios eilutės reikšmę, vis dėlto tai yra eilutės objektas, o ne null reprezentacija pandas požiūriu.

Dabar apverskime situaciją ir naudokime šiuos metodus taip, kaip juos naudosite praktiškai. Boolean kaukes galite naudoti tiesiogiai kaip ``Series`` arba ``DataFrame`` indeksą, kas gali būti naudinga dirbant su izoliuotomis trūkstamomis (arba esamomis) reikšmėmis.

Jei norime gauti bendrą trūkstamų reikšmių skaičių, galime tiesiog atlikti sumą pagal kaukę, kurią sukuria `isnull()` metodas.


In [19]:
example3.isnull().sum()

2

### Pratimas:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Pagrindinė mintis**: Tiek `isnull()`, tiek `notnull()` metodai duoda panašius rezultatus, kai juos naudojate „DataFrame“: jie parodo rezultatus ir tų rezultatų indeksą, kas labai padės jums dirbant su savo duomenimis.


### Darbas su trūkstamais duomenimis

> **Mokymosi tikslas:** Šio poskyrio pabaigoje turėtumėte žinoti, kaip ir kada pakeisti arba pašalinti null reikšmes iš DataFrame.

Mašininio mokymosi modeliai patys negali apdoroti trūkstamų duomenų. Todėl prieš perduodant duomenis modeliui, turime išspręsti šių trūkstamų reikšmių problemą.

Kaip tvarkomi trūkstami duomenys, turi subtilių kompromisų, kurie gali paveikti jūsų galutinę analizę ir realaus pasaulio rezultatus.

Yra du pagrindiniai būdai, kaip spręsti trūkstamų duomenų problemą:

1.   Pašalinti eilutę, kurioje yra trūkstama reikšmė
2.   Pakeisti trūkstamą reikšmę kita reikšme

Mes aptarsime abu šiuos metodus ir jų privalumus bei trūkumus išsamiai.


### Null reikšmių pašalinimas

Duomenų kiekis, kurį perduodame savo modeliui, tiesiogiai veikia jo našumą. Pašalinus null reikšmes, sumažiname duomenų taškų skaičių, o kartu ir duomenų rinkinio dydį. Todėl rekomenduojama pašalinti eilutes su null reikšmėmis, kai duomenų rinkinys yra pakankamai didelis.

Kitas atvejis gali būti, kai tam tikra eilutė ar stulpelis turi daug trūkstamų reikšmių. Tokiu atveju jie gali būti pašalinti, nes jie nepridės daug vertės mūsų analizei, kadangi didžioji dalis duomenų toje eilutėje/stulpelyje yra trūkstama.

Be trūkstamų reikšmių identifikavimo, pandas suteikia patogų būdą pašalinti null reikšmes iš `Series` ir `DataFrame`. Kad pamatytume, kaip tai veikia, grįžkime prie `example3`. Funkcija `DataFrame.dropna()` padeda pašalinti eilutes su null reikšmėmis.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Atkreipkite dėmesį, kad tai turėtų atrodyti kaip jūsų išvestis iš `example3[example3.notnull()]`. Skirtumas čia yra tas, kad vietoj tiesiog indeksavimo pagal užmaskuotas reikšmes, `dropna` pašalino tas trūkstamas reikšmes iš `Series` `example3`.

Kadangi DataFrames turi dvi dimensijas, jie suteikia daugiau galimybių duomenims pašalinti.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Ar pastebėjote, kad pandas pakeitė dviejų stulpelių tipą į float, kad būtų galima įtraukti `NaN`?)

Negalite pašalinti vienos reikšmės iš `DataFrame`, todėl turite pašalinti visas eilutes arba stulpelius. Priklausomai nuo to, ką darote, galite pasirinkti vieną ar kitą variantą, todėl pandas suteikia galimybes abiem. Kadangi duomenų moksle stulpeliai paprastai atspindi kintamuosius, o eilutės – stebėjimus, dažniau pašalinamos duomenų eilutės; numatytasis `dropna()` nustatymas yra pašalinti visas eilutes, kuriose yra bet kokių null reikšmių:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jei reikia, galite pašalinti NA reikšmes iš stulpelių. Naudokite `axis=1`, kad tai padarytumėte:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Atkreipkite dėmesį, kad tai gali pašalinti daug duomenų, kuriuos galbūt norėtumėte išsaugoti, ypač mažesniuose duomenų rinkiniuose. O kas, jei norite pašalinti tik tas eilutes ar stulpelius, kuriuose yra kelios arba net visos null reikšmės? Šiuos nustatymus galite nurodyti `dropna` funkcijoje naudodami `how` ir `thresh` parametrus.

Pagal numatytuosius nustatymus `how='any'` (jei norite patys patikrinti arba pamatyti, kokius kitus parametrus metodas turi, paleiskite `example4.dropna?` kodo langelyje). Taip pat galite nurodyti `how='all`, kad būtų pašalintos tik tos eilutės ar stulpeliai, kuriuose yra visos null reikšmės. Išplėskime mūsų pavyzdinį `DataFrame`, kad pamatytume tai veikiant kitame pratime.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Pagrindinės mintys:  
1. Naudinga pašalinti null reikšmes tik tada, jei duomenų rinkinys yra pakankamai didelis.  
2. Pilnas eilutes arba stulpelius galima pašalinti, jei dauguma jų duomenų trūksta.  
3. Metodas `DataFrame.dropna(axis=)` padeda pašalinti null reikšmes. Argumentas `axis` nurodo, ar reikia pašalinti eilutes, ar stulpelius.  
4. Taip pat galima naudoti argumentą `how`. Pagal numatytuosius nustatymus jis nustatytas į `any`. Tai reiškia, kad bus pašalintos tik tos eilutės/stulpeliai, kuriuose yra bet kokių null reikšmių. Jį galima nustatyti į `all`, kad būtų pašalintos tik tos eilutės/stulpeliai, kur visi duomenys yra null.  


### Pratimas:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` parametras suteikia jums smulkesnę kontrolę: jūs nustatote *ne-null* reikšmių skaičių, kurį eilutė arba stulpelis turi turėti, kad būtų išsaugotas:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Čia pirmoji ir paskutinė eilutės buvo pašalintos, nes jos turi tik dvi nenull reikšmes.


### Užpildyti null reikšmes

Kartais yra prasminga užpildyti trūkstamas reikšmes tokiomis, kurios galėtų būti tinkamos. Yra keletas būdų, kaip užpildyti null reikšmes. Pirmasis būdas – naudoti Srities Žinias (žinias apie temą, kuria pagrįstas duomenų rinkinys), kad kažkaip apytiksliai nustatytumėte trūkstamas reikšmes.

Galite naudoti `isnull`, kad tai atliktumėte vietoje, tačiau tai gali būti varginantis procesas, ypač jei turite daug reikšmių, kurias reikia užpildyti. Kadangi tai yra labai dažna užduotis duomenų moksle, pandas siūlo `fillna`, kuris grąžina `Series` arba `DataFrame` kopiją su trūkstamomis reikšmėmis, pakeistomis jūsų pasirinktomis reikšmėmis. Sukurkime kitą `Series` pavyzdį, kad pamatytume, kaip tai veikia praktiškai.


### Kategoriniai duomenys (ne skaitiniai)
Pirmiausia aptarkime ne skaitinius duomenis. Duomenų rinkiniuose turime stulpelius su kategoriniais duomenimis. Pvz., lytis, Tiesa arba Klaidinga ir pan.

Daugeliu atvejų trūkstamas reikšmes pakeičiame stulpelio `moda`. Tarkime, turime 100 duomenų taškų, iš kurių 90 nurodė Tiesa, 8 nurodė Klaidinga, o 2 neatsakė. Tuomet tuos 2 galime užpildyti Tiesa, atsižvelgdami į visą stulpelį.

Vėlgi, čia galime pasinaudoti srities žiniomis. Pažvelkime į pavyzdį, kaip užpildyti naudojant modą.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Kaip matome, null reikšmė buvo pakeista. Nereikia nė sakyti, kad galėjome parašyti bet ką vietoje `'True'` ir tai būtų buvę pakeista.


### Skaitiniai duomenys
Dabar pereikime prie skaitinių duomenų. Čia turime du įprastus būdus, kaip pakeisti trūkstamas reikšmes:

1. Pakeisti eilutės medianos reikšme  
2. Pakeisti eilutės vidurkiu  

Mediana naudojama, kai duomenys yra iškreipti ir turi išskirčių. Taip yra todėl, kad mediana yra atspari išskirtims.

Kai duomenys yra normalizuoti, galime naudoti vidurkį, nes tokiu atveju vidurkis ir mediana bus gana panašūs.

Pirmiausia paimkime stulpelį, kuris yra normaliai pasiskirstęs, ir užpildykime trūkstamą reikšmę stulpelio vidurkiu.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Stulpelio vidurkis yra


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Kaip matome, trūkstama reikšmė buvo pakeista jos vidurkiu.


Dabar išbandykime kitą duomenų rėmelį, ir šį kartą pakeisime None reikšmes stulpelio mediana.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Antrosios stulpelio mediana yra


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Kaip matome, NaN reikšmė buvo pakeista stulpelio mediana


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Galite užpildyti visas tuščias reikšmes viena verte, pavyzdžiui, `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Pagrindinės įžvalgos:  
1. Trūkstamas reikšmes reikėtų užpildyti, kai duomenų yra mažai arba kai yra strategija, kaip užpildyti trūkstamus duomenis.  
2. Trūkstamas reikšmes galima užpildyti remiantis srities žiniomis, jas apytiksliai įvertinant.  
3. Kategoriniams duomenims dažniausiai trūkstamos reikšmės pakeičiamos stulpelio moda.  
4. Skaitiniams duomenims trūkstamos reikšmės paprastai užpildomos stulpelio vidurkiu (normalizuotų duomenų atveju) arba mediana.  


### Pratimas:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Jūs galite **užpildyti pirmyn** null reikšmes, naudodami paskutinę galiojančią reikšmę null reikšmei užpildyti:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Jūs taip pat galite **atgal užpildyti**, kad paskleistumėte kitą galiojančią reikšmę atgal, užpildydami nulį:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Kaip galite spėti, tai veikia taip pat su „DataFrames“, tačiau taip pat galite nurodyti `axis`, pagal kurį užpildyti null reikšmes:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Atkreipkite dėmesį, kad kai ankstesnė reikšmė nėra prieinama užpildymui į priekį, null reikšmė lieka.


### Pratimas:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Galite kūrybiškai naudoti `fillna`. Pavyzdžiui, pažvelkime į `example4` dar kartą, tačiau šį kartą užpildykime trūkstamas reikšmes visų `DataFrame` reikšmių vidurkiu:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Atkreipkite dėmesį, kad trečioje stulpelyje vis dar nėra reikšmių: numatytoji kryptis yra užpildyti reikšmes eilutėmis.

> **Svarbiausia mintis:** Yra daugybė būdų, kaip spręsti trūkstamų reikšmių problemą jūsų duomenų rinkiniuose. Konkreti strategija, kurią pasirinksite (pašalinimas, pakeitimas ar net tai, kaip pakeisite), turėtų būti diktuojama konkrečiais duomenų ypatumais. Kuo daugiau dirbsite su duomenų rinkiniais ir juos analizuosite, tuo geriau suprasite, kaip elgtis su trūkstamomis reikšmėmis.


### Kategorinių duomenų kodavimas

Mašininio mokymosi modeliai dirba tik su skaičiais ir bet kokia skaitine informacija. Jie negali atskirti „Taip“ nuo „Ne“, tačiau gali atskirti 0 nuo 1. Todėl, užpildžius trūkstamas reikšmes, turime koduoti kategorinius duomenis į tam tikrą skaitinę formą, kad modelis juos suprastų.

Kodavimą galima atlikti dviem būdais. Toliau aptarsime juos.


**ŽYMĖS KODAVIMAS**

Žymės kodavimas iš esmės reiškia kiekvienos kategorijos pavertimą skaičiumi. Pavyzdžiui, tarkime, turime oro linijų keleivių duomenų rinkinį, kuriame yra stulpelis su jų klase iš šių variantų: ['verslo klasė', 'ekonominė klasė', 'pirmoji klasė']. Jei būtų atliktas žymės kodavimas, tai būtų paversta į [0,1,2]. Pažiūrėkime pavyzdį per kodą. Kadangi artimiausiuose užrašuose mokysimės naudoti `scikit-learn`, čia jo nenaudosime.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Norėdami atlikti etikečių kodavimą pirmoje stulpelyje, pirmiausia turime aprašyti kiekvienos klasės susiejimą su skaičiumi, prieš pakeičiant.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Kaip matome, rezultatas atitinka tai, ką tikėjomės. Taigi, kada naudojame etikečių kodavimą? Etikečių kodavimas naudojamas vienu ar abiem šiais atvejais:
1. Kai kategorijų skaičius yra didelis
2. Kai kategorijos yra tvarkoje.


**VIENKARTINIS KODAVIMAS**

Kitas kodavimo tipas yra vienkartinis kodavimas (One Hot Encoding). Šio tipo kodavime kiekviena stulpelio kategorija pridedama kaip atskiras stulpelis, o kiekvienam duomenų taškui priskiriama 0 arba 1, priklausomai nuo to, ar jis priklauso tai kategorijai. Taigi, jei yra n skirtingų kategorijų, prie duomenų rėmelio bus pridėti n stulpeliai.

Pavyzdžiui, paimkime tą patį lėktuvo klasių pavyzdį. Kategorijos buvo: ['verslo klasė', 'ekonominė klasė', 'pirmoji klasė']. Taigi, jei atliksime vienkartinį kodavimą, į duomenų rinkinį bus pridėti šie trys stulpeliai: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Atlikime vienos karštosios kodavimo metodą pirmajai stulpeliui


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Kiekviena vieno karšto kodavimo stulpelis turi 0 arba 1, kurie nurodo, ar ta kategorija egzistuoja tam duomenų taškui.


Kada naudojame vieno karšto kodavimą? Vieno karšto kodavimas naudojamas vienu ar abiem šiais atvejais:

1. Kai kategorijų skaičius ir duomenų rinkinio dydis yra mažesni.
2. Kai kategorijos neturi jokios konkrečios tvarkos.


> Pagrindinės mintys:  
1. Kodavimas atliekamas siekiant konvertuoti ne skaitinius duomenis į skaitinius.  
2. Yra du kodavimo tipai: žymų kodavimas ir vieno karštojo kodavimas, abu gali būti atliekami atsižvelgiant į duomenų rinkinio poreikius.  


## Pašalinimas pasikartojančių duomenų

> **Mokymosi tikslas:** Šio poskyrio pabaigoje turėtumėte jaustis užtikrintai atpažindami ir pašalindami pasikartojančias reikšmes iš DataFrame lentelių.

Be trūkstamų duomenų, realiuose duomenų rinkiniuose dažnai susidursite su pasikartojančiais duomenimis. Laimei, pandas suteikia paprastą būdą aptikti ir pašalinti pasikartojančius įrašus.


### Identifikavimas pasikartojančių reikšmių: `duplicated`

Pasikartojančias reikšmes galite lengvai nustatyti naudodami pandas metodą `duplicated`, kuris grąžina Boole'o kaukę, nurodančią, ar įrašas `DataFrame` yra ankstesnio įrašo dublikatas. Sukurkime dar vieną pavyzdinį `DataFrame`, kad pamatytume, kaip tai veikia.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Pašalinimas pasikartojančių reikšmių: `drop_duplicates`
`drop_duplicates` tiesiog grąžina duomenų kopiją, kurioje visos `duplicated` reikšmės yra `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Tiek `duplicated`, tiek `drop_duplicates` pagal numatytuosius nustatymus atsižvelgia į visas stulpelius, tačiau galite nurodyti, kad jie tikrintų tik tam tikrą jūsų `DataFrame` stulpelių dalį:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Atsakomybės apribojimas**:  
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
