# Priprava podatkov

[Izvirni zvezek iz *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio avtorja Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Raziskovanje informacij o `DataFrame`

> **Cilj učenja:** Do konca tega podpoglavja bi morali biti sposobni najti splošne informacije o podatkih, shranjenih v pandas DataFrame.

Ko enkrat naložite svoje podatke v pandas, bodo najverjetneje shranjeni v `DataFrame`. Toda če ima vaš `DataFrame` 60.000 vrstic in 400 stolpcev, kako sploh začeti razumeti, s čim delate? Na srečo pandas ponuja nekaj priročnih orodij za hitro pregledovanje splošnih informacij o `DataFrame`, poleg prvih in zadnjih nekaj vrstic.

Da bi raziskali to funkcionalnost, bomo uvozili knjižnico Python scikit-learn in uporabili ikoničen nabor podatkov, ki ga je vsak podatkovni znanstvenik videl že stokrat: nabor podatkov britanskega biologa Ronalda Fisherja *Iris*, uporabljen v njegovem članku iz leta 1936 "Uporaba več meritev pri taksonomskih problemih":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Podatkovni niz Iris smo naložili v spremenljivko `iris_df`. Preden se poglobimo v podatke, bi bilo koristno vedeti, koliko podatkovnih točk imamo in kakšna je skupna velikost podatkovnega niza. Koristno je pogledati obseg podatkov, s katerimi delamo.


In [2]:
iris_df.shape

(150, 4)

Torej, imamo opravka s 150 vrsticami in 4 stolpci podatkov. Vsaka vrstica predstavlja eno podatkovno točko, vsak stolpec pa eno značilnost, povezano s podatkovnim okvirom. Skratka, gre za 150 podatkovnih točk, od katerih ima vsaka 4 značilnosti.

`shape` je tukaj atribut podatkovnega okvira in ne funkcija, zato se ne konča z oklepaji.


### `DataFrame.columns`
Poglejmo si zdaj 4 stolpce podatkov. Kaj točno predstavlja vsak od njih? Atribut `columns` nam bo prikazal imena stolpcev v podatkovnem okviru.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Kot lahko vidimo, so štirje (4) stolpci. Atribut `columns` nam pove imena stolpcev in v bistvu nič drugega. Ta atribut postane pomemben, ko želimo prepoznati značilnosti, ki jih vsebuje podatkovni niz.


### `DataFrame.info`
Količina podatkov (podana z atributom `shape`) in imena značilnosti ali stolpcev (podana z atributom `columns`) nam povesta nekaj o podatkovnem naboru. Zdaj bi želeli podrobneje raziskati podatkovni nabor. Funkcija `DataFrame.info()` je pri tem zelo uporabna.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Od tu lahko naredimo nekaj opažanj:  
1. Podatkovni tip vsakega stolpca: V tem naboru podatkov so vsi podatki shranjeni kot 64-bitna števila s plavajočo vejico.  
2. Število vrednosti, ki niso null: Obdelava null vrednosti je pomemben korak pri pripravi podatkov. S tem se bomo ukvarjali kasneje v zvezku.  


### DataFrame.describe()
Recimo, da imamo v našem naboru podatkov veliko številskih podatkov. Enovariatne statistične izračune, kot so povprečje, mediana, kvartili itd., lahko izvedemo za vsako posamezno stolpec. Funkcija `DataFrame.describe()` nam ponuja statistični povzetek številskih stolpcev v naboru podatkov.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Izhod zgoraj prikazuje skupno število podatkovnih točk, povprečje, standardni odklon, minimum, spodnji kvartil (25%), mediano (50%), zgornji kvartil (75%) in največjo vrednost vsakega stolpca.


### `DataFrame.head`
Z vsemi zgoraj omenjenimi funkcijami in atributi smo dobili splošen pregled nad podatkovnim nizom. Vemo, koliko podatkovnih točk je prisotnih, koliko značilnosti je na voljo, kakšen je podatkovni tip vsake značilnosti in koliko značilnosti ima nenull vrednosti.

Zdaj je čas, da si ogledamo same podatke. Poglejmo, kako izgledajo prve vrstice (prve podatkovne točke) našega `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kot rezultat tukaj lahko vidimo pet (5) vnosov nabora podatkov. Če pogledamo indeks na levi, ugotovimo, da gre za prvih pet vrstic.


### Vaja:

Iz zgornjega primera je razvidno, da `DataFrame.head` privzeto vrne prvih pet vrstic `DataFrame`. Ali lahko v spodnji programski celici ugotovite, kako prikazati več kot pet vrstic?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Drug način za ogled podatkov je lahko od konca (namesto od začetka). Nasprotje `DataFrame.head` je `DataFrame.tail`, ki vrne zadnjih pet vrstic `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


V praksi je koristno, da lahko enostavno pregledate prve nekaj vrstic ali zadnje nekaj vrstic `DataFrame`, še posebej, ko iščete odstopanja v urejenih podatkovnih nizih.

Vse funkcije in atributi, prikazani zgoraj s pomočjo primerov kode, nam pomagajo pridobiti vpogled v podatke.

> **Ključna misel:** Že samo z ogledom metapodatkov o informacijah v `DataFrame` ali prvih in zadnjih nekaj vrednostih v njem lahko takoj dobite predstavo o velikosti, obliki in vsebini podatkov, s katerimi delate.


### Manjkajoči podatki
Poglobimo se v manjkajoče podatke. Manjkajoči podatki se pojavijo, ko v nekaterih stolpcih ni shranjene nobene vrednosti.

Vzemimo primer: recimo, da je nekdo občutljiv glede svoje teže in zato v anketi ne izpolni polja za težo. V tem primeru bo vrednost teže za to osebo manjkajoča.

V večini primerov se v resničnih podatkovnih zbirkah pojavljajo manjkajoče vrednosti.

**Kako Pandas obravnava manjkajoče podatke**

Pandas obravnava manjkajoče vrednosti na dva načina. Prvi način ste že videli v prejšnjih poglavjih: `NaN`, kar pomeni "Not a Number" (ni število). To je pravzaprav posebna vrednost, ki je del IEEE specifikacije za plavajoče števke in se uporablja izključno za označevanje manjkajočih vrednosti plavajočih števk.

Za manjkajoče vrednosti, ki niso plavajoče števke, pandas uporablja Pythonov objekt `None`. Čeprav se morda zdi zmedeno, da boste naleteli na dve različni vrsti vrednosti, ki v bistvu pomenita isto stvar, obstajajo tehtni programski razlogi za to oblikovalsko odločitev. V praksi ta pristop omogoča pandasu, da ponudi dobro ravnovesje za veliko večino primerov. Kljub temu pa imata tako `None` kot `NaN` omejitve, na katere morate biti pozorni glede tega, kako ju lahko uporabljate.


### `None`: manjkajoči podatki, ki niso številski
Ker `None` izvira iz Pythona, ga ni mogoče uporabiti v poljih NumPy in pandas, ki nimajo podatkovnega tipa `'object'`. Ne pozabite, NumPy polja (in podatkovne strukture v pandas) lahko vsebujejo le eno vrsto podatkov. To jim daje izjemno moč za obdelavo velikih količin podatkov in računske naloge, hkrati pa omejuje njihovo prilagodljivost. Takšna polja morajo biti "povišana" na "najnižji skupni imenovalec", torej na podatkovni tip, ki lahko zajame vse elemente v polju. Ko je v polju prisoten `None`, to pomeni, da delate s Pythonovimi objekti.

Da bi to videli v praksi, si oglejte naslednji primer polja (opazite njegov `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Resničnost nadgrajenih podatkovnih tipov prinaša s seboj dva stranska učinka. Prvič, operacije se bodo izvajale na ravni interpretirane Python kode namesto na ravni prevedene NumPy kode. To v bistvu pomeni, da bodo vse operacije, ki vključujejo `Series` ali `DataFrame` z vrednostjo `None`, počasnejše. Čeprav tega upada zmogljivosti verjetno ne boste opazili, bi to pri velikih naborih podatkov lahko postalo težava.

Drugi stranski učinek izhaja iz prvega. Ker `None` v bistvu povleče `Series` ali `DataFrame` nazaj v svet osnovnega Pythona, bo uporaba NumPy/pandas agregacij, kot sta `sum()` ali `min()`, na nizih, ki vsebujejo vrednost ``None``, običajno povzročila napako:


In [10]:
example1.sum()

TypeError: ignored

**Ključna ugotovitev**: Seštevanje (in druge operacije) med celimi števili in vrednostmi `None` je nedefinirano, kar lahko omeji, kaj lahko storite z nabori podatkov, ki jih vsebujejo.


### `NaN`: manjkajoče vrednosti s plavajočo vejico

V nasprotju z `None` NumPy (in posledično pandas) podpira `NaN` za svoje hitre, vektorske operacije in ufuncs. Slaba novica je, da vsaka aritmetična operacija, izvedena na `NaN`, vedno vrne `NaN`. Na primer:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobra novica: združevanja, ki se izvajajo na poljih z `NaN`, ne povzročajo napak. Slaba novica: rezultati niso enakomerno uporabni:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Vaja:


In [11]:
# What happens if you add np.nan and None together?


Ne pozabite: `NaN` je namenjen samo za manjkajoče vrednosti s plavajočo vejico; za cela števila, nize ali logične vrednosti ni ekvivalenta `NaN`.


### `NaN` in `None`: ničelne vrednosti v pandas

Čeprav se `NaN` in `None` lahko obnašata nekoliko drugače, je pandas vseeno zasnovan tako, da jih obravnava zamenljivo. Da bi razumeli, kaj mislimo, si oglejmo `Series` celih števil:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Vaja:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Med postopkom dviga podatkovnih tipov za vzpostavitev podatkovne homogenosti v `Series` in `DataFrame`-ih bo pandas brez težav zamenjal manjkajoče vrednosti med `None` in `NaN`. Zaradi te oblikovne značilnosti je koristno razmišljati o `None` in `NaN` kot o dveh različnih vrstah "ničelnih" vrednosti v pandas. Pravzaprav nekateri osnovni postopki, ki jih boste uporabljali za obravnavo manjkajočih vrednosti v pandas, to idejo odražajo v svojih imenih:

- `isnull()`: Ustvari logično masko, ki označuje manjkajoče vrednosti
- `notnull()`: Nasprotje funkcije `isnull()`
- `dropna()`: Vrne filtrirano različico podatkov
- `fillna()`: Vrne kopijo podatkov z zapolnjenimi ali imputiranimi manjkajočimi vrednostmi

To so ključne metode, ki jih je treba obvladati in se z njimi udobno spoprijeti, zato si jih poglejmo podrobneje.


### Zaznavanje manjkajočih vrednosti

Zdaj, ko smo razumeli pomen manjkajočih vrednosti, jih moramo najprej zaznati v našem naboru podatkov, preden jih obravnavamo. 
Tako `isnull()` kot `notnull()` sta vaši glavni metodi za zaznavanje manjkajočih podatkov. Obe metodi vrneta Booleove maske za vaše podatke.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Poglejte natančno na rezultat. Vas kaj preseneča? Čeprav je `0` aritmetična ničla, je kljub temu povsem veljavno celo število, in pandas ga obravnava kot takega. `''` je nekoliko bolj subtilen. Čeprav smo ga v poglavju 1 uporabili za predstavitev prazne vrednosti niza, je kljub temu objekt niza in ga pandas ne obravnava kot predstavitev ničle.

Zdaj pa obrnimo to perspektivo in uporabimo te metode na način, kot jih boste uporabljali v praksi. Boolean maske lahko neposredno uporabite kot indeks za ``Series`` ali ``DataFrame``, kar je lahko koristno, ko poskušate delati z izoliranimi manjkajočimi (ali prisotnimi) vrednostmi.

Če želimo skupno število manjkajočih vrednosti, lahko preprosto izvedemo vsoto nad masko, ki jo ustvari metoda `isnull()`.


In [19]:
example3.isnull().sum()

2

### Vaja:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Ključna ugotovitev**: Tako metodi `isnull()` kot `notnull()` dajeta podobne rezultate, ko ju uporabite v DataFrame-ih: prikazujeta rezultate in indeks teh rezultatov, kar vam bo izjemno pomagalo pri delu z vašimi podatki.


### Obdelava manjkajočih podatkov

> **Cilj učenja:** Do konca tega podpoglavja bi morali vedeti, kako in kdaj zamenjati ali odstraniti manjkajoče vrednosti iz DataFrame-ov.

Modeli strojnega učenja sami ne morejo obdelovati manjkajočih podatkov. Zato moramo pred posredovanjem podatkov v model obravnavati te manjkajoče vrednosti.

Način obravnave manjkajočih podatkov vključuje subtilne kompromise, ki lahko vplivajo na vašo končno analizo in rezultate v resničnem svetu.

Obstajata predvsem dva načina za obravnavo manjkajočih podatkov:

1.   Odstranitev vrstice, ki vsebuje manjkajočo vrednost
2.   Zamenjava manjkajoče vrednosti z neko drugo vrednostjo

Obravnavali bomo obe metodi ter njihove prednosti in slabosti podrobneje.


### Odstranjevanje manjkajočih vrednosti

Količina podatkov, ki jih posredujemo našemu modelu, neposredno vpliva na njegovo zmogljivost. Odstranjevanje manjkajočih vrednosti pomeni, da zmanjšujemo število podatkovnih točk in s tem tudi velikost nabora podatkov. Zato je priporočljivo odstraniti vrstice z manjkajočimi vrednostmi, kadar je nabor podatkov precej velik.

Drug primer je lahko, da ima določena vrstica ali stolpec veliko manjkajočih vrednosti. V tem primeru jih lahko odstranimo, saj ne bi veliko prispevali k naši analizi, ker večina podatkov za to vrstico/stolpec manjka.

Poleg prepoznavanja manjkajočih vrednosti pandas ponuja priročen način za odstranjevanje manjkajočih vrednosti iz `Series` in `DataFrame`-ov. Da bi to videli v praksi, se vrnimo k `example3`. Funkcija `DataFrame.dropna()` pomaga pri odstranjevanju vrstic z manjkajočimi vrednostmi.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Upoštevajte, da bi to moralo izgledati kot vaš izhod iz `example3[example3.notnull()]`. Razlika tukaj je, da je `dropna` namesto zgolj indeksiranja na podlagi zamaskiranih vrednosti odstranil manjkajoče vrednosti iz `Series` `example3`.

Ker imajo DataFrame-i dve dimenziji, ponujajo več možnosti za odstranjevanje podatkov.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Ali ste opazili, da je pandas spremenil dve stolpci v float, da bi omogočil `NaN` vrednosti?)

Iz `DataFrame` ne morete odstraniti posamezne vrednosti, zato morate odstraniti cele vrstice ali stolpce. Glede na to, kaj počnete, boste morda želeli narediti eno ali drugo, zato vam pandas ponuja možnosti za obe. Ker stolpci v podatkovni znanosti običajno predstavljajo spremenljivke, vrstice pa opazovanja, boste verjetno pogosteje odstranjevali vrstice podatkov; privzeta nastavitev za `dropna()` je, da odstrani vse vrstice, ki vsebujejo katero koli manjkajočo vrednost:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Če je potrebno, lahko odstranite vrednosti NA iz stolpcev. Uporabite `axis=1`, da to storite:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Upoštevajte, da to lahko odstrani veliko podatkov, ki jih morda želite obdržati, še posebej v manjših naborih podatkov. Kaj pa, če želite odstraniti samo vrstice ali stolpce, ki vsebujejo več ali celo samo vse manjkajoče vrednosti? Te nastavitve določite v `dropna` s parametroma `how` in `thresh`.

Privzeto je `how='any'` (če želite preveriti sami ali videti, katere druge parametre ima metoda, zaženite `example4.dropna?` v kodi). Lahko pa alternativno določite `how='all'`, da odstranite samo vrstice ali stolpce, ki vsebujejo vse manjkajoče vrednosti. Razširimo naš primer `DataFrame`, da to vidimo v praksi v naslednji vaji.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Ključne točke:
1. Odstranjevanje ničelnih vrednosti je smiselno le, če je podatkovni niz dovolj velik.
2. Celotne vrstice ali stolpci se lahko odstranijo, če večina podatkov manjka.
3. Metoda `DataFrame.dropna(axis=)` pomaga pri odstranjevanju ničelnih vrednosti. Argument `axis` označuje, ali naj se odstranijo vrstice ali stolpci.
4. Uporablja se lahko tudi argument `how`. Privzeto je nastavljen na `any`, kar pomeni, da odstrani le tiste vrstice/stolpce, ki vsebujejo katero koli ničelno vrednost. Lahko ga nastavite na `all`, da določite, da bomo odstranili le tiste vrstice/stolpce, kjer so vse vrednosti ničelne.


### Vaja:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parameter `thresh` vam omogoča natančnejši nadzor: določite število *nepraznih* vrednosti, ki jih mora imeti vrstica ali stolpec, da se ohrani:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Tukaj sta bila prva in zadnja vrstica izpuščeni, ker vsebujeta le dve nenull vrednosti.


### Izpolnjevanje manjkajočih vrednosti

Včasih je smiselno zapolniti manjkajoče vrednosti s takšnimi, ki bi lahko bile veljavne. Obstaja nekaj tehnik za zapolnjevanje manjkajočih vrednosti. Prva je uporaba domenskega znanja (znanje o temi, na kateri temelji podatkovni niz), da nekako približamo manjkajoče vrednosti.

Za to lahko uporabite `isnull` neposredno, vendar je to lahko zamudno, še posebej, če imate veliko vrednosti za zapolnitev. Ker je to tako pogosta naloga v podatkovni znanosti, pandas ponuja `fillna`, ki vrne kopijo `Series` ali `DataFrame` z manjkajočimi vrednostmi, nadomeščenimi z vrednostjo po vaši izbiri. Ustvarimo še en primer `Series`, da vidimo, kako to deluje v praksi.


### Kategorijski podatki (neštevilčni)
Najprej si poglejmo neštevilčne podatke. V podatkovnih nizih imamo stolpce s kategorijskimi podatki, npr. spol, resnično ali neresnično itd.

V večini teh primerov manjkajoče vrednosti nadomestimo z `modusom` stolpca. Recimo, da imamo 100 podatkovnih točk, od katerih jih je 90 označilo resnično, 8 neresnično, 2 pa nista podala odgovora. V tem primeru lahko manjkajoči vrednosti (2) zapolnimo z resnično, upoštevajoč celoten stolpec.

Tukaj lahko ponovno uporabimo strokovno znanje. Poglejmo primer zapolnjevanja z modusom.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Kot lahko vidimo, je bila ničelna vrednost zamenjana. Seveda bi lahko namesto `'True'` napisali karkoli in bi bilo to nadomeščeno.


### Številčni podatki
Zdaj pa k številčnim podatkom. Tukaj imamo dva pogosta načina za nadomeščanje manjkajočih vrednosti:

1. Nadomestitev z mediano vrstice
2. Nadomestitev s povprečjem vrstice

Mediano uporabimo v primeru, ko so podatki pristranski in vsebujejo odstopajoče vrednosti. To je zato, ker je mediana odporna na odstopajoče vrednosti.

Ko so podatki normalizirani, lahko uporabimo povprečje, saj sta v tem primeru povprečje in mediana zelo blizu.

Najprej vzemimo stolpec, ki je normalno porazdeljen, in zapolnimo manjkajoče vrednosti s povprečjem stolpca.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Povprečje stolpca je


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Kot lahko vidimo, je manjkajoča vrednost zamenjana z njeno povprečno vrednostjo.


Zdaj poskusimo z drugim podatkovnim okvirom, tokrat pa bomo vrednosti None zamenjali s srednjo vrednostjo stolpca.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Mediana drugega stolpca je


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Kot lahko vidimo, je bila vrednost NaN zamenjana s mediano stolpca


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Vse prazne vnose lahko zapolnite z eno samo vrednostjo, na primer `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Ključne točke:
1. Manjkajoče vrednosti je treba zapolniti, kadar je na voljo manj podatkov ali kadar obstaja strategija za zapolnitev manjkajočih podatkov.
2. Manjkajoče vrednosti je mogoče zapolniti z uporabo strokovnega znanja iz domene, tako da jih približamo.
3. Pri kategorijskih podatkih se manjkajoče vrednosti najpogosteje nadomestijo z modusom stolpca.
4. Pri številskih podatkih se manjkajoče vrednosti običajno zapolnijo s povprečjem (za normalizirane nabore podatkov) ali mediano stolpcev.


### Vaja:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Lahko **zapolnite naprej** manjkajoče vrednosti, kar pomeni, da uporabite zadnjo veljavno vrednost za zapolnitev manjkajoče:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Prav tako lahko **nazaj izpolnite**, da nazaj razširite naslednjo veljavno vrednost in zapolnite ničlo:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Kot lahko ugibate, to deluje enako z DataFrames, vendar lahko določite tudi `axis`, vzdolž katerega zapolnite manjkajoče vrednosti:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Upoštevajte, da če prejšnja vrednost ni na voljo za zapolnitev naprej, ostane ničelna vrednost.


### Vaja:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Lahko ste ustvarjalni pri uporabi `fillna`. Na primer, poglejmo ponovno `example4`, vendar tokrat zapolnimo manjkajoče vrednosti s povprečjem vseh vrednosti v `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Upoštevajte, da je stolpec 3 še vedno brez vrednosti: privzeta smer je zapolnjevanje vrednosti po vrsticah.

> **Ključna misel:** Obstaja več načinov za obravnavo manjkajočih vrednosti v vaših podatkovnih nizih. Konkretna strategija, ki jo uporabite (odstranjevanje, nadomeščanje ali celo način nadomeščanja), mora biti prilagojena specifičnim značilnostim teh podatkov. Boljši občutek za obravnavo manjkajočih vrednosti boste razvili z večjo prakso in interakcijo s podatkovnimi nizi.


### Kodiranje kategorijskih podatkov

Modeli strojnega učenja obravnavajo le številke in kakršno koli obliko številskih podatkov. Ne bodo mogli razlikovati med "Da" in "Ne", vendar bodo lahko ločili med 0 in 1. Zato moramo po zapolnitvi manjkajočih vrednosti kategorijske podatke kodirati v neko številčno obliko, da jih model lahko razume.

Kodiranje lahko izvedemo na dva načina. O teh metodah bomo razpravljali v nadaljevanju.


**ŠIFRIRANJE OZNAK**  

Šifriranje oznak pomeni pretvorbo vsake kategorije v številko. Na primer, recimo, da imamo podatkovni niz letalskih potnikov in stolpec, ki vsebuje njihov razred med naslednjimi ['poslovni razred', 'ekonomski razred', 'prvi razred']. Če izvedemo šifriranje oznak na tem stolpcu, bi se to pretvorilo v [0,1,2]. Poglejmo primer s pomočjo kode. Ker bomo v prihodnjih zvezkih spoznavali `scikit-learn`, ga tukaj ne bomo uporabili.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Za izvedbo kodiranja oznak na prvem stolpcu moramo najprej opisati preslikavo vsakega razreda v številko, preden zamenjamo


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Kot lahko vidimo, rezultat ustreza našim pričakovanjem. Torej, kdaj uporabimo kodiranje oznak? Kodiranje oznak se uporablja v enem ali obeh naslednjih primerih:
1. Ko je število kategorij veliko
2. Ko so kategorije urejene.


**ENKODIRANJE ONE HOT**

Drug način kodiranja je enkodiranje One Hot. Pri tej vrsti kodiranja se vsaka kategorija stolpca doda kot ločen stolpec, pri čemer vsaka podatkovna točka dobi vrednost 0 ali 1 glede na to, ali vsebuje to kategorijo. Če torej obstaja n različnih kategorij, se podatkovnemu okviru doda n stolpcev.

Na primer, vzemimo isti primer razreda letala. Kategorije so bile: ['poslovni razred', 'ekonomski razred', 'prvi razred']. Če izvedemo enkodiranje One Hot, bodo podatkovnemu naboru dodani naslednji trije stolpci: ['razred_poslovni razred', 'razred_ekonomski razred', 'razred_prvi razred'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Naj izvedemo enovročno kodiranje na 1. stolpcu


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Vsak enovročno kodiran stolpec vsebuje 0 ali 1, kar določa, ali ta kategorija obstaja za tisto podatkovno točko.


Kdaj uporabljamo enovrstično kodiranje? Enovrstično kodiranje se uporablja v enem ali obeh naslednjih primerih:

1. Ko je število kategorij in velikost podatkovnega nabora manjša.
2. Ko kategorije ne sledijo nobenemu določenemu vrstnemu redu.


> Ključne točke:
1. Kodiranje se uporablja za pretvorbo nenumeričnih podatkov v numerične podatke.
2. Obstajata dve vrsti kodiranja: Label kodiranje in One Hot kodiranje, ki ju lahko izvedemo glede na zahteve podatkovnega nabora.


## Odstranjevanje podvojenih podatkov

> **Cilj učenja:** Na koncu tega podpoglavja bi morali biti samozavestni pri prepoznavanju in odstranjevanju podvojenih vrednosti iz DataFrame-ov.

Poleg manjkajočih podatkov boste v resničnih podatkovnih nizih pogosto naleteli na podvojene podatke. Na srečo pandas ponuja preprost način za zaznavanje in odstranjevanje podvojenih zapisov.


### Prepoznavanje podvojenih vrednosti: `duplicated`

Podvojene vrednosti lahko enostavno prepoznate z metodo `duplicated` v pandas, ki vrne logično masko, ki označuje, ali je vnos v `DataFrame` podvojen glede na prejšnjega. Ustvarimo še en primer `DataFrame`, da vidimo, kako to deluje.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Odstranjevanje podvojenih vrednosti: `drop_duplicates`
`drop_duplicates` preprosto vrne kopijo podatkov, pri katerih so vse vrednosti `duplicated` nastavljene na `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Tako `duplicated` kot `drop_duplicates` privzeto upoštevata vse stolpce, vendar lahko določite, da pregledujeta le podmnožico stolpcev v vašem `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Ključna misel:** Odstranjevanje podvojenih podatkov je bistven del skoraj vsakega podatkovno-znanstvenega projekta. Podvojeni podatki lahko spremenijo rezultate vaših analiz in vam dajo netočne rezultate!



---

**Omejitev odgovornosti**:  
Ta dokument je bil preveden z uporabo storitve za strojno prevajanje [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo strokovno človeško prevajanje. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki izhajajo iz uporabe tega prevoda.
