# Priprema podataka

[Izvorni bilježnički zapis iz *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Istraživanje informacija o `DataFrame`

> **Cilj učenja:** Na kraju ovog pododjeljka trebali biste se osjećati ugodno u pronalaženju općih informacija o podacima pohranjenim u pandas DataFrameovima.

Kada učitate svoje podatke u pandas, vrlo je vjerojatno da će biti u obliku `DataFrame`. Međutim, ako vaš `DataFrame` sadrži 60.000 redaka i 400 stupaca, kako uopće započeti s razumijevanjem s čime radite? Srećom, pandas nudi nekoliko praktičnih alata za brzo pregledavanje općih informacija o `DataFrame`, uz mogućnost pregleda prvih i posljednjih nekoliko redaka.

Kako bismo istražili ovu funkcionalnost, uvest ćemo Python biblioteku scikit-learn i koristiti jedan od najpoznatijih skupova podataka koji je svaki podatkovni znanstvenik vidio stotine puta: skup podataka britanskog biologa Ronalda Fishera *Iris* korišten u njegovom radu iz 1936. godine "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Učitali smo Iris Dataset u varijablu `iris_df`. Prije nego što se detaljnije posvetimo podacima, bilo bi korisno znati broj podatkovnih točaka koje imamo i ukupnu veličinu skupa podataka. Korisno je pogledati obujam podataka s kojima radimo.


In [2]:
iris_df.shape

(150, 4)

Dakle, imamo 150 redaka i 4 stupca podataka. Svaki redak predstavlja jednu podatkovnu točku, a svaki stupac predstavlja jednu značajku povezanu s okvirom podataka. Dakle, u osnovi, postoji 150 podatkovnih točaka, od kojih svaka sadrži 4 značajke.

`shape` je ovdje atribut okvira podataka, a ne funkcija, zbog čega ne završava s parom zagrada.


### `DataFrame.columns`
Sada ćemo se posvetiti 4 stupca podataka. Što točno svaki od njih predstavlja? Atribut `columns` će nam dati imena stupaca u dataframeu.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Kao što možemo vidjeti, postoje četiri (4) stupca. Atribut `columns` nam govori imena stupaca i zapravo ništa drugo. Ovaj atribut postaje važan kada želimo identificirati značajke koje skup podataka sadrži.


### `DataFrame.info`
Količina podataka (dana atributom `shape`) i nazivi značajki ili stupaca (dani atributom `columns`) govore nam nešto o skupu podataka. Sada bismo željeli detaljnije istražiti skup podataka. Funkcija `DataFrame.info()` vrlo je korisna za to.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Odavde možemo uočiti nekoliko stvari:  
1. Tip podataka za svaki stupac: U ovom skupu podataka, svi podaci su pohranjeni kao 64-bitni brojevi s pomičnim zarezom.  
2. Broj vrijednosti koje nisu null: Rješavanje null vrijednosti važan je korak u pripremi podataka. Time ćemo se pozabaviti kasnije u bilježnici.  


### DataFrame.describe()
Recimo da imamo puno numeričkih podataka u našem skupu podataka. Jednostavne statističke izračune poput srednje vrijednosti, medijana, kvartila itd. možemo napraviti za svaki stupac zasebno. Funkcija `DataFrame.describe()` pruža nam statistički sažetak numeričkih stupaca skupa podataka.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Gornji izlaz prikazuje ukupan broj podatkovnih točaka, srednju vrijednost, standardnu devijaciju, minimum, donji kvartil (25%), medijan (50%), gornji kvartil (75%) i maksimalnu vrijednost svakog stupca.


### `DataFrame.head`
Uz sve gore navedene funkcije i atribute, dobili smo pregled na visokoj razini skupa podataka. Znamo koliko ima podataka, koliko ima značajki, koji je tip podataka svake značajke i koliko svaka značajka ima vrijednosti koje nisu null.

Sada je vrijeme da pogledamo same podatke. Pogledajmo kako izgledaju prvih nekoliko redaka (prvih nekoliko točaka podataka) našeg `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kao što vidimo u izlazu, ovdje imamo pet (5) unosa skupa podataka. Ako pogledamo indeks s lijeve strane, otkrivamo da su to prvih pet redaka.


### Vježba:

Iz gornjeg primjera jasno je da `DataFrame.head` prema zadanim postavkama vraća prvih pet redaka `DataFramea`. Možete li u donjoj ćeliji koda pronaći način za prikaz više od pet redaka?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Drugi način pregledavanja podataka može biti od kraja (umjesto od početka). Suprotno od `DataFrame.head` je `DataFrame.tail`, koji vraća zadnjih pet redaka `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


U praksi je korisno moći lako pregledati prvih nekoliko redaka ili posljednjih nekoliko redaka `DataFramea`, posebno kada tražite odstupanja u uređenim skupovima podataka.

Sve funkcije i atributi prikazani gore uz pomoć primjera koda pomažu nam da steknemo uvid i osjećaj za podatke.

> **Zaključak:** Čak i samo pregledavanjem metapodataka o informacijama u `DataFrameu` ili prvih i posljednjih nekoliko vrijednosti u njemu, možete odmah dobiti ideju o veličini, obliku i sadržaju podataka s kojima radite.


### Nedostajući Podaci
Pogledajmo nedostajuće podatke. Nedostajući podaci javljaju se kada neka vrijednost nije pohranjena u nekim stupcima.

Uzmimo primjer: recimo da je netko svjestan svoje težine i ne ispuni polje za težinu u anketi. Tada će vrijednost težine za tu osobu nedostajati.

Većinu vremena, u stvarnim skupovima podataka, javljaju se nedostajuće vrijednosti.

**Kako Pandas obrađuje nedostajuće podatke**

Pandas obrađuje nedostajuće vrijednosti na dva načina. Prvi ste već vidjeli u prethodnim odjeljcima: `NaN`, ili Not a Number. Ovo je zapravo posebna vrijednost koja je dio IEEE specifikacije za brojeve s pomičnim zarezom i koristi se samo za označavanje nedostajućih vrijednosti s pomičnim zarezom.

Za nedostajuće vrijednosti koje nisu brojevi s pomičnim zarezom, pandas koristi Python objekt `None`. Iako se može činiti zbunjujućim da ćete naići na dvije različite vrste vrijednosti koje u suštini znače isto, postoje opravdani programerski razlozi za ovaj dizajnerski izbor, a u praksi, ovakav pristup omogućuje pandas biblioteci da pruži dobar kompromis u velikoj većini slučajeva. Unatoč tome, i `None` i `NaN` imaju ograničenja na koja morate obratiti pažnju u vezi s načinom na koji se mogu koristiti.


### `None`: ne-float nedostajući podaci
Budući da `None` dolazi iz Pythona, ne može se koristiti u NumPy i pandas nizovima koji nisu tipa podataka `'object'`. Zapamtite, NumPy nizovi (i strukture podataka u pandas-u) mogu sadržavati samo jednu vrstu podataka. Ovo im daje ogromnu snagu za rad s velikim količinama podataka i računalne operacije, ali također ograničava njihovu fleksibilnost. Takvi nizovi moraju se "promaknuti" na "najniži zajednički nazivnik", tj. tip podataka koji će obuhvatiti sve u nizu. Kada je `None` u nizu, to znači da radite s Python objektima.

Da biste to vidjeli u praksi, razmotrite sljedeći primjer niza (obratite pažnju na `dtype` za njega):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Stvarnost promjene tipova podataka prema višim tipovima nosi sa sobom dvije nuspojave. Prvo, operacije će se izvršavati na razini interpretiranog Python koda, a ne kompajliranog NumPy koda. U suštini, to znači da će sve operacije koje uključuju `Series` ili `DataFrame` s `None` vrijednostima biti sporije. Iako vjerojatno nećete primijetiti ovaj pad performansi, kod velikih skupova podataka to bi moglo postati problem.

Druga nuspojava proizlazi iz prve. Budući da `None` u osnovi vraća `Series` ili `DataFrame` u svijet običnog Pythona, korištenje NumPy/pandas agregacija poput `sum()` ili `min()` na nizovima koji sadrže vrijednost ``None`` općenito će rezultirati pogreškom:


In [10]:
example1.sum()

TypeError: ignored

**Ključna točka**: Zbrajanje (i druge operacije) između cijelih brojeva i vrijednosti `None` nije definirano, što može ograničiti mogućnosti rada s skupovima podataka koji ih sadrže.


### `NaN`: nedostajuće vrijednosti tipa float

Za razliku od `None`, NumPy (a samim time i pandas) podržava `NaN` za svoje brze, vektorizirane operacije i ufuncs. Loša vijest je da svaka aritmetička operacija izvedena na `NaN` uvijek rezultira `NaN`. Na primjer:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobra vijest: agregacije koje se izvode na nizovima s `NaN` u njima ne uzrokuju pogreške. Loša vijest: rezultati nisu jednako korisni:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Vježba:


In [11]:
# What happens if you add np.nan and None together?


Zapamti: `NaN` je samo za nedostajuće vrijednosti s pomičnim zarezom; ne postoji ekvivalent `NaN` za cijele brojeve, stringove ili Booleove vrijednosti.


### `NaN` i `None`: null vrijednosti u pandasu

Iako se `NaN` i `None` mogu ponašati donekle različito, pandas je ipak dizajniran da ih obrađuje naizmjenično. Da bismo objasnili što mislimo, razmotrimo `Series` s cijelim brojevima:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Vježba:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


U procesu promjene tipova podataka radi uspostavljanja homogenosti podataka u `Series` i `DataFrame` objektima, pandas će bez problema zamijeniti nedostajuće vrijednosti između `None` i `NaN`. Zbog ove značajke dizajna, korisno je razmišljati o `None` i `NaN` kao dvije različite vrste "null" vrijednosti u pandas-u. Zapravo, neki od osnovnih metoda koje ćete koristiti za rad s nedostajućim vrijednostima u pandas-u odražavaju ovu ideju u svojim nazivima:

- `isnull()`: Generira Booleansku masku koja označava nedostajuće vrijednosti
- `notnull()`: Suprotno od `isnull()`
- `dropna()`: Vraća filtriranu verziju podataka
- `fillna()`: Vraća kopiju podataka s popunjenim ili imputiranim nedostajućim vrijednostima

Ovo su važne metode koje treba savladati i s kojima se treba osjećati ugodno, pa ćemo ih detaljnije razmotriti.


### Otkrivanje null vrijednosti

Sada kada smo razumjeli važnost nedostajućih vrijednosti, trebamo ih otkriti u našem skupu podataka prije nego što ih obradimo. 
I `isnull()` i `notnull()` su vaše osnovne metode za otkrivanje null podataka. Obje vraćaju Booleanske maske preko vaših podataka.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Pogledajte pažljivo rezultat. Iznenađuje li vas nešto od toga? Iako je `0` aritmetička nula, ipak je savršeno dobar cijeli broj, a pandas ga tako i tretira. `''` je malo suptilniji. Iako smo ga koristili u odjeljku 1 za predstavljanje prazne vrijednosti stringa, ipak je objekt tipa string i nije prikaz null vrijednosti s obzirom na način na koji pandas to interpretira.

Sada, okrenimo ovo i koristimo ove metode na način koji je bliži stvarnoj praksi. Boolean maske možete koristiti izravno kao indeks ``Series`` ili ``DataFrame``, što može biti korisno kada pokušavate raditi s izoliranim vrijednostima koje nedostaju (ili su prisutne).

Ako želimo ukupan broj vrijednosti koje nedostaju, jednostavno možemo napraviti zbroj preko maske koju generira metoda `isnull()`.


In [19]:
example3.isnull().sum()

2

### Vježba:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Ključna točka**: I metode `isnull()` i `notnull()` daju slične rezultate kada ih koristite u DataFrameovima: prikazuju rezultate i indeks tih rezultata, što će vam uvelike pomoći dok se bavite svojim podacima.


### Rješavanje nedostajućih podataka

> **Cilj učenja:** Na kraju ovog pododjeljka trebali biste znati kako i kada zamijeniti ili ukloniti null vrijednosti iz DataFrameova.

Modeli strojnog učenja ne mogu sami obrađivati nedostajuće podatke. Stoga, prije nego što podatke proslijedimo modelu, moramo se pozabaviti tim nedostajućim vrijednostima.

Način na koji se rješavaju nedostajući podaci nosi sa sobom suptilne kompromise i može utjecati na vašu konačnu analizu i ishode u stvarnom svijetu.

Postoje dva glavna načina za rješavanje nedostajućih podataka:

1.   Uklanjanje retka koji sadrži nedostajuću vrijednost  
2.   Zamjena nedostajuće vrijednosti nekom drugom vrijednošću  

Razmotrit ćemo obje ove metode te njihove prednosti i nedostatke u detalje.


### Uklanjanje null vrijednosti

Količina podataka koju prosljeđujemo našem modelu ima izravan utjecaj na njegovu izvedbu. Uklanjanje null vrijednosti znači da smanjujemo broj podataka, a time i veličinu skupa podataka. Stoga je preporučljivo ukloniti retke s null vrijednostima kada je skup podataka prilično velik.

Drugi primjer može biti situacija u kojoj određeni redak ili stupac ima mnogo nedostajućih vrijednosti. U tom slučaju, oni se mogu ukloniti jer ne bi značajno doprinijeli našoj analizi s obzirom na to da većina podataka za taj redak/stupac nedostaje.

Osim identificiranja nedostajućih vrijednosti, pandas pruža praktičan način za uklanjanje null vrijednosti iz `Series` i `DataFrame` objekata. Da bismo to vidjeli na djelu, vratimo se na `example3`. Funkcija `DataFrame.dropna()` pomaže u uklanjanju redaka s null vrijednostima.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Imajte na umu da bi ovo trebalo izgledati kao vaš izlaz iz `example3[example3.notnull()]`. Razlika ovdje je u tome što, umjesto da se samo indeksira na maskirane vrijednosti, `dropna` je uklonio te nedostajuće vrijednosti iz `Series` `example3`.

Budući da DataFrameovi imaju dvije dimenzije, nude više opcija za uklanjanje podataka.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Jeste li primijetili da je pandas promijenio tip dvaju stupaca u float kako bi prilagodio `NaN` vrijednosti?)

Ne možete ukloniti pojedinačnu vrijednost iz `DataFrame`, pa morate ukloniti cijele redove ili stupce. Ovisno o tome što radite, možda ćete htjeti učiniti jedno ili drugo, a pandas vam daje opcije za oba. Budući da u znanosti o podacima stupci općenito predstavljaju varijable, a redovi predstavljaju opažanja, vjerojatnije je da ćete ukloniti redove podataka; zadana postavka za `dropna()` je uklanjanje svih redova koji sadrže bilo kakve null vrijednosti:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Ako je potrebno, možete ukloniti NA vrijednosti iz stupaca. Koristite `axis=1` za to:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Imajte na umu da ovo može ukloniti puno podataka koje biste možda željeli zadržati, posebno u manjim skupovima podataka. Što ako želite ukloniti samo retke ili stupce koji sadrže nekoliko ili čak sve null vrijednosti? Te postavke specificirate u `dropna` pomoću parametara `how` i `thresh`.

Prema zadanim postavkama, `how='any'` (ako želite sami provjeriti ili vidjeti koje druge parametre metoda ima, pokrenite `example4.dropna?` u ćeliji koda). Alternativno, možete specificirati `how='all'` kako biste uklonili samo retke ili stupce koji sadrže sve null vrijednosti. Proširimo naš primjer `DataFrame` kako bismo to vidjeli na djelu u sljedećoj vježbi.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Ključne točke:  
1. Uklanjanje null vrijednosti dobra je ideja samo ako je skup podataka dovoljno velik.  
2. Cijeli redci ili stupci mogu se ukloniti ako im nedostaje većina podataka.  
3. Metoda `DataFrame.dropna(axis=)` pomaže u uklanjanju null vrijednosti. Argument `axis` označava hoće li se uklanjati redci ili stupci.  
4. Može se koristiti i argument `how`. Prema zadanim postavkama postavljen je na `any`. Dakle, uklanja samo one redce/stupce koji sadrže bilo kakve null vrijednosti. Može se postaviti na `all` kako bi se specificiralo da ćemo ukloniti samo one redce/stupce gdje su sve vrijednosti null.  


### Vježba:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parametar `thresh` daje vam precizniju kontrolu: postavljate broj *ne-null* vrijednosti koje redak ili stupac mora imati da bi se zadržao:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Ovdje su prvi i zadnji redak uklonjeni jer sadrže samo dvije vrijednosti koje nisu null.


### Popunjavanje null vrijednosti

Ponekad ima smisla popuniti nedostajuće vrijednosti onima koje bi mogle biti valjane. Postoji nekoliko tehnika za popunjavanje null vrijednosti. Prva je korištenje domenskog znanja (znanje o temi na kojoj se temelji skup podataka) kako bi se na neki način približno odredile nedostajuće vrijednosti.

Možete koristiti `isnull` za ovo izravno, ali to može biti zamorno, posebno ako imate puno vrijednosti za popuniti. Budući da je ovo tako čest zadatak u znanosti o podacima, pandas pruža `fillna`, koji vraća kopiju `Series` ili `DataFrame` s nedostajućim vrijednostima zamijenjenim onima koje odaberete. Napravimo još jedan primjer `Series` kako bismo vidjeli kako ovo funkcionira u praksi.


### Kategorijski podaci (Nenumerički)
Prvo razmotrimo nenumeričke podatke. U skupovima podataka imamo stupce s kategorijskim podacima. Npr. Spol, Istina ili Laž itd.

U većini ovih slučajeva, nedostajuće vrijednosti zamjenjujemo `modom` stupca. Recimo, imamo 100 podataka, od kojih je 90 reklo Istina, 8 je reklo Laž, a 2 nisu popunjena. Tada možemo popuniti ta 2 s Istina, uzimajući u obzir cijeli stupac.

Opet, ovdje možemo koristiti i domensko znanje. Razmotrimo primjer popunjavanja s modom.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Kao što možemo vidjeti, null vrijednost je zamijenjena. Nepotrebno je reći, mogli smo napisati bilo što umjesto `'True'` i to bi bilo zamijenjeno.


### Numerički podaci
Sada prelazimo na numeričke podatke. Ovdje imamo dva uobičajena načina za zamjenu nedostajućih vrijednosti:

1. Zamjena s medijanom retka  
2. Zamjena s aritmetičkom sredinom retka  

Zamjenjujemo s medijanom u slučaju asimetričnih podataka s odstupajućim vrijednostima. To je zato što je medijan otporan na odstupanja.

Kada su podaci normalizirani, možemo koristiti aritmetičku sredinu, jer su u tom slučaju sredina i medijan prilično blizu.

Prvo, uzmimo stupac koji je normalno distribuiran i popunimo nedostajuću vrijednost s aritmetičkom sredinom tog stupca.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Srednja vrijednost stupca je


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Kao što možemo vidjeti, nedostajuća vrijednost je zamijenjena njenim prosjekom.


Sada pokušajmo s drugim podatkovnim okvirom, i ovaj put ćemo zamijeniti vrijednosti None s medijanom stupca.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Medijan drugog stupca je


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Kao što možemo vidjeti, NaN vrijednost je zamijenjena medianom stupca


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Možete popuniti sve prazne unose jednom vrijednošću, poput `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Ključne točke:
1. Popunjavanje nedostajućih vrijednosti treba se obaviti kada postoji manje podataka ili kada postoji strategija za popunjavanje nedostajućih podataka.
2. Znanje o domeni može se koristiti za popunjavanje nedostajućih vrijednosti njihovim približavanjem.
3. Za kategorijske podatke, nedostajuće vrijednosti se najčešće zamjenjuju modusom stupca.
4. Za numeričke podatke, nedostajuće vrijednosti obično se popunjavaju srednjom vrijednošću (za normalizirane skupove podataka) ili medijanom stupaca.


### Vježba:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Možete **popuniti unaprijed** null vrijednosti, što znači koristiti zadnju valjanu vrijednost za popunjavanje null vrijednosti:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Također možete **popuniti unatrag** kako biste unatrag propagirali sljedeću valjanu vrijednost za popunjavanje null vrijednosti:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Kao što možete pretpostaviti, ovo funkcionira isto s DataFrameovima, ali možete također odrediti `axis` duž kojeg ćete popuniti null vrijednosti:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Primijetite da kada prethodna vrijednost nije dostupna za popunjavanje unaprijed, null vrijednost ostaje.


### Vježba:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Možete biti kreativni u korištenju `fillna`. Na primjer, pogledajmo ponovno `example4`, ali ovaj put popunimo nedostajuće vrijednosti prosjekom svih vrijednosti u `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Primijetite da je stupac 3 još uvijek bez vrijednosti: zadani smjer je popunjavanje vrijednosti redom.

> **Zaključak:** Postoji više načina za rješavanje nedostajućih vrijednosti u vašim skupovima podataka. Specifična strategija koju koristite (uklanjanje, zamjena ili čak način na koji ih zamjenjujete) trebala bi biti određena specifičnostima tih podataka. Razvit ćete bolji osjećaj za rješavanje nedostajućih vrijednosti što više radite i komunicirate s skupovima podataka.


### Kodiranje kategorijskih podataka

Modeli strojnog učenja rade isključivo s brojevima i bilo kojim oblikom numeričkih podataka. Ne mogu razlikovati između "Da" i "Ne", ali mogu razlikovati između 0 i 1. Dakle, nakon što popunimo nedostajuće vrijednosti, potrebno je kodirati kategorijske podatke u neki numerički oblik kako bi ih model mogao razumjeti.

Kodiranje se može obaviti na dva načina. O njima ćemo raspravljati u nastavku.


**KODIRANJE OZNAKA**

Kodiranje oznaka u osnovi znači pretvaranje svake kategorije u broj. Na primjer, recimo da imamo skup podataka o putnicima zrakoplovnih kompanija i postoji stupac koji sadrži njihovu klasu među sljedećim ['poslovna klasa', 'ekonomska klasa', 'prva klasa']. Ako se provede kodiranje oznaka, to bi se transformiralo u [0,1,2]. Pogledajmo primjer putem koda. Budući da ćemo učiti `scikit-learn` u nadolazećim bilježnicama, ovdje ga nećemo koristiti.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Da bismo izvršili kodiranje oznaka na prvom stupcu, prvo moramo opisati preslikavanje svake klase u broj, prije zamjene


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Kao što možemo vidjeti, rezultat odgovara onome što smo očekivali. Dakle, kada koristimo kodiranje oznaka? Kodiranje oznaka se koristi u jednom ili oba sljedeća slučaja:
1. Kada je broj kategorija velik
2. Kada su kategorije poredane po redoslijedu.


**JEDNOSTRUKO KODIRANJE (ONE HOT ENCODING)**

Druga vrsta kodiranja je Jednostruko Kodiranje (One Hot Encoding). Kod ove vrste kodiranja, svaka kategorija iz stupca dodaje se kao zaseban stupac, a svaka podatkovna točka dobiva vrijednost 0 ili 1 ovisno o tome sadrži li tu kategoriju. Dakle, ako postoji n različitih kategorija, n stupaca će biti dodano u dataframe.

Na primjer, uzmimo isti primjer klase u zrakoplovu. Kategorije su bile: ['business class', 'economy class', 'first class']. Dakle, ako primijenimo jednostruko kodiranje, sljedeća tri stupca bit će dodana u skup podataka: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Hajdemo izvršiti one hot encoding na prvom stupcu


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Svaki one hot kodirani stupac sadrži 0 ili 1, što označava postoji li ta kategorija za tu podatkovnu točku.


Kada koristimo one hot encoding? One hot encoding se koristi u jednom ili oba sljedeća slučaja:

1. Kada je broj kategorija i veličina skupa podataka manja.
2. Kada kategorije ne slijede nikakav određeni redoslijed.


> Ključne točke:
1. Kodiranje se koristi za pretvaranje nenumeričkih podataka u numeričke podatke.
2. Postoje dvije vrste kodiranja: Label kodiranje i One Hot kodiranje, a obje se mogu primijeniti ovisno o zahtjevima skupa podataka.


## Uklanjanje dupliciranih podataka

> **Cilj učenja:** Na kraju ovog pododjeljka trebali biste se osjećati ugodno u prepoznavanju i uklanjanju dupliciranih vrijednosti iz DataFrameova.

Osim nedostajućih podataka, često ćete naići na duplicirane podatke u stvarnim skupovima podataka. Srećom, pandas pruža jednostavan način za otkrivanje i uklanjanje dupliciranih unosa.


### Prepoznavanje duplikata: `duplicated`

Duplikatne vrijednosti možete lako prepoznati koristeći metodu `duplicated` u pandas biblioteci, koja vraća Booleovu masku koja označava je li unos u `DataFrame` duplikat ranijeg unosa. Napravimo još jedan primjer `DataFrame` kako bismo vidjeli kako to funkcionira.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Uklanjanje duplikata: `drop_duplicates`
`drop_duplicates` jednostavno vraća kopiju podataka za koje su sve vrijednosti `duplicated` postavljene na `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Oba `duplicated` i `drop_duplicates` prema zadanim postavkama uzimaju u obzir sve stupce, ali možete odrediti da pregledavaju samo podskup stupaca u vašem `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Odricanje od odgovornosti**:  
Ovaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane ljudskog prevoditelja. Ne preuzimamo odgovornost za bilo kakva nesporazuma ili pogrešna tumačenja koja proizlaze iz korištenja ovog prijevoda.
