# Припрема података

[Оригинални извор бележнице из *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Истраживање информација о `DataFrame`

> **Циљ учења:** До краја овог пододељка, требало би да будете у могућности да пронађете опште информације о подацима који се чувају у pandas DataFrame-овима.

Када учитате своје податке у pandas, врло је вероватно да ће бити у облику `DataFrame`. Међутим, ако ваш скуп података у `DataFrame`-у има 60.000 редова и 400 колона, како уопште почети да стичете осећај о томе са чим радите? Срећом, pandas пружа неке згодне алате за брз преглед општих информација о `DataFrame`, поред првих и последњих неколико редова.

Да бисмо истражили ову функционалност, увешћемо Python библиотеку scikit-learn и користити један иконичан скуп података који је сваки научник података видео стотине пута: скуп података британског биолога Роналда Фишера *Iris*, који је коришћен у његовом раду из 1936. године "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Учитали смо Iris Dataset у променљиву `iris_df`. Пре него што се удубимо у податке, било би корисно знати број података које имамо и укупну величину скупа података. Корисно је погледати обим података са којима радимо.


In [2]:
iris_df.shape

(150, 4)

Дакле, имамо 150 редова и 4 колоне података. Сваки ред представља једну тачку података, а свака колона представља једну карактеристику повезану са оквиром података. У суштини, постоји 150 тачака података које садрже по 4 карактеристике.

`shape` је овде атрибут оквира података, а не функција, због чега се не завршава паром заграда.


### `DataFrame.columns`
Хајде сада да пређемо на 4 колоне података. Шта тачно свака од њих представља? Атрибут `columns` ће нам дати имена колона у датафрејму.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Како можемо видети, постоје четири(4) колоне. Атрибут `columns` нам говори имена колона и у суштини ништа више. Овај атрибут постаје важан када желимо да идентификујемо карактеристике које скуп података садржи.


### `DataFrame.info`
Количина података (дата атрибутом `shape`) и имена карактеристика или колона (дата атрибутом `columns`) нам пружају одређене информације о скупу података. Сада бисмо желели да се детаљније упознамо са скупом података. Функција `DataFrame.info()` је веома корисна за ово.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Одавде можемо направити неколико запажања:  
1. Тип података сваке колоне: У овом скупу података, сви подаци су сачувани као 64-битни бројеви са покретним зарезом.  
2. Број вредности које нису null: Рад са null вредностима је важан корак у припреми података. Овим ћемо се бавити касније у бележници.  


### DataFrame.describe()
Рецимо да имамо пуно нумеричких података у нашем скупу података. Једноваријантни статистички прорачуни као што су средња вредност, медијана, квартил итд. могу се извршити за сваку колону појединачно. Функција `DataFrame.describe()` нам пружа статистички преглед нумеричких колона скупа података.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Горњи излаз приказује укупан број података, средњу вредност, стандардну девијацију, минимум, доњи квартил (25%), медијану (50%), горњи квартил (75%) и максималну вредност сваке колоне.


### `DataFrame.head`
Са свим горе наведеним функцијама и атрибутима, добили смо преглед података на највишем нивоу. Знамо колико има података, колико има карактеристика, који је тип података за сваку карактеристику и колико има вредности које нису празне за сваку карактеристику.

Сада је време да погледамо саме податке. Хајде да видимо како изгледају првих неколико редова (првих неколико тачака података) нашег `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Као што видимо у излазу, имамо пет (5) уноса из скупа података. Ако погледамо индекс са леве стране, откривамо да су то првих пет редова.


### Вежба:

Из горњег примера је јасно да `DataFrame.head` подразумевано враћа првих пет редова `DataFrame`. У коду испод, можете ли смислити начин да прикажете више од пет редова?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Још један начин да погледате податке може бити од краја (уместо од почетка). Супротност `DataFrame.head` је `DataFrame.tail`, који враћа последњих пет редова `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


У пракси је корисно имати могућност да лако прегледате првих неколико редова или последњих неколико редова `DataFrame`-а, посебно када тражите одступања у уређеним скуповима података.

Све функције и атрибути приказани изнад уз помоћ примера кода помажу нам да стекнемо увид и осећај за податке.

> **Закључак:** Чак и само посматрањем метаподатака о информацијама у `DataFrame`-у или првих и последњих неколико вредности у њему, можете одмах стећи представу о величини, облику и садржају података са којима радите.


### Недостајући подаци
Хајде да се позабавимо недостајућим подацима. Недостајући подаци се јављају када нека вредност није унетa у одређене колоне.

Узмимо пример: рецимо да је неко ко је свестан своје тежине одлучио да не попуни поље за тежину у анкети. У том случају, вредност тежине за ту особу ће недостајати.

У већини случајева, у стварним скуповима података, недостајуће вредности су честа појава.

**Како Pandas обрађује недостајуће податке**

Pandas обрађује недостајуће вредности на два начина. Први начин сте већ видели у претходним одељцима: `NaN`, или Not a Number. Ово је заправо посебна вредност која је део IEEE спецификације за бројеве са покретним зарезом и користи се искључиво за означавање недостајућих вредности са покретним зарезом.

За недостајуће вредности које нису типа float, pandas користи Python објекат `None`. Иако може деловати збуњујуће што ћете наићи на две различите врсте вредности које у суштини означавају исту ствар, постоје добри програмски разлози за овај дизајн. У пракси, овај приступ омогућава pandas-у да понуди добар компромис за велику већину случајева. Упркос томе, и `None` и `NaN` имају одређена ограничења која треба имати на уму у погледу начина на који се могу користити.


### `None`: недостајући подаци који нису типа float
Пошто `None` долази из Python-а, не може се користити у NumPy и pandas низовима који нису типа `'object'`. Запамтите, NumPy низови (и структуре података у pandas-у) могу садржати само један тип података. Ово им даје огромну моћ за рад са великим количинама података и обраду, али истовремено ограничава њихову флексибилност. Такви низови морају се прилагодити „најнижој заједничкој основи“, односно типу података који ће обухватити све у низу. Када се `None` налази у низу, то значи да радите са Python објектима.

Да бисмо ово видели на делу, размотримо следећи пример низа (обратите пажњу на `dtype` за њега):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Реалност надограђених типова података носи са собом два споредна ефекта. Прво, операције ће се изводити на нивоу интерпретираног Python кода, а не компајлираног NumPy кода. У суштини, то значи да ће све операције које укључују `Series` или `DataFrames` са `None` вредностима бити спорије. Иако вероватно нећете приметити овај пад у перформансама, код великих скупова података то може постати проблем.

Други споредни ефекат произилази из првог. Пошто `None` у суштини враћа `Series` или `DataFrame` у свет обичног Python-а, коришћење NumPy/pandas агрегатних функција као што су `sum()` или `min()` на низовима који садрже вредност ``None`` генерално ће произвести грешку:


In [10]:
example1.sum()

TypeError: ignored

**Кључна поента**: Сабирање (и друге операције) између целих бројева и вредности `None` је неодређено, што може ограничити оно што можете урадити са скуповима података који их садрже.


### `NaN`: недостајуће вредности типа float

За разлику од `None`, NumPy (а самим тим и pandas) подржава `NaN` за своје брзе, векторизоване операције и ufunc-ове. Лоша вест је да свака аритметичка операција извршена над `NaN` увек резултира у `NaN`. На пример:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Добра вест: агрегације које се извршавају на низовима са `NaN` у њима не изазивају грешке. Лоша вест: резултати нису униформно корисни:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Вежба:


In [11]:
# What happens if you add np.nan and None together?


Запамтите: `NaN` је само за недостајуће вредности са покретним зарезом; не постоји еквивалент `NaN` за целе бројеве, стрингове или булове вредности.


### `NaN` и `None`: null вредности у pandas-у

Иако `NaN` и `None` могу да се понашају мало другачије, pandas је ипак направљен да их обрађује на исти начин. Да бисмо објаснили шта мислимо, погледајмо `Series` целих бројева:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Вежба:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


У процесу подизања типова података ради успостављања хомогености података у `Series` и `DataFrame` објектима, pandas ће без проблема заменити недостајуће вредности између `None` и `NaN`. Због ове карактеристике дизајна, може бити корисно размишљати о `None` и `NaN` као о две различите врсте "null" вредности у pandas-у. Заиста, неке од основних метода које ћете користити за рад са недостајућим вредностима у pandas-у одражавају ову идеју у својим називима:

- `isnull()`: Генерише Булову маску која указује на недостајуће вредности
- `notnull()`: Супротно од `isnull()`
- `dropna()`: Враћа филтрирану верзију података
- `fillna()`: Враћа копију података са попуњеним или импутираним недостајућим вредностима

Ово су важне методе које треба савладати и са којима треба постати комфоран, па хајде да их детаљније размотримо.


### Детектовање null вредности

Сада када смо разумели значај недостајућих вредности, потребно је да их откријемо у нашем скупу података пре него што их обрадимо.  
И `isnull()` и `notnull()` су ваши основни методи за детектовање null података. Оба враћају Булове маске преко ваших података.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Погледајте пажљиво резултате. Да ли вас нешто изненађује? Иако је `0` аритметичка нула, он је ипак савршено добар целобројни тип, и pandas га тако третира. `''` је мало суптилнији. Иако смо га користили у Одељку 1 да представимо празну вредност низа, он је ипак објекат низа и није представљање нуле у смислу како pandas то схвата.

Сада, хајде да ово преокренемо и употребимо ове методе на начин који је ближи стварној пракси. Boolean маске можете користити директно као индекс ``Series`` или ``DataFrame``, што може бити корисно када покушавате да радите са изолованим недостајућим (или присутним) вредностима.

Ако желимо укупан број недостајућих вредности, можемо једноставно извршити суму преко маске коју производи метода `isnull()`.


In [19]:
example3.isnull().sum()

2

### Вежба:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Кључна поука**: И методе `isnull()` и `notnull()` дају сличне резултате када их користите у DataFrame-овима: приказују резултате и индекс тих резултата, што ће вам изузетно помоћи док се бавите својим подацима.


### Рад са недостајућим подацима

> **Циљ учења:** На крају овог пододељка, требало би да знате како и када да замените или уклоните null вредности из DataFrame-ова.

Модели машинског учења не могу сами да обрађују недостајуће податке. Због тога, пре него што податке проследимо моделу, морамо да решимо проблем недостајућих вредности.

Начин на који се недостајући подаци обрађују носи са собом суптилне компромисе, може утицати на вашу коначну анализу и исходе у стварном свету.

Постоје два основна начина за рад са недостајућим подацима:

1.   Уклонити ред који садржи недостајућу вредност
2.   Заменити недостајућу вредност неком другом вредношћу

Размотрићемо оба ова метода, као и њихове предности и мане, у детаљима.


### Уклањање null вредности

Количина података коју прослеђујемо нашем моделу директно утиче на његове перформансе. Уклањање null вредности значи да смањујемо број података, а самим тим и величину скупа података. Због тога је препоручљиво уклонити редове са null вредностима када је скуп података прилично велик.

Други случај може бити да одређени ред или колона имају много недостајућих вредности. У том случају, могу се уклонити јер не би значајно допринели нашој анализи, с обзиром на то да већина података недостаје за тај ред/колону.

Поред идентификовања недостајућих вредности, pandas пружа згодан начин за уклањање null вредности из `Series` и `DataFrame` објеката. Да бисмо видели како то функционише, вратимо се на `example3`. Функција `DataFrame.dropna()` помаже у уклањању редова са null вредностима.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Имајте на уму да ово треба да изгледа као ваш излаз из `example3[example3.notnull()]`. Разлика овде је у томе што, уместо само индексирања на основу вредности са маском, `dropna` је уклонио те недостајуће вредности из `Series` `example3`.

Пошто DataFrame-ови имају две димензије, они пружају више опција за уклањање података.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Да ли сте приметили да је pandas променио тип података за две колоне у float како би прилагодио `NaN` вредности?)

Не можете уклонити само једну вредност из `DataFrame`, већ морате уклонити целе редове или колоне. У зависности од тога шта радите, можда ћете желети да урадите једно или друго, и зато вам pandas нуди опције за оба случаја. Пошто у науци о подацима колоне углавном представљају променљиве, а редови представљају запажања, вероватније је да ћете уклањати редове података; подразумевана поставка за `dropna()` је да уклони све редове који садрже било какве null вредности:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Ако је потребно, можете уклонити NA вредности из колона. Користите `axis=1` да то урадите:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Имајте на уму да ово може уклонити доста података које можда желите да задржите, нарочито у мањим скуповима података. Шта ако желите да уклоните само редове или колоне које садрже неколико или чак све недостајуће вредности? Те поставке можете одредити у `dropna` помоћу параметара `how` и `thresh`.

Подразумевано, `how='any'` (ако желите сами да проверите или видите које друге параметре метода има, покрените `example4.dropna?` у код ћелији). Алтернативно, можете одредити `how='all'` како бисте уклонили само редове или колоне које садрже све недостајуће вредности. Хајде да проширимо наш пример `DataFrame` да бисмо видели како ово функционише у наредној вежби.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Кључне поуке:  
1. Уклањање null вредности је добра идеја само ако је скуп података довољно велик.  
2. Цели редови или колоне могу се уклонити ако им недостаје већина података.  
3. Метода `DataFrame.dropna(axis=)` помаже у уклањању null вредности. Аргумент `axis` означава да ли се уклањају редови или колоне.  
4. Аргумент `how` такође може бити коришћен. Подразумевано је подешен на `any`. Дакле, уклања само оне редове/колоне који садрже било какве null вредности. Може се подесити на `all` како би се прецизирало да ће бити уклоњени само они редови/колоне где су све вредности null.  


### Вежба:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Параметар `thresh` вам пружа прецизнију контролу: подешавате број *ненултих* вредности које ред или колона треба да имају како би били задржани:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Овде су први и последњи ред одбачени, јер садрже само две ненулте вредности.


### Попуњавање празних вредности

Понекад има смисла попунити недостајуће вредности оним које би могле бити валидне. Постоји неколико техника за попуњавање празних вредности. Прва је коришћење доменског знања (знања о теми на којој се заснива скуп података) како би се на неки начин приближно одредиле недостајуће вредности.

Можете користити `isnull` за ово директно, али то може бити напорно, нарочито ако имате много вредности које треба попунити. Пошто је ово тако чест задатак у науци о подацима, pandas пружа `fillna`, који враћа копију `Series` или `DataFrame` са недостајућим вредностима замењеним оним које сами изаберете. Хајде да направимо још један пример `Series` да видимо како ово функционише у пракси.


### Категоријски подаци (Ненумерички)
Прво, хајде да размотримо ненумеричке податке. У скуповима података имамо колоне са категоријским подацима. На пример, пол, тачно или нетачно итд.

У већини ових случајева, недостајуће вредности замењујемо `модом` колоне. Рецимо, имамо 100 података, од којих је 90 рекло тачно, 8 нетачно, а 2 нису попуњена. Тада можемо попунити та 2 са тачно, узимајући у обзир целу колону.

Опет, овде можемо користити знање из домена. Хајде да размотримо пример попуњавања са модом.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Како можемо видети, нулта вредност је замењена. Подразумева се да смо могли написати било шта уместо `'True'` и то би било замењено.


### Нумерички подаци
Сада прелазимо на нумеричке податке. Овде постоје два уобичајена начина за замену недостајућих вредности:

1. Замена медијаном реда
2. Замена аритметичком средином реда

Медијан користимо у случају искошених података са екстремним вредностима. Ово је зато што је медијан отпоран на екстремне вредности.

Када су подаци нормализовани, можемо користити аритметичку средину, јер би у том случају аритметичка средина и медијан били прилично слични.

Прво, хајде да узмемо колону која је нормално распоређена и попунимо недостајућу вредност аритметичком средином те колоне.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Средња вредност колоне је


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Како можемо видети, недостајућа вредност је замењена њеном средњом вредношћу.


Сада хајде да пробамо још један датафрејм, и овог пута ћемо заменити вредности None медијаном колоне.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Медијана друге колоне је


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Као што можемо видети, вредност NaN је замењена медијаном колоне


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Можете попунити све празне уносе једном вредношћу, као што је `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Кључне тачке:
1. Попуњавање недостајућих вредности треба обавити када има мање података или када постоји стратегија за попуњавање недостајућих података.
2. Доменско знање може се користити за попуњавање недостајућих вредности њиховим приближним вредностима.
3. За категоријске податке, углавном се недостајуће вредности замењују модом колоне.
4. За нумеричке податке, недостајуће вредности се обично попуњавају просеком (за нормализоване скупове података) или медијаном колона.


### Вежба:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Можете **попунити унапред** нултне вредности, што значи користити последњу важећу вредност за попуњавање нултне:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Такође можете **уназад попунити** како бисте уназад пренели следећу важећу вредност и попунили празнину:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Као што можете претпоставити, ово функционише исто са DataFrame-овима, али можете такође одредити `axis` дуж којег ће се попуњавати null вредности:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Имајте у виду да када претходна вредност није доступна за попуњавање унапред, нулта вредност остаје.


### Вежба:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Можете бити креативни у начину на који користите `fillna`. На пример, хајде да поново погледамо `example4`, али овог пута хајде да попунимо недостајуће вредности просеком свих вредности у `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Имајте на уму да је трећа колона још увек без вредности: подразумевани начин је попуњавање вредности ред по ред.

> **Закључак:** Постоји више начина за решавање недостајућих вредности у вашим скуповима података. Конкретна стратегија коју користите (уклањање, замена или начин на који их замењујете) треба да буде диктирана специфичностима тих података. Развићете бољи осећај за решавање недостајућих вредности што више радите и интерагујете са скуповима података.


### Кодирање категоријалних података

Машинско учење модели раде искључиво са бројевима и било којим обликом нумеричких података. Неће моћи да разликује између "Да" и "Не", али ће моћи да разликује између 0 и 1. Зато, након попуњавања недостајућих вредности, потребно је да категоријалне податке кодирамо у неки нумерички облик како би модел могао да их разуме.

Кодирање се може обавити на два начина. О њима ћемо говорити у наставку.


**КОДИРАЊЕ ЕТИКЕТА**

Кодирање етикета је процес претварања сваке категорије у број. На пример, рецимо да имамо скуп података о путницима авиона и постоји колона која садржи њихову класу међу следећим ['бизнис класа', 'економска класа', 'прва класа']. Ако се изврши кодирање етикета, ово би било трансформисано у [0,1,2]. Хајде да видимо пример кроз код. Како ћемо учити `scikit-learn` у наредним бележницама, овде га нећемо користити.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Да бисмо извршили кодирање етикета на првој колони, прво морамо описати пресликавање из сваке класе у број, пре него што заменимо


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Као што можемо видети, резултат одговара ономе што смо очекивали. Дакле, када користимо енкодирање етикета? Енкодирање етикета се користи у једном или оба од следећа два случаја:
1. Када је број категорија велики
2. Када су категорије у одређеном редоследу.


**ЕНКОДИРАЊЕ ЈЕДНОГ ВРУЋЕГ**

Још један тип енкодирања је енкодирање једног врућег (One Hot Encoding). Код овог типа енкодирања, свака категорија из колоне се додаје као посебна колона, а свака тачка података добија 0 или 1 у зависности од тога да ли садржи ту категорију. Дакле, ако постоји *n* различитих категорија, *n* колона ће бити додато у оквир података.

На пример, узмимо исти пример класа у авиону. Категорије су биле: ['бизнис класа', 'економска класа', 'прва класа']. Дакле, ако извршимо енкодирање једног врућег, следеће три колоне ће бити додате у скуп података: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Хајде да извршимо one hot encoding на првој колони


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Свака колона кодирана методом један-вруће садржи 0 или 1, што означава да ли та категорија постоји за ту тачку података.


Када користимо one hot encoding? One hot encoding се користи у једном или оба од следећа два случаја:

1. Када је број категорија и величина скупа података мања.
2. Када категорије не прате никакав одређени редослед.


> Кључне тачке:  
1. Кодирање се користи за претварање ненумеричких података у нумеричке податке.  
2. Постоје две врсте кодирања: кодирање етикета (Label encoding) и једнократно кодирање (One Hot encoding), а оба се могу применити у зависности од захтева скупа података.  


## Уклањање дуплираних података

> **Циљ учења:** На крају овог пододељка, требало би да будете спремни да идентификујете и уклоните дуплиране вредности из DataFrame-ова.

Поред недостајућих података, често ћете наићи на дуплиране податке у стварним скуповима података. Срећом, pandas пружа једноставан начин за откривање и уклањање дуплираних уноса.


### Препознавање дупликата: `duplicated`

Можете лако уочити дупликатне вредности користећи метод `duplicated` у pandas-у, који враћа Булову маску која указује да ли је унос у `DataFrame`-у дупликат неког претходног. Хајде да направимо још један пример `DataFrame`-а како бисмо видели како ово функционише.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Уклањање дупликата: `drop_duplicates`
`drop_duplicates` једноставно враћа копију података за које су све вредности означене као `duplicated` `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


И `duplicated` и `drop_duplicates` подразумевано разматрају све колоне, али можете навести да разматрају само подскуп колона у вашем `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Одрицање од одговорности**:  
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако тежимо тачности, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква неспоразумевања или погрешна тумачења која могу произаћи из коришћења овог превода.
