|
3 weeks ago | |
---|---|---|
.. | ||
README.md | 3 weeks ago | |
assignment.md | 3 weeks ago |
README.md
Рад са подацима: Припрема података
![]() |
---|
Припрема података - Скетч од @nitya |
Квиз пре предавања
У зависности од извора, сирови подаци могу садржати неке недоследности које ће изазвати проблеме у анализи и моделирању. Другим речима, ови подаци могу бити категорисани као „прљави“ и потребно их је очистити. Ова лекција се фокусира на технике чишћења и трансформације података како би се решили изазови попут недостајућих, нетачних или непотпуних података. Теме обухваћене у овој лекцији користе Python и библиотеку Pandas и биће демонстриране у бележници у овом директоријуму.
Значај чишћења података
-
Једноставност коришћења и поновне употребе: Када су подаци правилно организовани и нормализовани, лакше их је претраживати, користити и делити са другима.
-
Конзистентност: Наука о подацима често захтева рад са више скупова података, где скупови из различитих извора треба да се споје. Осигуравање да сваки појединачни скуп података има заједничку стандардизацију обезбедиће да подаци остану корисни када се сви споје у један скуп.
-
Прецизност модела: Очишћени подаци побољшавају тачност модела који се на њих ослањају.
Уобичајени циљеви и стратегије чишћења
-
Истраживање скупа података: Истраживање података, које је обухваћено у каснијој лекцији, може вам помоћи да откријете податке које треба очистити. Визуелно посматрање вредности унутар скупа података може поставити очекивања о томе како остатак изгледа или пружити идеју о проблемима који се могу решити. Истраживање може укључивати основно упитивање, визуализације и узорковање.
-
Форматирање: У зависности од извора, подаци могу имати недоследности у начину на који су представљени. Ово може изазвати проблеме у претраживању и представљању вредности, где се вредност види унутар скупа података, али није правилно представљена у визуализацијама или резултатима упита. Уобичајени проблеми са форматирањем укључују решавање размака, датума и типова података. Решавање проблема са форматирањем обично је одговорност људи који користе податке. На пример, стандарди о томе како се датуми и бројеви представљају могу се разликовати од земље до земље.
-
Дупликације: Подаци који се појављују више пута могу произвести нетачне резултате и обично их треба уклонити. Ово је честа појава када се спајају два или више скупова података. Међутим, постоје случајеви када дупликације у спојеним скуповима садрже делове који могу пружити додатне информације и можда их треба сачувати.
-
Недостајући подаци: Недостајући подаци могу изазвати нетачности као и слабе или пристрасне резултате. Понекад се ово може решити „поновним учитавањем“ података, попуњавањем недостајућих вредности рачунањем и кодом као што је Python, или једноставно уклањањем вредности и одговарајућих података. Постоји много разлога зашто подаци могу недостајати, а акције које се предузимају за решавање ових недостајућих вредности могу зависити од тога како и зашто су нестали.
Истраживање информација у DataFrame-у
Циљ учења: До краја овог пододељка, требало би да будете удобни у проналажењу општих информација о подацима који се чувају у pandas DataFrame-овима.
Када учитате своје податке у pandas, највероватније ће бити у DataFrame-у (погледајте претходну лекцију за детаљан преглед). Међутим, ако скуп података у вашем DataFrame-у има 60.000 редова и 400 колона, како уопште почети да схватате са чим радите? Срећом, pandas пружа неке згодне алате за брз преглед општих информација о DataFrame-у, као и првих и последњих неколико редова.
Да бисмо истражили ову функционалност, увешћемо Python библиотеку scikit-learn и користити иконичан скуп података: Iris скуп података.
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])
sepal length (cm) | sepal width (cm) | petal length (cm) | petal width (cm) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
- DataFrame.info: За почетак, метода
info()
се користи за испис резимеа садржаја присутног уDataFrame
. Погледајмо овај скуп података да видимо шта имамо:
iris_df.info()
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 sepal length (cm) 150 non-null float64
1 sepal width (cm) 150 non-null float64
2 petal length (cm) 150 non-null float64
3 petal width (cm) 150 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB
Из овога знамо да Iris скуп података има 150 уноса у четири колоне без празних уноса. Сви подаци су сачувани као 64-битни бројеви са покретним зарезом.
- DataFrame.head(): Затим, да бисмо проверили стварни садржај
DataFrame
, користимо методуhead()
. Погледајмо како изгледају први редови нашегiris_df
:
iris_df.head()
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 3.2 1.3 0.2
3 4.6 3.1 1.5 0.2
4 5.0 3.6 1.4 0.2
- DataFrame.tail(): Супротно томе, да бисмо проверили последње редове
DataFrame
, користимо методуtail()
:
iris_df.tail()
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
145 6.7 3.0 5.2 2.3
146 6.3 2.5 5.0 1.9
147 6.5 3.0 5.2 2.0
148 6.2 3.4 5.4 2.3
149 5.9 3.0 5.1 1.8
Закључак: Чак и само гледањем метаподатака о информацијама у DataFrame-у или првих и последњих неколико вредности у њему, можете одмах добити идеју о величини, облику и садржају података са којима радите.
Рад са недостајућим подацима
Циљ учења: До краја овог пододељка, требало би да знате како да замените или уклоните празне вредности из DataFrame-ова.
Већину времена скупови података које желите да користите (или морате да користите) имају недостајуће вредности. Начин на који се недостајући подаци обрађују носи са собом суптилне компромисе који могу утицати на вашу коначну анализу и резултате у стварном свету.
Pandas обрађује недостајуће вредности на два начина. Први сте већ видели у претходним одељцима: NaN
, или Not a Number. Ово је заправо посебна вредност која је део IEEE спецификације за бројеве са покретним зарезом и користи се само за означавање недостајућих вредности са покретним зарезом.
За недостајуће вредности које нису бројеви са покретним зарезом, pandas користи Python објекат None
. Иако може изгледати збуњујуће што ћете наићи на две различите врсте вредности које суштински значе исто, постоје добри програмски разлози за овај дизајн, а у пракси, овај приступ омогућава pandas-у да пружи добар компромис за већину случајева. Ипак, и None
и NaN
носе ограничења која треба имати на уму у погледу начина на који се могу користити.
Погледајте више о NaN
и None
у бележници!
- Детекција празних вредности: У
pandas
, методеisnull()
иnotnull()
су ваши примарни алати за детекцију празних података. Обе враћају Булове маске преко ваших података. Користићемоnumpy
заNaN
вредности:
import numpy as np
example1 = pd.Series([0, np.nan, '', None])
example1.isnull()
0 False
1 True
2 False
3 True
dtype: bool
Пажљиво погледајте излаз. Да ли вас нешто изненађује? Док је 0
аритметички нулт, он је ипак савршено добар цео број и pandas га тако третира. ''
је мало суптилнији. Иако смо га користили у Одељку 1 да представимо празну стринг вредност, он је ипак стринг објекат и није представљање празне вредности у смислу pandas-а.
Сада, окренимо ово и користимо ове методе на начин на који ћете их најчешће користити у пракси. Можете користити Булове маске директно као Series
или DataFrame
индекс, што може бити корисно када покушавате да радите са изолованим недостајућим (или присутним) вредностима.
Закључак: И методе
isnull()
иnotnull()
производе сличне резултате када их користите уDataFrame
-овима: показују резултате и индекс тих резултата, што ће вам у великој мери помоћи док се борите са својим подацима.
- Уклањање празних вредности: Поред идентификовања недостајућих вредности, pandas пружа згодан начин за уклањање празних вредности из
Series
иDataFrame
-ова. (Посебно код великих скупова података, често је препоручљивије једноставно уклонити недостајуће [NA] вредности из ваше анализе него се бавити њима на друге начине.) Да бисмо ово видели на делу, вратимо се наexample1
:
example1 = example1.dropna()
example1
0 0
2
dtype: object
Приметите да ово треба да изгледа као ваш излаз из example3[example3.notnull()]
. Разлика је у томе што је, уместо само индексирања на маскиране вредности, dropna
уклонио те недостајуће вредности из Series
example1
.
Пошто DataFrame
-ови имају две димензије, они пружају више опција за уклањање података.
example2 = pd.DataFrame([[1, np.nan, 7],
[2, 5, 8],
[np.nan, 6, 9]])
example2
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | NaN | 7 |
1 | 2.0 | 5.0 | 8 |
2 | NaN | 6.0 | 9 |
(Да ли сте приметили да је pandas претворио две колоне у бројеве са покретним зарезом како би прилагодио NaN
?)
Не можете уклонити једну вредност из DataFrame
, тако да морате уклонити целе редове или колоне. У зависности од тога шта радите, можда ћете желети да урадите једно или друго, па pandas пружа опције за оба. Пошто у науци о подацима колоне генерално представљају променљиве, а редови представљају запажања, вероватније је да ћете уклонити редове података; подразумевана поставка за dropna()
је да уклони све редове који садрже било какве празне вредности:
example2.dropna()
0 1 2
1 2.0 5.0 8
Ако је потребно, можете уклонити NA вредности из колона. Користите axis=1
да то урадите:
example2.dropna(axis='columns')
2
0 7
1 8
2 9
Приметите да ово може уклонити много података које можда желите да задржите, посебно у мањим скуповима података. Шта ако желите да уклоните само редове или колоне који садрже неколико или чак све празне вредности? Ове поставке можете одредити у dropna
са параметрима how
и thresh
.
Подразумевано, how='any'
(ако желите да проверите сами или видите које друге параметре метода има, покрените example4.dropna?
у ћелији кода). Можете алтернативно одредити how='all'
како бисте уклонили само редове или колоне који садрже све празне вредности. Проширимо наш пример DataFrame
да видимо ово на делу.
example2[3] = np.nan
example2
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 1.0 | NaN | 7 | NaN |
1 | 2.0 | 5.0 | 8 | NaN |
2 | NaN | 6.0 | 9 | NaN |
Параметар thresh
вам даје прецизнију контролу: постављате број непразних вредности које ред или колона морају имати да би били задржани:
example2.dropna(axis='rows', thresh=3)
0 1 2 3
1 2.0 5.0 8 NaN
Овде су први и последњи ред уклоњени, јер садрже само две непразне вредности.
- Попуњавање празних вредности: У зависности од вашег скупа података, понекад може имати више смисла попунити празне вредности важећим него их уклонити. Могли бисте користити
isnull
да то урадите на лицу места, али то може бити заморно, посебно ако имате много вредности за попуњавање. Пошто је ово тако чест задатак у науци о подацима, pandas пружаfillna
, који враћа копијуSeries
илиDataFrame
са недостајућим вредностима замењеним оним које изаберете. Направимо још један примерSeries
да видимо како ово функционише у пракси.
example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example3
a 1.0
b NaN
c 2.0
d NaN
e 3.0
dtype: float64
Можете попунити све празне уносе једном вредношћу, као што је 0
:
example3.fillna(0)
a 1.0
b 0.0
c 2.0
d 0.0
e 3.0
dtype: float64
Можете унапред попунити празне вредности, што значи користити последњу важећу вредност за попуњавање празне:
example3.fillna(method='ffill')
a 1.0
b 1.0
c 2.0
d 2.0
e 3.0
dtype: float64
Такође можете уназад попунити како бисте проширили следећу важећу вредност уназад за попуњавање празне:
example3.fillna(method='bfill')
a 1.0
b 2.0
c 2.0
d 3.0
e 3.0
dtype: float64
Као што можете претпоставити, ово функционише исто са DataFrame
-овима, али такође можете одредити axis
дуж које ће се попуњавати празне вредности. Узимајући поново претходно коришћени example2
:
example2.fillna(method='ffill', axis=1)
0 1 2 3
0 1.0 1.0 7.0 7.0
1 2.0 5.0 8.0 8.0
2 NaN 6.0 9.0 9.0
Закључак: Постоји више начина за решавање проблема са недостајућим вредностима у вашим скуповима података. Конкретна стратегија коју користите (уклањање, замена или начин на који их замењујете) треба да буде диктирана специфичностима тих података. Што више радите са скуповима података, боље ћете разумети како да се носите са недостајућим вредностима.
Уклањање дуплираних података
Циљ учења: До краја овог пододељка, требало би да будете сигурни у идентификовање и уклањање дуплираних вредности из DataFrame-ова.
Поред недостајућих података, често ћете наилазити на дуплиране податке у скуповима података из стварног света. Срећом, pandas
пружа једноставан начин за откривање и уклањање дуплираних уноса.
- Идентификовање дупликата:
duplicated
: Лако можете уочити дуплиране вредности користећи методduplicated
у pandas-у, који враћа Булову маску која показује да ли је унос уDataFrame
-у дупликат неког претходног. Хајде да направимо још један примерDataFrame
-а да бисмо видели како то функционише.
example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
'numbers': [1, 2, 1, 3, 3]})
example4
letters | numbers | |
---|---|---|
0 | A | 1 |
1 | B | 2 |
2 | A | 1 |
3 | B | 3 |
4 | B | 3 |
example4.duplicated()
0 False
1 False
2 True
3 False
4 True
dtype: bool
- Уклањање дупликата:
drop_duplicates
: једноставно враћа копију података за које су свеduplicated
вредностиFalse
:
example4.drop_duplicates()
letters numbers
0 A 1
1 B 2
3 B 3
И duplicated
и drop_duplicates
подразумевано разматрају све колоне, али можете навести да испитују само подскуп колона у вашем DataFrame
-у:
example4.drop_duplicates(['letters'])
letters numbers
0 A 1
1 B 2
Закључак: Уклањање дуплираних података је суштински део готово сваког пројекта у области науке о подацима. Дуплирани подаци могу променити резултате ваших анализа и дати вам нетачне резултате!
🚀 Изазов
Сав материјал који је обрађен доступан је као Jupyter Notebook. Поред тога, након сваког одељка постоје вежбе, испробајте их!
Квиз након предавања
Преглед и самостално учење
Постоји много начина да откријете и приступите припреми ваших података за анализу и моделирање, а чишћење података је важан корак који захтева "практично" искуство. Испробајте ове изазове са Kaggle-а како бисте истражили технике које ова лекција није покрила.
Задатак
Одрицање од одговорности:
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције Co-op Translator. Иако се трудимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква погрешна тумачења или неспоразуме који могу произаћи из коришћења овог превода.