|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "661dad02c3ac239644d34c1eb51e76f8",
|
|
|
"translation_date": "2025-09-06T21:39:55+00:00",
|
|
|
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
|
|
|
"language_code": "sr"
|
|
|
}
|
|
|
-->
|
|
|
# Животни циклус науке о подацима: Анализа
|
|
|
|
|
|
| ](../../sketchnotes/15-Analyzing.png)|
|
|
|
|:---:|
|
|
|
| Животни циклус науке о подацима: Анализа - _Скетчнота од [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
## [Квиз пре предавања](https://ff-quizzes.netlify.app/en/ds/quiz/28)
|
|
|
|
|
|
Анализа у животном циклусу података потврђује да подаци могу одговорити на постављена питања или решити одређени проблем. Овај корак се такође може фокусирати на потврђивање да модел исправно решава та питања и проблеме. Ова лекција је усмерена на истраживачку анализу података (Exploratory Data Analysis или EDA), која обухвата технике за дефинисање карактеристика и односа унутар података и може се користити за припрему података за моделирање.
|
|
|
|
|
|
Користићемо пример скупа података са [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) како бисмо показали како се ово може применити уз помоћ Python-а и библиотеке Pandas. Овај скуп података садржи број неких уобичајених речи које се налазе у имејловима, а извори ових имејлова су анонимни. Користите [бележницу](notebook.ipynb) у овом директоријуму да пратите кораке.
|
|
|
|
|
|
## Истраживачка анализа података
|
|
|
|
|
|
Фаза прикупљања у животном циклусу је место где се подаци добијају, као и проблеми и питања која треба решити, али како можемо знати да подаци могу подржати крајњи резултат?
|
|
|
Подсетимо се да научник за податке може поставити следећа питања када добије податке:
|
|
|
- Да ли имам довољно података за решавање овог проблема?
|
|
|
- Да ли су подаци прихватљивог квалитета за овај проблем?
|
|
|
- Ако откријем додатне информације кроз ове податке, да ли би требало да размотримо промену или редефинисање циљева?
|
|
|
|
|
|
Истраживачка анализа података је процес упознавања са подацима и може се користити за одговоре на ова питања, као и за идентификовање изазова у раду са скупом података. Фокусирајмо се на неке од техника које се користе за постизање овога.
|
|
|
|
|
|
## Профилисање података, описна статистика и Pandas
|
|
|
|
|
|
Како проценити да ли имамо довољно података за решавање овог проблема? Профилисање података може сумирати и прикупити неке опште информације о нашем скупу података кроз технике описне статистике. Профилисање података нам помаже да разумемо шта нам је доступно, а описна статистика нам помаже да разумемо колико тога је доступно.
|
|
|
|
|
|
У неколико претходних лекција користили смо Pandas за пружање неке описне статистике помоћу функције [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html). Она пружа број, максималне и минималне вредности, средњу вредност, стандардну девијацију и квантиле за нумеричке податке. Коришћење описне статистике попут функције `describe()` може вам помоћи да процените колико података имате и да ли вам је потребно више.
|
|
|
|
|
|
## Узорковање и упити
|
|
|
|
|
|
Истраживање свега у великом скупу података може бити веома временски захтевно и обично је задатак који се препушта рачунару. Међутим, узорковање је користан алат за разумевање података и омогућава нам боље разумевање онога што се налази у скупу података и шта он представља. Уз узорак, можете применити вероватноћу и статистику како бисте дошли до неких општих закључака о вашим подацима. Иако не постоји дефинисано правило о томе колико података треба узорковати, важно је напоменути да што више података узоркујете, то прецизније генерализације можете направити о подацима.
|
|
|
|
|
|
Pandas има функцију [`sample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) у својој библиотеци, где можете проследити аргумент о томе колико случајних узорака желите да добијете и користите.
|
|
|
|
|
|
Општи упити података могу вам помоћи да одговорите на нека општа питања и теорије које можда имате. За разлику од узорковања, упити вам омогућавају контролу и фокусирање на одређене делове података о којима имате питања. Функција [`query()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) у библиотеци Pandas омогућава вам да изаберете колоне и добијете једноставне одговоре о подацима кроз добијене редове.
|
|
|
|
|
|
## Истраживање кроз визуализације
|
|
|
|
|
|
Не морате чекати да подаци буду темељно очишћени и анализирани да бисте почели са креирањем визуализација. У ствари, имање визуелног приказа током истраживања може помоћи у идентификовању образаца, односа и проблема у подацима. Штавише, визуализације пружају начин комуникације са онима који нису укључени у управљање подацима и могу бити прилика за дељење и разјашњавање додатних питања која нису обрађена у фази прикупљања. Погледајте [секцију о визуализацијама](../../../../../../../../../3-Data-Visualization) да бисте сазнали више о неким популарним начинима истраживања кроз визуализације.
|
|
|
|
|
|
## Истраживање ради идентификовања недоследности
|
|
|
|
|
|
Све теме у овој лекцији могу помоћи у идентификовању недостајућих или недоследних вредности, али Pandas пружа функције за проверу неких од њих. [isna() или isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) могу проверити недостајуће вредности. Један важан аспект истраживања ових вредности у вашим подацима је истраживање зашто су оне уопште настале. Ово вам може помоћи да одлучите које [акције треба предузети да их решите](/2-Working-With-Data/08-data-preparation/notebook.ipynb).
|
|
|
|
|
|
## [Квиз након предавања](https://ff-quizzes.netlify.app/en/ds/quiz/29)
|
|
|
|
|
|
## Задатак
|
|
|
|
|
|
[Истраживање за одговоре](assignment.md)
|
|
|
|
|
|
---
|
|
|
|
|
|
**Одрицање од одговорности**:
|
|
|
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква погрешна тумачења или неспоразуме који могу произаћи из коришћења овог превода. |