# Животни циклус науке о подацима: Анализа |![ Скетч од [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)| |:---:| | Животни циклус науке о подацима: Анализа - _Скетч од [@nitya](https://twitter.com/nitya)_ | ## Квиз пре предавања ## [Квиз пре предавања](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28) Анализа у животном циклусу података потврђује да подаци могу одговорити на постављена питања или решити одређени проблем. Овај корак се такође може фокусирати на потврђивање да модел исправно решава ова питања и проблеме. Ова лекција је усмерена на Експлораторну анализу података (EDA), која обухвата технике за дефинисање карактеристика и односа унутар података и може се користити за припрему података за моделирање. Користићемо пример скупа података са [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) да покажемо како се ово може применити уз помоћ Python-а и библиотеке Pandas. Овај скуп података садржи број неких уобичајених речи пронађених у имејловима, а извори ових имејлова су анонимни. Користите [бележницу](notebook.ipynb) у овом директоријуму да пратите кораке. ## Експлораторна анализа података Фаза прикупљања у животном циклусу је место где се подаци добијају, као и проблеми и питања која се разматрају, али како знамо да подаци могу подржати крајњи резултат? Подсетимо се да научник за податке може поставити следећа питања када добије податке: - Да ли имам довољно података да решим овај проблем? - Да ли су подаци прихватљивог квалитета за овај проблем? - Ако откријем додатне информације кроз ове податке, да ли треба да размотримо промену или редефинисање циљева? Експлораторна анализа података је процес упознавања са подацима и може се користити за одговор на ова питања, као и за идентификовање изазова у раду са скупом података. Фокусирајмо се на неке од техника које се користе за постизање овога. ## Профилисање података, дескриптивна статистика и Pandas Како проценити да ли имамо довољно података за решавање проблема? Профилисање података може сумирати и прикупити неке опште информације о нашем скупу података кроз технике дескриптивне статистике. Профилисање података нам помаже да разумемо шта нам је доступно, а дескриптивна статистика нам помаже да разумемо колико тога имамо. У неколико претходних лекција користили смо Pandas за пружање дескриптивне статистике помоћу функције [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html). Она пружа број, максималне и минималне вредности, средњу вредност, стандардну девијацију и квантиле за нумеричке податке. Коришћење дескриптивне статистике попут функције `describe()` може вам помоћи да процените колико података имате и да ли вам је потребно више. ## Узорковање и упити Истраживање свега у великом скупу података може бити веома временски захтевно и обично је задатак који се препушта рачунару. Међутим, узорковање је користан алат за разумевање података и омогућава нам боље разумевање онога што се налази у скупу података и шта он представља. Уз узорак, можете применити вероватноћу и статистику да бисте дошли до неких општих закључака о вашим подацима. Иако не постоји дефинисано правило о томе колико података треба узорковати, важно је напоменути да што више података узоркујете, то прецизнију генерализацију можете направити о подацима. Pandas има функцију [`sample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) у својој библиотеци, где можете проследити аргумент о томе колико насумичних узорака желите да добијете и користите. Општи упити о подацима могу вам помоћи да одговорите на нека општа питања и теорије које можда имате. За разлику од узорковања, упити вам омогућавају да имате контролу и фокус на одређене делове података о којима имате питања. Функција [`query()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) у библиотеци Pandas омогућава вам да изаберете колоне и добијете једноставне одговоре о подацима кроз редове који се добијају. ## Истраживање кроз визуализације Не морате чекати да подаци буду темељно очишћени и анализирани да бисте почели да креирате визуализације. У ствари, имање визуелног приказа током истраживања може помоћи у идентификовању образаца, односа и проблема у подацима. Штавише, визуализације пружају начин комуникације са онима који нису укључени у управљање подацима и могу бити прилика за дељење и разјашњавање додатних питања која нису обрађена у фази прикупљања. Погледајте [секцију о визуализацијама](../../../../../../../../../3-Data-Visualization) да бисте сазнали више о неким популарним начинима истраживања кроз визуализације. ## Истраживање ради идентификовања недоследности Све теме у овој лекцији могу помоћи у идентификовању недостајућих или недоследних вредности, али Pandas пружа функције за проверу неких од њих. [isna() или isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) могу проверити недостајуће вредности. Један важан аспект истраживања ових вредности у вашим подацима је истраживање зашто су оне уопште настале. Ово вам може помоћи да одлучите које [акције треба предузети да их решите](/2-Working-With-Data/08-data-preparation/notebook.ipynb). ## [Квиз пре предавања](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27) ## Задатак [Истраживање за одговоре](assignment.md) --- **Одрицање од одговорности**: Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако се трудимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода.