11 KiB
Жизнен цикъл на науката за данни: Анализиране
![]() |
---|
Жизнен цикъл на науката за данни: Анализиране - Скицнота от @nitya |
Предварителен тест
Предварителен тест
Анализирането в жизнения цикъл на данните потвърждава, че данните могат да отговорят на зададените въпроси или да решат конкретен проблем. Тази стъпка също така се фокусира върху потвърждаването, че моделът правилно адресира тези въпроси и проблеми. Този урок е посветен на Експлораторния анализ на данни (EDA), който включва техники за дефиниране на характеристики и връзки в данните и може да се използва за подготовка на данните за моделиране.
Ще използваме примерен набор от данни от Kaggle, за да покажем как това може да се приложи с Python и библиотеката Pandas. Този набор от данни съдържа броя на някои често срещани думи, открити в имейли, като източниците на тези имейли са анонимни. Използвайте тетрадката в тази директория, за да следвате урока.
Експлораторен анализ на данни
Фазата на събиране в жизнения цикъл е мястото, където се придобиват данните, както и проблемите и въпросите, които трябва да се решат. Но как можем да сме сигурни, че данните могат да подкрепят крайния резултат? Припомнете си, че учените по данни могат да зададат следните въпроси, когато придобиват данни:
- Имам ли достатъчно данни, за да реша този проблем?
- Данните с достатъчно добро качество ли са за този проблем?
- Ако открия допълнителна информация чрез тези данни, трябва ли да обмислим промяна или преформулиране на целите? Експлораторният анализ на данни е процесът на опознаване на данните и може да се използва за отговор на тези въпроси, както и за идентифициране на предизвикателствата при работа с набора от данни. Нека се фокусираме върху някои от техниките, използвани за постигане на това.
Профилиране на данни, описателна статистика и Pandas
Как можем да оценим дали имаме достатъчно данни, за да решим този проблем? Профилирането на данни може да обобщи и събере обща информация за нашия набор от данни чрез техники на описателната статистика. Профилирането на данни ни помага да разберем какво е налично за нас, а описателната статистика ни помага да разберем колко неща са налични.
В някои от предишните уроци използвахме Pandas, за да предоставим описателна статистика с функцията describe()
. Тя предоставя броя, максималните и минималните стойности, средната стойност, стандартното отклонение и квантилите за числовите данни. Използването на описателна статистика като функцията describe()
може да ви помогне да оцените колко данни имате и дали се нуждаете от повече.
Извадки и заявки
Изследването на всичко в голям набор от данни може да бъде много времеемко и обикновено е задача, оставена на компютъра. Въпреки това, извадките са полезен инструмент за разбиране на данните и ни позволяват да имаме по-добро разбиране за това какво съдържа наборът от данни и какво представлява. С извадка можете да приложите вероятност и статистика, за да стигнете до някои общи заключения за вашите данни. Въпреки че няма определено правило за това колко данни трябва да извадите, важно е да отбележите, че колкото повече данни извадите, толкова по-прецизна ще бъде вашата обобщена представа за данните.
Pandas има функцията sample()
в своята библиотека, където можете да предадете аргумент за това колко случайни извадки искате да получите и използвате.
Общото задаване на заявки към данните може да ви помогне да отговорите на някои общи въпроси и теории, които може да имате. За разлика от извадките, заявките ви позволяват да имате контрол и да се фокусирате върху конкретни части от данните, за които имате въпроси.
Функцията query()
в библиотеката Pandas ви позволява да избирате колони и да получавате прости отговори за данните чрез извлечените редове.
Изследване с визуализации
Не е необходимо да чакате, докато данните бъдат напълно почистени и анализирани, за да започнете да създавате визуализации. Всъщност наличието на визуално представяне по време на изследването може да помогне за идентифициране на модели, връзки и проблеми в данните. Освен това визуализациите предоставят средство за комуникация с тези, които не са ангажирани с управлението на данните, и могат да бъдат възможност за споделяне и изясняване на допълнителни въпроси, които не са били адресирани в етапа на събиране. Вижте раздела за визуализации, за да научите повече за някои популярни начини за визуално изследване.
Изследване за идентифициране на несъответствия
Всички теми в този урок могат да помогнат за идентифициране на липсващи или несъответстващи стойности, но Pandas предоставя функции за проверка на някои от тях. isna() или isnull() могат да проверят за липсващи стойности. Важен аспект на изследването на тези стойности в данните ви е да разберете защо те са се оказали такива на първо място. Това може да ви помогне да решите какви действия да предприемете, за да ги разрешите.
Предварителен тест
Задача
Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.