|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.ipynb | 3 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
Життєвий цикл Data Science: Аналіз
![]() |
---|
Життєвий цикл Data Science: Аналіз - Скетчнот від @nitya |
Тест перед лекцією
Аналіз у життєвому циклі даних підтверджує, що дані можуть відповісти на поставлені запитання або вирішити конкретну проблему. Цей етап також може зосереджуватися на підтвердженні того, що модель правильно вирішує ці запитання та проблеми. Урок присвячений дослідницькому аналізу даних (EDA), який включає техніки для визначення характеристик і взаємозв’язків у даних, а також підготовки даних до моделювання.
Ми будемо використовувати приклад набору даних із Kaggle, щоб показати, як це можна застосувати за допомогою Python і бібліотеки Pandas. Цей набір даних містить кількість деяких поширених слів, знайдених у електронних листах, джерела яких є анонімними. Використовуйте ноутбук у цьому каталозі, щоб слідувати за матеріалом.
Дослідницький аналіз даних
Етап збору даних у життєвому циклі включає отримання даних, а також визначення проблем і запитань, але як ми можемо бути впевнені, що дані допоможуть досягти кінцевого результату? Нагадаємо, що дата-сайєнтист може ставити такі запитання, коли отримує дані:
- Чи достатньо у мене даних для вирішення цієї проблеми?
- Чи є дані прийнятної якості для цієї проблеми?
- Якщо я знайду додаткову інформацію через ці дані, чи варто нам розглянути зміну або переосмислення цілей? Дослідницький аналіз даних — це процес знайомства з даними, який може допомогти відповісти на ці запитання, а також визначити виклики, пов’язані з роботою з набором даних. Давайте зосередимося на деяких техніках, які використовуються для досягнення цього.
Профілювання даних, описова статистика та Pandas
Як ми можемо оцінити, чи достатньо у нас даних для вирішення проблеми? Профілювання даних може узагальнити та зібрати загальну інформацію про наш набір даних за допомогою технік описової статистики. Профілювання даних допомагає зрозуміти, що доступно нам, а описова статистика — скільки саме доступно.
У кількох попередніх уроках ми використовували Pandas для отримання описової статистики за допомогою функції describe()
. Вона надає кількість, максимальні та мінімальні значення, середнє, стандартне відхилення та квантилі для числових даних. Використання описової статистики, як-от функції describe()
, може допомогти оцінити, скільки даних у вас є і чи потрібно більше.
Вибірка та запити
Дослідження всього великого набору даних може зайняти багато часу і зазвичай виконується комп’ютером. Однак вибірка є корисним інструментом для розуміння даних і дозволяє краще зрозуміти, що міститься в наборі даних і що він представляє. Використовуючи вибірку, ви можете застосувати ймовірність і статистику, щоб зробити загальні висновки про ваші дані. Хоча немає визначеного правила щодо того, скільки даних слід вибирати, важливо зазначити, що чим більше даних ви вибираєте, тим точнішими будуть ваші узагальнення.
Pandas має функцію sample()
, де ви можете передати аргумент про кількість випадкових вибірок, які хочете отримати та використовувати.
Загальні запити до даних можуть допомогти відповісти на деякі загальні запитання та теорії, які у вас можуть бути. На відміну від вибірки, запити дозволяють вам контролювати та зосереджуватися на конкретних частинах даних, які вас цікавлять.
Функція query()
у бібліотеці Pandas дозволяє вибирати стовпці та отримувати прості відповіді про дані через отримані рядки.
Дослідження за допомогою візуалізацій
Вам не потрібно чекати, поки дані будуть повністю очищені та проаналізовані, щоб почати створювати візуалізації. Насправді, наявність візуального представлення під час дослідження може допомогти визначити шаблони, взаємозв’язки та проблеми в даних. Крім того, візуалізації забезпечують засіб комунікації з тими, хто не бере участі в управлінні даними, і можуть бути можливістю поділитися та уточнити додаткові запитання, які не були розглянуті на етапі збору. Зверніться до розділу про візуалізації, щоб дізнатися більше про популярні способи дослідження за допомогою візуалізацій.
Дослідження для виявлення невідповідностей
Усі теми цього уроку можуть допомогти виявити відсутні або некоректні значення, але Pandas надає функції для перевірки деяких із них. isna() або isnull() можуть перевіряти наявність відсутніх значень. Важливим аспектом дослідження цих значень у ваших даних є з’ясування, чому вони опинилися в такому стані. Це може допомогти вам вирішити, які дії слід вжити для їх усунення.
Тест після лекції
Завдання
Відмова від відповідальності:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу.