10 KiB
Жизненный цикл Data Science: Анализ
![]() |
---|
Жизненный цикл Data Science: Анализ - Скетчноут от @nitya |
Тест перед лекцией
Анализ в жизненном цикле данных подтверждает, что данные могут ответить на поставленные вопросы или решить конкретную проблему. Этот этап также может быть направлен на подтверждение того, что модель правильно решает эти вопросы и проблемы. Этот урок посвящен исследовательскому анализу данных (Exploratory Data Analysis, EDA), который включает техники для определения характеристик и взаимосвязей в данных и может быть использован для подготовки данных к моделированию.
Мы будем использовать пример набора данных с Kaggle, чтобы показать, как это можно применить с помощью Python и библиотеки Pandas. Этот набор данных содержит количество некоторых распространенных слов, встречающихся в электронных письмах, источники которых анонимны. Используйте ноутбук в этой директории, чтобы следовать за примером.
Исследовательский анализ данных
Этап сбора данных в жизненном цикле включает получение данных, а также постановку задач и вопросов, но как понять, что данные могут помочь достичь конечного результата?
Напомним, что специалист по данным может задавать следующие вопросы при получении данных:
- Достаточно ли у меня данных для решения этой задачи?
- Соответствует ли качество данных требованиям этой задачи?
- Если я обнаружу дополнительную информацию в этих данных, стоит ли пересмотреть или переопределить цели?
Исследовательский анализ данных — это процесс изучения данных, который может помочь ответить на эти вопросы, а также выявить сложности работы с набором данных. Давайте сосредоточимся на некоторых техниках, которые используются для достижения этих целей.
Профилирование данных, описательная статистика и Pandas
Как оценить, достаточно ли у нас данных для решения задачи? Профилирование данных позволяет обобщить и собрать общую информацию о наборе данных с помощью методов описательной статистики. Профилирование данных помогает понять, что у нас есть, а описательная статистика — сколько у нас этого есть.
В нескольких предыдущих уроках мы использовали Pandas для предоставления описательной статистики с помощью функции describe()
. Она предоставляет количество, максимальные и минимальные значения, среднее, стандартное отклонение и квантили для числовых данных. Использование описательной статистики, такой как функция describe()
, может помочь вам оценить, сколько данных у вас есть, и нужно ли больше.
Выборка и запросы
Изучение всего большого набора данных может занять много времени и обычно поручается компьютеру. Однако выборка — это полезный инструмент для понимания данных, который позволяет лучше понять, что содержится в наборе данных и что он представляет. С помощью выборки вы можете применять вероятностные методы и статистику, чтобы сделать общие выводы о данных. Хотя нет строгого правила о том, сколько данных следует выбирать, важно помнить, что чем больше данных вы выбираете, тем точнее можно сделать обобщение.
В библиотеке Pandas есть функция sample()
, где вы можете указать, сколько случайных выборок вы хотите получить и использовать.
Общие запросы к данным могут помочь вам ответить на некоторые общие вопросы и гипотезы. В отличие от выборки, запросы позволяют вам сосредоточиться на конкретных частях данных, которые вас интересуют.
Функция query()
в библиотеке Pandas позволяет выбирать столбцы и получать простые ответы о данных через извлеченные строки.
Исследование с помощью визуализаций
Не обязательно ждать, пока данные будут полностью очищены и проанализированы, чтобы начать создавать визуализации. На самом деле, наличие визуального представления во время исследования может помочь выявить закономерности, взаимосвязи и проблемы в данных. Более того, визуализации предоставляют способ общения с теми, кто не участвует в управлении данными, и могут стать возможностью поделиться и уточнить дополнительные вопросы, которые не были рассмотрены на этапе сбора данных. Обратитесь к разделу о визуализациях, чтобы узнать больше о популярных способах визуального исследования.
Исследование для выявления несоответствий
Все темы этого урока могут помочь выявить пропущенные или несоответствующие значения, но Pandas предоставляет функции для проверки некоторых из них. isna() или isnull() могут проверить наличие пропущенных значений. Важным аспектом исследования таких значений в ваших данных является выяснение причин их появления. Это может помочь вам решить, какие действия предпринять для их устранения.
Тест после лекции
Задание
Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.