You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ru/4-Data-Science-Lifecycle/15-analyzing
leestott e2b90108bb
🌐 Update translations via Co-op Translator
4 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago

README.md

Жизненный цикл Data Science: Анализ

 Скетчноут от (@sketchthedocs)
Жизненный цикл Data Science: Анализ - Скетчноут от @nitya

Предлекционный тест

Предлекционный тест

Анализ в жизненном цикле данных подтверждает, что данные могут ответить на поставленные вопросы или решить конкретную проблему. Этот этап также может быть направлен на подтверждение того, что модель правильно решает эти вопросы и проблемы. Этот урок посвящен разведочному анализу данных (Exploratory Data Analysis, EDA), который включает техники для определения характеристик и взаимосвязей в данных и может быть использован для подготовки данных к моделированию.

Мы будем использовать пример набора данных с Kaggle, чтобы показать, как это можно применить с помощью Python и библиотеки Pandas. Этот набор данных содержит количество некоторых распространенных слов, найденных в электронных письмах, источники которых анонимны. Используйте ноутбук в этом каталоге, чтобы следовать за материалом.

Разведочный анализ данных

Этап сбора данных в жизненном цикле включает получение данных, а также определение проблем и вопросов, но как мы можем быть уверены, что данные помогут достичь конечного результата? Напомним, что специалист по данным может задавать следующие вопросы при получении данных:

  • Достаточно ли у меня данных для решения этой проблемы?
  • Соответствует ли качество данных требованиям для решения этой проблемы?
  • Если я обнаружу дополнительную информацию через эти данные, стоит ли пересмотреть или переопределить цели?

Разведочный анализ данных — это процесс знакомства с данными, который может помочь ответить на эти вопросы, а также выявить сложности работы с набором данных. Давайте сосредоточимся на некоторых техниках, используемых для достижения этих целей.

Профилирование данных, описательная статистика и Pandas

Как мы можем оценить, достаточно ли у нас данных для решения проблемы? Профилирование данных может обобщить и собрать общую информацию о нашем наборе данных с помощью методов описательной статистики. Профилирование данных помогает понять, что у нас есть, а описательная статистика — сколько у нас есть.

В нескольких предыдущих уроках мы использовали Pandas для предоставления описательной статистики с помощью функции describe(). Она предоставляет количество, максимальные и минимальные значения, среднее, стандартное отклонение и квартили для числовых данных. Использование описательной статистики, такой как функция describe(), может помочь вам оценить, сколько данных у вас есть и нужно ли больше.

Выборка и запросы

Исследование всего большого набора данных может быть очень трудоемким и обычно поручается компьютеру. Однако выборка — это полезный инструмент для понимания данных, который позволяет лучше понять, что содержится в наборе данных и что он представляет. С помощью выборки можно применять теорию вероятностей и статистику, чтобы сделать общие выводы о данных. Хотя нет строгого правила о том, сколько данных следует выбирать, важно помнить, что чем больше данных вы выбираете, тем точнее будут ваши обобщения.

В библиотеке Pandas есть функция sample(), где вы можете указать, сколько случайных выборок вы хотите получить и использовать.

Общие запросы к данным могут помочь ответить на некоторые общие вопросы и гипотезы, которые у вас есть. В отличие от выборки, запросы позволяют вам сосредоточиться на конкретных частях данных, которые вас интересуют. Функция query() в библиотеке Pandas позволяет выбирать столбцы и получать простые ответы о данных через извлеченные строки.

Исследование с помощью визуализаций

Не обязательно ждать, пока данные будут полностью очищены и проанализированы, чтобы начать создавать визуализации. На самом деле, наличие визуального представления во время исследования может помочь выявить закономерности, взаимосвязи и проблемы в данных. Более того, визуализации предоставляют способ общения с теми, кто не участвует в управлении данными, и могут стать возможностью поделиться и уточнить дополнительные вопросы, которые не были рассмотрены на этапе сбора. Обратитесь к разделу о визуализациях, чтобы узнать больше о популярных способах исследования данных визуально.

Исследование для выявления несоответствий

Все темы этого урока могут помочь выявить отсутствующие или несоответствующие значения, но Pandas предоставляет функции для проверки некоторых из них. isna() или isnull() могут проверить наличие пропущенных значений. Важным аспектом исследования этих значений в ваших данных является выяснение причин, по которым они оказались такими. Это может помочь вам решить, какие действия предпринять для их устранения.

Предлекционный тест

Задание

Исследование для ответов


Отказ от ответственности:
Этот документ был переведен с использованием сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия обеспечить точность, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.