You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ru/4-Data-Science-Lifecycle/14-Introduction
leestott 153371c81d
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Введение в жизненный цикл Data Science

 Скетчноут от (@sketchthedocs)
Введение в жизненный цикл Data Science - Скетчноут от @nitya

Тест перед лекцией

На данном этапе вы, вероятно, уже осознали, что Data Science — это процесс. Этот процесс можно разделить на 5 этапов:

  • Сбор данных
  • Обработка
  • Анализ
  • Коммуникация
  • Поддержка

Этот урок сосредоточен на трех частях жизненного цикла: сборе данных, обработке и поддержке.

Диаграмма жизненного цикла Data Science

Фото от Berkeley School of Information

Сбор данных

Первый этап жизненного цикла крайне важен, так как от него зависят все последующие этапы. По сути, это два этапа, объединенные в один: получение данных и определение цели и проблем, которые необходимо решить.
Определение целей проекта требует глубокого понимания контекста проблемы или вопроса. Сначала нужно выявить и привлечь тех, чью проблему необходимо решить. Это могут быть заинтересованные стороны бизнеса или спонсоры проекта, которые помогут определить, кто или что получит выгоду от проекта, а также что и почему им это нужно. Хорошо сформулированная цель должна быть измеримой и количественно определяемой, чтобы можно было установить приемлемый результат.

Вопросы, которые может задать специалист по данным:

  • Решалась ли эта проблема ранее? Что было обнаружено?
  • Понятны ли цель и задача всем участникам?
  • Есть ли неопределенность и как ее можно уменьшить?
  • Какие существуют ограничения?
  • Как может выглядеть конечный результат?
  • Сколько ресурсов (времени, людей, вычислительных мощностей) доступно?

Далее необходимо определить, собрать и изучить данные, которые потребуются для достижения поставленных целей. На этапе получения данных специалисты по данным также должны оценить их количество и качество. Это требует некоторого исследования данных, чтобы убедиться, что собранные данные помогут достичь желаемого результата.

Вопросы, которые может задать специалист по данным о данных:

  • Какие данные уже доступны мне?
  • Кто владеет этими данными?
  • Какие существуют проблемы конфиденциальности?
  • Достаточно ли данных для решения этой проблемы?
  • Соответствует ли качество данных требованиям задачи?
  • Если я обнаружу дополнительную информацию через эти данные, стоит ли пересмотреть или переопределить цели?

Обработка

Этап обработки в жизненном цикле сосредоточен на выявлении закономерностей в данных, а также на моделировании. Некоторые методы, используемые на этапе обработки, требуют применения статистических методов для выявления закономерностей. Обычно это была бы трудоемкая задача для человека при работе с большим набором данных, поэтому используются компьютеры для ускорения процесса. На этом этапе Data Science пересекается с машинным обучением. Как вы узнали в первом уроке, машинное обучение — это процесс создания моделей для понимания данных. Модели представляют собой отношения между переменными в данных, которые помогают предсказывать результаты.

Распространенные методы, используемые на этом этапе, подробно рассматриваются в учебной программе ML для начинающих. Ознакомьтесь с ними по ссылкам ниже:

  • Классификация: Организация данных в категории для более эффективного использования.
  • Кластеризация: Группировка данных в схожие группы.
  • Регрессия: Определение отношений между переменными для прогнозирования или предсказания значений.

Поддержка

На диаграмме жизненного цикла вы могли заметить, что поддержка находится между сбором данных и обработкой. Поддержка — это непрерывный процесс управления, хранения и защиты данных на протяжении всего проекта и должна учитываться на всех этапах проекта.

Хранение данных

Решения о том, как и где хранить данные, могут повлиять на стоимость их хранения, а также на производительность, например, скорость доступа к данным. Такие решения, скорее всего, не будут приниматься исключительно специалистом по данным, но он может столкнуться с выбором, как работать с данными в зависимости от их способа хранения.

Вот некоторые аспекты современных систем хранения данных, которые могут повлиять на эти решения:

Локальное хранение vs удаленное хранение vs публичное или частное облако

Локальное хранение подразумевает управление данными на собственном оборудовании, например, на сервере с жесткими дисками, где хранятся данные, тогда как удаленное хранение зависит от оборудования, которым вы не владеете, например, дата-центра. Публичное облако — популярный выбор для хранения данных, который не требует знания о том, как и где именно хранятся данные. Публичное облако подразумевает единую инфраструктуру, которая используется всеми пользователями облака. Некоторые организации имеют строгие политики безопасности, которые требуют полного доступа к оборудованию, где хранятся данные, и используют частное облако, предоставляющее собственные облачные услуги. Вы узнаете больше о данных в облаке в поздних уроках.

"Холодные" vs "горячие" данные

При обучении моделей может потребоваться больше данных для обучения. Если модель удовлетворяет вашим требованиям, новые данные будут поступать для выполнения ее задачи. В любом случае стоимость хранения и доступа к данным будет увеличиваться по мере их накопления. Разделение редко используемых данных, известных как "холодные", от часто используемых "горячих" данных может быть более дешевым вариантом хранения данных с помощью аппаратных или программных сервисов. Если потребуется доступ к "холодным" данным, их извлечение может занять немного больше времени по сравнению с "горячими" данными.

Управление данными

Работая с данными, вы можете обнаружить, что некоторые из них нуждаются в очистке с использованием методов, рассмотренных в уроке, посвященном подготовке данных, чтобы построить точные модели. Когда поступают новые данные, им потребуется применение тех же методов для поддержания качества. Некоторые проекты предполагают использование автоматизированных инструментов для очистки, агрегации и сжатия данных перед их перемещением в конечное место хранения. Примером такого инструмента является Azure Data Factory.

Защита данных

Одна из главных целей защиты данных — обеспечение того, чтобы те, кто с ними работает, контролировали, что собирается и в каком контексте используется. Защита данных включает ограничение доступа только для тех, кому он необходим, соблюдение местных законов и нормативов, а также поддержание этических стандартов, рассмотренных в уроке об этике.

Вот некоторые действия, которые команда может предпринять с учетом безопасности:

  • Убедиться, что все данные зашифрованы
  • Предоставить клиентам информацию о том, как используются их данные
  • Удалить доступ к данным у тех, кто покинул проект
  • Разрешить изменять данные только определенным участникам проекта

🚀 Задание

Существует множество версий жизненного цикла Data Science, где каждый этап может иметь разные названия и количество стадий, но будет включать те же процессы, упомянутые в этом уроке.

Изучите жизненный цикл процесса Team Data Science и стандартный процесс для анализа данных в различных отраслях (CRISP-DM). Назовите 3 сходства и различия между ними.

Процесс Team Data Science (TDSP) Стандартный процесс для анализа данных в различных отраслях (CRISP-DM)
Жизненный цикл Team Data Science Изображение процесса CRISP-DM
Изображение от Microsoft Изображение от Data Science Process Alliance

Тест после лекции

Обзор и самостоятельное изучение

Применение жизненного цикла Data Science включает множество ролей и задач, где некоторые могут сосредоточиться на определенных частях каждого этапа. Процесс Team Data Science предоставляет несколько ресурсов, которые объясняют типы ролей и задач, которые могут быть у участников проекта.

Задание

Оценка набора данных


Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.