You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ru/1-Introduction/01-defining-data-science
localizeflow[bot] 5f2e36d0d3
chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)
1 month ago
..
solution chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
notebook.ipynb 🌐 Update translations via Co-op Translator 6 months ago

README.md

Определение науки о данных

Скетчноут от (@sketchthedocs)
Определение науки о данных - Скетчноут от @nitya

Видео: Определение науки о данных

Тест перед лекцией

Что такое данные?

В нашей повседневной жизни мы постоянно окружены данными. Текст, который вы сейчас читаете, — это данные. Список телефонных номеров ваших друзей в смартфоне — это данные, как и текущее время, отображаемое на ваших часах. Как люди, мы естественным образом работаем с данными, подсчитывая деньги или пишем письма друзьям.

Однако данные стали гораздо более важными с появлением компьютеров. Основная роль компьютеров — выполнять вычисления, но для этого им нужны данные. Поэтому нам нужно понять, как компьютеры хранят и обрабатывают данные.

С появлением Интернета роль компьютеров как устройств для обработки данных значительно возросла. Если задуматься, мы все чаще используем компьютеры для обработки и передачи данных, а не для выполнения вычислений. Когда мы пишем электронное письмо другу или ищем информацию в Интернете, мы фактически создаем, храним, передаем и обрабатываем данные.

Можете ли вы вспомнить, когда в последний раз использовали компьютер для выполнения реальных вычислений?

Что такое наука о данных?

В Википедии наука о данных определяется как научная область, использующая научные методы для извлечения знаний и инсайтов из структурированных и неструктурированных данных, а также для применения знаний и практических выводов из данных в широком спектре областей применения.

Это определение подчеркивает следующие важные аспекты науки о данных:

  • Основная цель науки о данных — извлечение знаний из данных, другими словами — понимание данных, поиск скрытых взаимосвязей и построение модели.
  • Наука о данных использует научные методы, такие как теория вероятностей и статистика. На самом деле, когда термин наука о данных впервые появился, некоторые утверждали, что это просто новое модное название для статистики. Сегодня стало очевидно, что эта область гораздо шире.
  • Полученные знания должны быть применены для получения практических инсайтов, то есть полезных выводов, которые можно использовать в реальных бизнес-ситуациях.
  • Мы должны уметь работать как с структурированными, так и с неструктурированными данными. Мы вернемся к обсуждению различных типов данных позже в курсе.
  • Область применения — важное понятие, и специалистам по данным часто требуется хотя бы базовое понимание предметной области, например: финансы, медицина, маркетинг и т.д.

Еще один важный аспект науки о данных — изучение того, как данные могут быть собраны, сохранены и обработаны с помощью компьютеров. Хотя статистика дает нам математические основы, наука о данных применяет математические концепции для извлечения инсайтов из данных.

Один из подходов (приписываемый Джиму Грею) к пониманию науки о данных — рассматривать ее как отдельную парадигму науки:

  • Эмпирическая, в которой мы в основном опираемся на наблюдения и результаты экспериментов.
  • Теоретическая, где новые концепции возникают из существующих научных знаний.
  • Вычислительная, где мы открываем новые принципы на основе вычислительных экспериментов.
  • Данные-ориентированная, основанная на выявлении взаимосвязей и закономерностей в данных.

Другие смежные области

Поскольку данные повсеместны, сама наука о данных также является широкой областью, затрагивающей многие другие дисциплины.

Базы данных
Ключевым моментом является хранение данных, то есть их структурирование для более быстрого процесса обработки. Существуют различные типы баз данных, которые хранят структурированные и неструктурированные данные, которые мы рассмотрим в нашем курсе.
Большие данные
Часто нам нужно хранить и обрабатывать очень большие объемы данных с относительно простой структурой. Существуют специальные подходы и инструменты для распределенного хранения таких данных на кластере компьютеров и их эффективной обработки.
Машинное обучение
Один из способов понять данные — это построить модель, которая сможет предсказывать желаемый результат. Разработка моделей на основе данных называется машинным обучением. Вы можете ознакомиться с нашим Курсом для начинающих по машинному обучению, чтобы узнать больше.
Искусственный интеллект
Область машинного обучения, известная как искусственный интеллект (ИИ), также опирается на данные и включает создание сложных моделей, имитирующих процессы мышления человека. Методы ИИ часто позволяют преобразовывать неструктурированные данные (например, естественный язык) в структурированные инсайты.
Визуализация
Огромные объемы данных непостижимы для человека, но как только мы создаем полезные визуализации на основе этих данных, мы можем лучше их понять и сделать выводы. Поэтому важно знать множество способов визуализации информации — то, что мы рассмотрим в разделе 3 нашего курса. Смежные области также включают инфографику и взаимодействие человека с компьютером в целом.

Типы данных

Как мы уже упоминали, данные повсюду. Нам просто нужно правильно их зафиксировать! Полезно различать структурированные и неструктурированные данные. Первые обычно представлены в хорошо структурированном виде, часто в виде таблицы или нескольких таблиц, тогда как вторые — это просто набор файлов. Иногда также можно говорить о полуструктурированных данных, которые имеют некоторую структуру, но она может значительно варьироваться.

Структурированные Полуструктурированные Неструктурированные
Список людей с их номерами телефонов Страницы Википедии с ссылками Текст Энциклопедии Британика
Температура во всех комнатах здания каждую минуту за последние 20 лет Коллекция научных статей в формате JSON с авторами, датой публикации и аннотацией Файловое хранилище с корпоративными документами
Данные о возрасте и поле всех людей, входящих в здание Интернет-страницы Сырой видеопоток с камеры наблюдения

Где взять данные

Существует множество возможных источников данных, и перечислить их все невозможно! Однако давайте упомянем некоторые типичные места, где можно получить данные:

  • Структурированные
    • Интернет вещей (IoT), включая данные с различных датчиков, таких как датчики температуры или давления, предоставляет множество полезных данных. Например, если офисное здание оснащено IoT-датчиками, мы можем автоматически управлять отоплением и освещением, чтобы минимизировать расходы.
    • Опросы, которые мы просим пользователей заполнить после покупки или посещения веб-сайта.
    • Анализ поведения может, например, помочь нам понять, насколько глубоко пользователь изучает сайт и каковы типичные причины его ухода.
  • Неструктурированные
    • Тексты могут быть богатым источником инсайтов, таких как общий индекс настроения или извлечение ключевых слов и семантического значения.
    • Изображения или видео. Видео с камеры наблюдения может быть использовано для оценки дорожного трафика и информирования людей о возможных пробках.
    • Логи веб-сервера могут быть использованы для понимания, какие страницы нашего сайта посещаются чаще всего и как долго.
  • Полуструктурированные
    • Графы социальных сетей могут быть отличным источником данных о личностях пользователей и потенциальной эффективности распространения информации.
    • Если у нас есть множество фотографий с вечеринки, мы можем попытаться извлечь данные о групповой динамике, построив график людей, фотографирующихся друг с другом.

Зная различные возможные источники данных, вы можете подумать о различных сценариях, где можно применить методы науки о данных, чтобы лучше понять ситуацию и улучшить бизнес-процессы.

Что можно делать с данными

В науке о данных мы сосредотачиваемся на следующих этапах работы с данными:

1) Сбор данных
Первым шагом является сбор данных. Во многих случаях это может быть простой процесс, например, данные поступают в базу данных из веб-приложения, но иногда нам нужно использовать специальные методы. Например, данные с IoT-датчиков могут быть слишком объемными, и хорошей практикой является использование промежуточных точек сбора данных, таких как IoT Hub, для их предварительного накопления перед дальнейшей обработкой.
2) Хранение данных
Хранение данных может быть сложной задачей, особенно если речь идет о больших данных. При принятии решения о способе хранения данных имеет смысл предвидеть, как вы хотите запрашивать данные в будущем. Существует несколько способов хранения данных:
  • Реляционная база данных хранит коллекцию таблиц и использует специальный язык, называемый SQL, для их запросов. Обычно таблицы организованы в различные группы, называемые схемами. Во многих случаях нам нужно преобразовать данные из их исходной формы, чтобы они соответствовали схеме.
  • NoSQL-база данных, такая как CosmosDB, не требует строгих схем для данных и позволяет хранить более сложные данные, например, иерархические JSON-документы или графы. Однако NoSQL-базы данных не обладают такими богатыми возможностями запросов, как SQL, и не могут обеспечивать целостность ссылок, то есть правила структуры данных в таблицах и их взаимосвязей.
  • Хранилище данных используется для больших коллекций данных в сыром, неструктурированном виде. Хранилища данных часто используются для больших данных, которые не могут поместиться на одной машине и должны храниться и обрабатываться кластером серверов. Parquet — это формат данных, который часто используется в сочетании с большими данными.
3) Обработка данных
Это самая увлекательная часть работы с данными, которая включает преобразование данных из их исходной формы в форму, пригодную для визуализации или обучения модели. При работе с неструктурированными данными, такими как текст или изображения, нам может понадобиться использовать некоторые методы ИИ для извлечения характеристик из данных, тем самым преобразуя их в структурированную форму.
4) Визуализация / Человеческие инсайты
Часто, чтобы понять данные, их нужно визуализировать. Имея множество различных методов визуализации в своем арсенале, мы можем найти подходящий способ представления данных для получения инсайтов. Часто специалисту по данным нужно "играть с данными", многократно визуализируя их и ища взаимосвязи. Также мы можем использовать статистические методы для проверки гипотез или доказательства корреляции между различными частями данных.
5) Обучение предсказательной модели
Поскольку конечная цель науки о данных — принимать решения на основе данных, мы можем использовать методы машинного обучения для построения предсказательной модели. Затем мы можем использовать эту модель для прогнозирования на основе новых наборов данных с аналогичной структурой.

Конечно, в зависимости от конкретных данных некоторые этапы могут отсутствовать (например, если данные уже находятся в базе данных или если обучение модели не требуется), или некоторые этапы могут повторяться несколько раз (например, обработка данных).

Цифровизация и цифровая трансформация

За последнее десятилетие многие компании начали осознавать важность данных при принятии бизнес-решений. Чтобы применить принципы науки о данных к управлению бизнесом, сначала необходимо собрать данные, то есть перевести бизнес-процессы в цифровую форму. Это называется цифровизацией. Применение методов науки о данных к этим данным для принятия решений может привести к значительному увеличению производительности (или даже к изменению направления бизнеса), что называется цифровой трансформацией.

Рассмотрим пример. Предположим, у нас есть курс по науке о данных (как этот), который мы проводим онлайн для студентов, и мы хотим использовать науку о данных для его улучшения. Как мы можем это сделать?

Мы можем начать с вопроса: "Что можно оцифровать?" Самый простой способ — измерить время, которое каждый студент тратит на выполнение каждого модуля, и оценить полученные знания, предложив тест с выбором ответа в конце каждого модуля. Усреднив время выполнения среди всех студентов, мы можем выяснить, какие модули вызывают наибольшие трудности, и поработать над их упрощением.

Вы можете возразить, что этот подход не идеален, так как модули могут быть разной длины. Возможно, более справедливо будет разделить время на длину модуля (в количестве символов) и сравнить эти значения.

Когда мы начинаем анализировать результаты тестов с выбором ответа, мы можем попытаться определить, какие концепции вызывают трудности у студентов, и использовать эту информацию для улучшения содержания. Для этого необходимо разработать тесты таким образом, чтобы каждый вопрос соответствовал определенной концепции или части знаний.

Если мы хотим усложнить задачу, мы можем построить график времени, затраченного на каждый модуль, в зависимости от возрастной категории студентов. Мы можем обнаружить, что для некоторых возрастных категорий выполнение модуля занимает неоправданно много времени или что студенты бросают его, не завершив. Это может помочь нам дать возрастные рекомендации для модуля и минимизировать неудовлетворенность людей из-за неверных ожиданий.

🚀 Задача

В этом задании мы попробуем найти концепции, связанные с областью Data Science, анализируя тексты. Мы возьмем статью из Википедии о Data Science, загрузим и обработаем текст, а затем создадим облако слов, похожее на это:

Облако слов для Data Science

Посетите notebook.ipynb, чтобы ознакомиться с кодом. Вы также можете запустить код и увидеть, как он выполняет все преобразования данных в реальном времени.

Если вы не знаете, как запускать код в Jupyter Notebook, ознакомьтесь с этой статьей.

Тест после лекции

Задания

Благодарности

Этот урок был создан с ♥️ Дмитрием Сошниковым


Отказ от ответственности:
Этот документ был переведен с использованием сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия обеспечить точность, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникающие в результате использования данного перевода.