|
2 weeks ago | |
---|---|---|
.. | ||
solution | 3 weeks ago | |
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
Типы данных
Как мы уже упоминали, данные находятся повсюду. Нам просто нужно правильно их зафиксировать! Полезно различать структурированные и неструктурированные данные. Первые обычно представлены в хорошо организованной форме, часто в виде таблицы или нескольких таблиц, тогда как вторые — это просто набор файлов. Иногда также можно говорить о полуструктурированных данных, которые имеют некоторую структуру, но она может значительно варьироваться.
Структурированные | Полуструктурированные | Неструктурированные |
---|---|---|
Список людей с их номерами телефонов | Страницы Википедии с ссылками | Текст Энциклопедии Британника |
Температура во всех комнатах здания каждую минуту за последние 20 лет | Коллекция научных статей в формате JSON с авторами, датой публикации и аннотацией | Файловое хранилище с корпоративными документами |
Данные о возрасте и поле всех людей, входящих в здание | Интернет-страницы | Сырой видеопоток с камеры наблюдения |
Где взять данные
Существует множество источников данных, и перечислить их все невозможно! Однако давайте упомянем некоторые типичные места, где можно получить данные:
- Структурированные
- Интернет вещей (IoT), включая данные от различных датчиков, таких как датчики температуры или давления, предоставляет множество полезных данных. Например, если офисное здание оснащено IoT-датчиками, мы можем автоматически контролировать отопление и освещение, чтобы минимизировать расходы.
- Опросы, которые мы просим пользователей заполнить после покупки или посещения веб-сайта.
- Анализ поведения может, например, помочь понять, насколько глубоко пользователь изучает сайт и какова типичная причина его ухода.
- Неструктурированные
- Тексты могут быть богатым источником информации, например, общего оценочного настроения или извлечения ключевых слов и семантического значения.
- Изображения или видео. Видео с камеры наблюдения может быть использовано для оценки дорожного трафика и информирования людей о возможных пробках.
- Логи веб-сервера могут помочь понять, какие страницы нашего сайта посещаются чаще всего и как долго.
- Полуструктурированные
- Графы социальных сетей могут быть отличным источником данных о личностях пользователей и их потенциальной эффективности в распространении информации.
- Если у нас есть множество фотографий с вечеринки, мы можем попытаться извлечь данные о групповой динамике, построив граф людей, фотографирующихся друг с другом.
Зная различные возможные источники данных, вы можете подумать о различных сценариях, где методы науки о данных могут быть применены для лучшего понимания ситуации и улучшения бизнес-процессов.
Что можно делать с данными
В науке о данных мы сосредотачиваемся на следующих этапах работы с данными:
Оцифровка и цифровая трансформация
За последнее десятилетие многие компании начали осознавать важность данных при принятии бизнес-решений. Чтобы применять принципы науки о данных к ведению бизнеса, сначала нужно собрать данные, то есть перевести бизнес-процессы в цифровую форму. Это называется оцифровкой. Применение методов науки о данных к этим данным для принятия решений может привести к значительному росту производительности (или даже к изменению направления бизнеса), что называется цифровой трансформацией.
Рассмотрим пример. Допустим, у нас есть курс по науке о данных (как этот), который мы проводим онлайн для студентов, и мы хотим использовать науку о данных для его улучшения. Как это можно сделать?
Мы можем начать с вопроса: "Что можно оцифровать?" Самый простой способ — измерить время, которое требуется каждому студенту для завершения каждого модуля, и оценить полученные знания, предложив тест с выбором ответа в конце каждого модуля. Усреднив время завершения по всем студентам, мы можем выяснить, какие модули вызывают наибольшие трудности, и работать над их упрощением. Вы можете возразить, что этот подход не идеален, поскольку модули могут быть разной длины. Возможно, более справедливо разделить время на длину модуля (в количестве символов) и сравнивать эти значения вместо этого. Когда мы начинаем анализировать результаты тестов с выбором ответа, мы можем попытаться определить, какие концепции вызывают трудности у студентов, и использовать эту информацию для улучшения содержания. Для этого необходимо разрабатывать тесты таким образом, чтобы каждый вопрос соответствовал определенной концепции или блоку знаний.
Если мы хотим усложнить задачу, мы можем сопоставить время, затраченное на каждый модуль, с возрастной категорией студентов. Возможно, мы обнаружим, что для некоторых возрастных категорий прохождение модуля занимает неоправданно много времени или что студенты бросают его, не завершив. Это может помочь нам дать возрастные рекомендации для модуля и минимизировать недовольство людей из-за неверных ожиданий.
🚀 Задание
В этом задании мы попробуем найти концепции, связанные с областью Data Science, анализируя тексты. Мы возьмем статью из Википедии о Data Science, загрузим и обработаем текст, а затем создадим облако слов, похожее на это:
Посетите notebook.ipynb
, чтобы ознакомиться с кодом. Вы также можете запустить код и увидеть, как он выполняет все преобразования данных в реальном времени.
Если вы не знаете, как запускать код в Jupyter Notebook, ознакомьтесь с этой статьей.
Викторина после лекции
Задания
- Задача 1: Измените приведенный выше код, чтобы найти связанные концепции для областей Big Data и Machine Learning.
- Задача 2: Подумайте о сценариях Data Science
Благодарности
Этот урок был создан с ♥️ Дмитрием Сошниковым
Отказ от ответственности:
Этот документ был переведен с использованием сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода.