You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ru/1-Introduction/03-defining-data/README.md

16 KiB

Определение данных

 Скетчноут от (@sketchthedocs)
Определение данных - Скетчноут от @nitya

Данные — это факты, информация, наблюдения и измерения, которые используются для открытия новых знаний и поддержки обоснованных решений. Точка данных — это единичная единица данных в наборе данных, который представляет собой коллекцию таких точек. Наборы данных могут быть представлены в различных форматах и структурах, которые обычно зависят от их источника, то есть от того, откуда они поступили. Например, ежемесячный доход компании может быть представлен в виде таблицы, а данные о частоте сердечных сокращений, полученные со смарт-часов, могут быть в формате JSON. Для специалистов по данным часто является нормой работать с разными типами данных в рамках одного набора данных.

Этот урок посвящен определению и классификации данных по их характеристикам и источникам.

Тест перед лекцией

Как описываются данные

Сырые данные

Сырые данные — это данные, поступившие из источника в их первоначальном виде, которые еще не были проанализированы или организованы. Чтобы понять, что происходит с набором данных, его необходимо организовать в формат, который будет понятен как людям, так и технологиям, используемым для дальнейшего анализа. Структура набора данных описывает, как он организован, и может быть классифицирована как структурированная, неструктурированная и полуструктурированная. Эти типы структур зависят от источника, но в конечном итоге укладываются в одну из трех категорий.

Количественные данные

Количественные данные — это числовые наблюдения в наборе данных, которые обычно можно анализировать, измерять и использовать математически. Примеры количественных данных: численность населения страны, рост человека или квартальная прибыль компании. С помощью дополнительного анализа количественные данные могут быть использованы для выявления сезонных тенденций индекса качества воздуха (AQI) или оценки вероятности пробок в час пик в обычный рабочий день.

Качественные данные

Качественные данные, также известные как категориальные данные, — это данные, которые нельзя измерить объективно, как количественные наблюдения. Это, как правило, различные форматы субъективных данных, которые фиксируют качество чего-либо, например продукта или процесса. Иногда качественные данные могут быть числовыми, но не использоваться в математических расчетах, например, телефонные номера или временные метки. Примеры качественных данных: комментарии к видео, марка и модель автомобиля или любимый цвет ваших близких друзей. Качественные данные могут быть использованы для понимания, какие продукты больше всего нравятся потребителям, или для выявления популярных ключевых слов в резюме соискателей.

Структурированные данные

Структурированные данные организованы в виде строк и столбцов, где каждая строка имеет одинаковый набор столбцов. Столбцы представляют собой значения определенного типа и обозначаются именем, описывающим, что представляет это значение, а строки содержат сами значения. Часто на столбцы накладываются определенные правила или ограничения, чтобы гарантировать, что значения точно соответствуют их описанию. Например, представьте таблицу клиентов, где каждая строка должна содержать номер телефона, а номера телефонов не могут содержать буквенные символы. На столбец с номерами телефонов могут быть наложены правила, чтобы он никогда не оставался пустым и содержал только цифры.

Преимущество структурированных данных заключается в том, что их можно организовать таким образом, чтобы они были связаны с другими структурированными данными. Однако из-за того, что данные организованы строго определенным образом, внесение изменений в их общую структуру может потребовать значительных усилий. Например, добавление столбца с адресами электронной почты в таблицу клиентов, где этот столбец не может быть пустым, потребует решения, как заполнить значения для уже существующих строк.

Примеры структурированных данных: таблицы, реляционные базы данных, номера телефонов, банковские выписки.

Неструктурированные данные

Неструктурированные данные обычно не могут быть организованы в строки и столбцы и не имеют фиксированного формата или набора правил. Из-за меньших ограничений на структуру неструктурированных данных добавление новой информации в них проще по сравнению со структурированными наборами данных. Например, если датчик, измеряющий барометрическое давление каждые 2 минуты, получил обновление, позволяющее ему также измерять температуру, это не потребует изменения существующих данных, если они неструктурированы. Однако анализ или исследование таких данных может занять больше времени. Например, ученый, который хочет найти среднюю температуру за прошлый месяц по данным датчика, может обнаружить, что датчик записал "e" в некоторых данных, чтобы указать на неисправность, вместо типичного числового значения, что делает данные неполными.

Примеры неструктурированных данных: текстовые файлы, текстовые сообщения, видеофайлы.

Полуструктурированные данные

Полуструктурированные данные сочетают в себе черты структурированных и неструктурированных данных. Они обычно не соответствуют формату строк и столбцов, но организованы таким образом, который считается структурированным, и могут следовать фиксированному формату или набору правил. Структура может варьироваться от четко определенной иерархии до более гибкой, позволяющей легко интегрировать новую информацию. Метаданные — это индикаторы, которые помогают определить, как данные организованы и хранятся, и имеют различные названия в зависимости от типа данных. Некоторые распространенные названия для метаданных: теги, элементы, сущности и атрибуты. Например, типичное электронное письмо будет содержать тему, текст и список получателей и может быть организовано по отправителю или времени отправки.

Примеры полуструктурированных данных: HTML, файлы CSV, JavaScript Object Notation (JSON).

Источники данных

Источник данных — это начальное место, где данные были сгенерированы или где они "хранятся", и оно может варьироваться в зависимости от того, как и когда данные были собраны. Данные, сгенерированные их пользователями, называются первичными данными, тогда как вторичные данные поступают из источника, который собирал данные для общего использования. Например, группа ученых, собирающих наблюдения в тропическом лесу, будет считаться первичным источником, а если они решат поделиться этими данными с другими учеными, то для последних это будет вторичный источник.

Базы данных являются распространенным источником данных и полагаются на системы управления базами данных для их хранения и обслуживания, где пользователи используют команды, называемые запросами, для исследования данных. Файлы как источники данных могут быть аудио-, видеофайлами, изображениями, а также таблицами, такими как Excel. Интернет-источники — это распространенное место для хранения данных, где можно найти как базы данных, так и файлы. Интерфейсы прикладного программирования (API) позволяют программистам создавать способы обмена данными с внешними пользователями через интернет, а процесс веб-скрейпинга извлекает данные с веб-страниц. Уроки в разделе "Работа с данными" посвящены использованию различных источников данных.

Заключение

В этом уроке мы узнали:

  • Что такое данные
  • Как описываются данные
  • Как классифицируются и категоризируются данные
  • Где можно найти данные

🚀 Задание

Kaggle — отличный источник открытых наборов данных. Используйте инструмент поиска наборов данных, чтобы найти несколько интересных наборов данных и классифицировать 3-5 из них по следующим критериям:

  • Являются ли данные количественными или качественными?
  • Являются ли данные структурированными, неструктурированными или полуструктурированными?

Тест после лекции

Обзор и самостоятельное изучение

  • Этот модуль Microsoft Learn под названием Классификация данных подробно описывает структурированные, полуструктурированные и неструктурированные данные.

Задание

Классификация наборов данных


Отказ от ответственности:
Этот документ был переведен с использованием сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.