You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ru/1-Introduction/03-defining-data/README.md

84 lines
16 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "12339119c0165da569a93ddba05f9339",
"translation_date": "2025-09-06T06:17:27+00:00",
"source_file": "1-Introduction/03-defining-data/README.md",
"language_code": "ru"
}
-->
# Определение данных
|![ Скетчноут от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|Определение данных - _Скетчноут от [@nitya](https://twitter.com/nitya)_ |
Данные — это факты, информация, наблюдения и измерения, которые используются для открытия новых знаний и поддержки обоснованных решений. Единица данных — это отдельный элемент данных в наборе данных, который представляет собой коллекцию таких элементов. Наборы данных могут быть представлены в различных форматах и структурах, которые обычно зависят от их источника, то есть от того, откуда они поступили. Например, ежемесячный доход компании может быть представлен в виде таблицы, а данные о частоте сердечных сокращений, полученные со смарт-часов, могут быть в формате [JSON](https://stackoverflow.com/a/383699). Для специалистов по данным часто бывает необходимо работать с разными типами данных в рамках одного набора.
Этот урок посвящен определению и классификации данных по их характеристикам и источникам.
## [Тест перед лекцией](https://ff-quizzes.netlify.app/en/ds/quiz/4)
## Как описываются данные
### Сырые данные
Сырые данные — это данные, поступившие из источника в их исходном состоянии, которые еще не были проанализированы или организованы. Чтобы понять, что происходит с набором данных, его необходимо организовать в формат, который будет понятен как людям, так и технологиям, используемым для дальнейшего анализа. Структура набора данных описывает, как он организован, и может быть классифицирована как структурированная, неструктурированная и полуструктурированная. Эти типы структур зависят от источника данных, но в конечном итоге укладываются в одну из трех категорий.
### Количественные данные
Количественные данные — это числовые наблюдения в наборе данных, которые можно анализировать, измерять и использовать математически. Примеры количественных данных: численность населения страны, рост человека или квартальная прибыль компании. С помощью дополнительного анализа количественные данные могут быть использованы для выявления сезонных тенденций индекса качества воздуха (AQI) или оценки вероятности пробок в час пик в обычный рабочий день.
### Качественные данные
Качественные данные, также известные как категориальные данные, — это данные, которые нельзя измерить объективно, как количественные наблюдения. Это, как правило, различные форматы субъективных данных, которые фиксируют качество чего-либо, например продукта или процесса. Иногда качественные данные могут быть числовыми, но не использоваться в математических расчетах, например, номера телефонов или временные метки. Примеры качественных данных: комментарии к видео, марка и модель автомобиля или любимый цвет ваших близких друзей. Качественные данные могут быть использованы для понимания того, какие продукты больше всего нравятся потребителям, или для выявления популярных ключевых слов в резюме соискателей.
### Структурированные данные
Структурированные данные организованы в виде строк и столбцов, где каждая строка имеет одинаковый набор столбцов. Столбцы представляют значения определенного типа и обозначаются именем, описывающим, что представляет это значение, а строки содержат сами значения. Часто на столбцы накладываются определенные правила или ограничения, чтобы гарантировать, что значения точно соответствуют их описанию. Например, представьте таблицу клиентов, где каждая строка должна содержать номер телефона, а номера телефонов не могут содержать буквенных символов. На столбец с номерами телефонов могут быть наложены правила, чтобы он никогда не оставался пустым и содержал только цифры.
Преимущество структурированных данных заключается в том, что их можно организовать так, чтобы они были связаны с другими структурированными данными. Однако из-за того, что данные организованы определенным образом, внесение изменений в их структуру может потребовать значительных усилий. Например, добавление столбца с адресами электронной почты в таблицу клиентов, где этот столбец не может быть пустым, потребует решения, как заполнить значения для уже существующих строк.
Примеры структурированных данных: таблицы, реляционные базы данных, номера телефонов, банковские выписки.
### Неструктурированные данные
Неструктурированные данные, как правило, не могут быть организованы в строки и столбцы и не имеют формата или набора правил. Из-за меньших ограничений на структуру неструктурированных данных добавление новой информации в них проще по сравнению со структурированными наборами данных. Например, если датчик, измеряющий барометрическое давление каждые 2 минуты, получил обновление, позволяющее ему фиксировать температуру, это не потребует изменения уже существующих данных, если они неструктурированы. Однако анализ или исследование таких данных может занять больше времени. Например, ученый, который хочет вычислить среднюю температуру за прошлый месяц по данным датчика, может обнаружить, что датчик записал "e" вместо числового значения, чтобы указать на неисправность, что делает данные неполными.
Примеры неструктурированных данных: текстовые файлы, текстовые сообщения, видеофайлы.
### Полуструктурированные данные
Полуструктурированные данные имеют характеристики, которые делают их комбинацией структурированных и неструктурированных данных. Они обычно не соответствуют формату строк и столбцов, но организованы таким образом, который считается структурированным, и могут следовать фиксированному формату или набору правил. Структура может варьироваться в зависимости от источника, от четко определенной иерархии до более гибкой, которая позволяет легко добавлять новую информацию. Метаданные — это индикаторы, которые помогают определить, как данные организованы и хранятся, и имеют различные названия в зависимости от типа данных. Некоторые распространенные названия для метаданных: теги, элементы, сущности и атрибуты. Например, типичное электронное письмо будет содержать тему, текст и список получателей и может быть организовано по отправителю или времени отправки.
Примеры полуструктурированных данных: HTML, файлы CSV, JavaScript Object Notation (JSON).
## Источники данных
Источник данных — это начальное место, где данные были сгенерированы или где они "хранятся", и оно может варьироваться в зависимости от того, как и когда данные были собраны. Данные, сгенерированные их пользователями, называются первичными данными, тогда как вторичные данные поступают из источника, который собирал их для общего использования. Например, группа ученых, собирающих наблюдения в тропическом лесу, будет считаться первичным источником, а если они решат поделиться этими данными с другими учеными, то для последних это будет вторичный источник.
Базы данных являются распространенным источником данных и полагаются на системы управления базами данных для их хранения и обслуживания, где пользователи используют команды, называемые запросами, для изучения данных. Файлы как источники данных могут быть аудио-, видеофайлами, изображениями, а также таблицами, такими как Excel. Интернет — это распространенное место для хранения данных, где можно найти как базы данных, так и файлы. Интерфейсы прикладного программирования, также известные как API, позволяют программистам создавать способы обмена данными с внешними пользователями через интернет, а процесс веб-скрейпинга извлекает данные с веб-страниц. [Уроки в разделе "Работа с данными"](../../../../../../../../../2-Working-With-Data) посвящены использованию различных источников данных.
## Заключение
В этом уроке мы узнали:
- Что такое данные
- Как описываются данные
- Как классифицируются и категоризируются данные
- Где можно найти данные
## 🚀 Задание
Kaggle — отличный источник открытых наборов данных. Используйте [инструмент поиска наборов данных](https://www.kaggle.com/datasets), чтобы найти несколько интересных наборов данных и классифицировать 3-5 из них по следующим критериям:
- Являются ли данные количественными или качественными?
- Являются ли данные структурированными, неструктурированными или полуструктурированными?
## [Тест после лекции](https://ff-quizzes.netlify.app/en/ds/quiz/5)
## Обзор и самостоятельное изучение
- Этот модуль Microsoft Learn под названием [Классификация данных](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) содержит подробное описание структурированных, полуструктурированных и неструктурированных данных.
## Задание
[Классификация наборов данных](assignment.md)
---
**Отказ от ответственности**:
Этот документ был переведен с использованием сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.