From fb42e969bfa93aec62fec1d3ef3089f88487bfe4 Mon Sep 17 00:00:00 2001 From: Mikhail Sadiakhmatov Date: Wed, 27 Oct 2021 00:49:03 +0300 Subject: [PATCH] 1-3 defining data translated --- .../translations/README.ru.md | 76 +++++++++++++++++++ .../translations/assignment.ru.md | 65 ++++++++++++++++ 2 files changed, 141 insertions(+) create mode 100644 1-Introduction/03-defining-data/translations/README.ru.md create mode 100644 1-Introduction/03-defining-data/translations/assignment.ru.md diff --git a/1-Introduction/03-defining-data/translations/README.ru.md b/1-Introduction/03-defining-data/translations/README.ru.md new file mode 100644 index 0000000..2c045fb --- /dev/null +++ b/1-Introduction/03-defining-data/translations/README.ru.md @@ -0,0 +1,76 @@ +# Что такое данные? + +|![ Рисунок [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)| +|:---:| +|Что такое данные - _Рисунок [@nitya](https://twitter.com/nitya)_ | + +Данные - это факты, информация, наблюдения и измерения, которые используются для совершения открытий и для принятия информированных решений. Экземпляр данных - единичная сущность внутри датасета - коллекции экземпляров. Датасеты могут иметь различный формат и структуру в зависимости от источника данных и их природы. Например, данные о ежемесячной выручке компании могут лежать в таблице, а почасовые данные сердечного ритма с умных часов - в формате [JSON](https://stackoverflow.com/a/383699). Очень часто дата сайентистам приходится работать с разными типами данных в рамках одного датасета. + +В данном уроке мы сосредоточимся на описании и классификации данных по их характеристикам и источникам. + + +## [Вступительный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/4) + +## Классификация данных +**"Сырые" данные** - это необработанные данные, полученные из источника без дополнительного анализа или организации. Для того, чтобы понять, что содержит в себе датасет, необходимо привести данные к формату, одинаково понятному как человеку, так и методам, которые могут быть использованы при их анализе. Структура датасета характеризует его содержание, которое делится на структурированные, неструктурированные и полуструктурированные данные. Эти типы структуры могут изменяться в зависимости от источника, но в конечном счёте все равно принадлежат одной из трёх упомянутых категорий. + + +### Количественные данные +Количественные данные - это численные наблюдения внутри датасета, которые обычно могут быть проанализированы, измерены и использованы при расчетах. Примеры таких данных: население страны, рост человека или поквартальная выручка компании. При дополнительном анализе, количественные данные могут быть использованы для обнаружения сезонных трендов в Индексе качества воздуха (AQI) или при оценке вероятности пробок в час пик в обычный рабочий день. + + +### Качественные данные +Качественные данные, также известные как категориальные, - это данные, которые не могут быть объективно измерены, в отличие от количественных наблюдений. В общем случае, они представляют из себя различные форматы субъективных данных, которые оценивают качество чего-либо, например товара или процесса. Иногда, качественные данные представлены в численном формате, но не могут быть обработаны обычными математическими методами, как например номера телефонов или временные интервалы. Примеры качественных данных: комментарии к видео, марка и модель автомобиля, любимый цвет Вашего близкого друга. Количественные данные можно использовать для того, чтобы понять, какие товары больше нравятся потребителями или определить популярные ключевые слова в резюме претендентов. + + +### Структурированные данные +Структурированные данные - это данные, которые организованы в строки и столбцы, при этом каждая строка имеет одинаковый набор столбцов. Стоблцы обозначают величину определённого типа и имеют название, отражающее эту величину, в то время как строки содержат значения этой величины. Столбцы часто имеют специальный набор правил или ограничений для значений, чтобы гарантировать соответствие между столбцом и значениями в нём. Представьте таблицу клиентов, в которой каждая строка должна иметь номер телефона и номера телефонов никогда не содержат букв. Таким образом, можно применить правило к столбцу номеров телефона, чтобы убедиться, что он не содержит пустых значений и содержит только цифры. + +Преимущество структурированных данных в том, что они могут быть организованы таким образом, который соотносится с другим набором структурированных данных. Однако, из-за того, что данные должны быть организованны определённым способом, внесение изменений в общую структуру может быть затруднительным. Например, добавление колонки с адресом электронного ящика в таблицу клиентов, которая не может быть пустой, означает, что Вам необходимо продумать, как добавить эти значения в существующие строки датасета, соответствующие клиентам. + +Примеры структурированных данных: таблицы, реляционные базы данных, телефонные номера, выписки из банка. + + +### Неструктурированные данные +Неструктурированные данные обычно не могут быть организованы по строкам или столбцам и не имеют строгого формата и набора правил. Благодаря тому, что неструктурированные данные содержат меньше ограничений на свою структуру, добавить новую информацию в них гораздо легче, чем в случае со структурированными данными. Если датчик, измеряющий давление каждые две минуты, получит обновление, которое позволит измерять и сохранять температуру, то в случае неструктурированных данных нет необходимости изменять уже существующие данные. Однако, такой подход требует более тщательного анализа и исследования выбранного типа данных. Например, специалист, который хочет найти среднюю температуру за предыдущий месяц из показаний датичков, может обнаружить, что датчики в некоторых случаях записали "е" чтобы обозначить поломку, соответственно, данные будут неполными. + +Примеры неструктурированных данных: текстовые файлы, текстовые сообщения, видеофайлы. + + +### Полуструктурированные данные +Полуструктурированные данные имеют свойства как структурированных, так и неструктурированных данных. Обычно, они не соответствуют табличному формату, но организованы таким образом, который считается структурированным и могут иметь фиксированный формат данных и набор правил. Структура может отличаться от источника к источнику, от строго определённой иерархии до чего-то более гибкого, что позволяет более простое слияние с новой информацией. Метаданные - это индикаторы, которые помогают понять, как данные организованы и хранятся, и имеют различные наименования в зависимости от типа данных. Наиболее распространённые наименования метаданных: теги, элементы, сущности и аттрибуты. Например, обычное электронное письмо имеет тему, тело и набор адресатов и может быть организовано по адресам и датам отправки. + +Примеры полуструктурированных данных: HTML страницы, CSV файлы, файлы JSON. + +## Источники данных + +Источник данных - место, где данные были изначально сгенерированы, или где они "лежат", оно может отличаться от того, как и когда данные были собраны. Данные, сгенерированные пользователем (пользователями) называются первичными, а собранные из источника и пригодные для использования - вторичными. Например, группа специалистов, собравших наблюдения в тропическом лесу, буду называть их первичными, а если они поделятся ими с другими, то относительно другой группы данные будут считаться вторичными. + +Базы данных - общепринятый источник данных, который управляется и поддерживается системой управления базой данных (СУБД), в которой пользователи при помощи команд инициируют запросы для получения данных. В качестве источников могут выступать аудиофайлы, изображения, видеофайлы, а также таблицы, например файлы Excel. Интернет - распространённое место для хранения данных, где можно найти как базы данных, так и файлы. Прикладные программные интерфейсы, также известные как API, дают программистам возможность создавать различные способы обмена данными с внешними пользователями через Интернет, а парсинг веб-страниц извлекает информацию с сайтов. На уроках [работы с данными](../../../2-Working-With-Data) мы обратим внимание на то, как использовать различные источники данных. + +## Заключение + +На данном уроке мы изучили: + +- Что такое данные +- Как можно описать данные +- Классификацию данных +- Где хранятся данные + +## 🚀 Задача + +Портал Kaggle - отличный источник датасетов. Воспользуйтесь [средством поиска по датасетам](https://www.kaggle.com/datasets), чтобы найти интересные и охарактеризовать 3-5 датасетов по следующим критериям: + +- Являются ли данные количественными или качественными? +- Являются ли данные структурированными, неструктурированными, полуструктурированными? + + +## [Проверочный тест](https://red-water-0103e7a0f.azurestaticapps.net/quiz/5) + + +## Материалы для самостоятельного изучения + +- Глава курса Microsoft Learn под названием ["Классификация данных"](https://docs.microsoft.com/ru-ru/learn/modules/choose-storage-approach-in-azure/2-classify-data) содержит детальную классификацию структурированных, полуструктурированных и неструктурированных данных. + +## Домашнее задание +[Классификация датасетов](assignment.ru.md) diff --git a/1-Introduction/03-defining-data/translations/assignment.ru.md b/1-Introduction/03-defining-data/translations/assignment.ru.md new file mode 100644 index 0000000..0752f4d --- /dev/null +++ b/1-Introduction/03-defining-data/translations/assignment.ru.md @@ -0,0 +1,65 @@ +# Классификация датасетов + +## Порядок выполнения + +Следуйте подсказкам в данном домашнем задании, чтобы определить и классифицировать данные по следующим категориям: + +**Структура**: структурированные, полуструктурированные, неструктурированные + +**Величины**: количественные или качественные + +**Источники**: первичные или вторичные + +1. Компания была приобретена и теперь у нее есть материнская компания. Дата сайентисты получили таблицу с номерами телефонов клиентов от материнской компании. + +Структура: + +Величина: + +Источник: + +--- + +2. Умные часы собрали данные сердечного ритма владельца и сохранили сырые данные в формате JSON. + +Структура: + +Величина: + +Источник: + +--- + +3. Опрос настроения сотрудников, результаты которого хранятся в файле CSV. + +Структура: + +Величина: + +Источник: + +--- + +4. Астрофизики получили доступ к базе данных галактик, которая была собрана с помощью космического зонда. Данные содержат номера планет в переделах каждой галактики. + +Структура: + +Величина: + +Источник: + +--- + +5. Приложение для управления финансами использует API для соединения с финансовым счетом пользователя для того, чтобы рассчитать его траты. Пользователи могут видеть свои транзакции в строках и столбцах, напоминающих таблицу. + +Структура: + +Величина: + +Источник: + +## Оценка + +Отлично | Достаточно | Нуждается в улучшении +--- | --- | -- | +Верно определены все структуры, величины и источники |Верно определены структура, величины и источники трёх примеров целиком |Верно определены структура, величины и источники двух и менее примеров целиком | \ No newline at end of file