15 KiB
Визначення даних
![]() |
---|
Визначення даних - Скетчноут від @nitya |
Дані — це факти, інформація, спостереження та вимірювання, які використовуються для відкриттів і підтримки обґрунтованих рішень. Точка даних — це окрема одиниця даних у наборі даних, який є колекцією точок даних. Набори даних можуть бути представлені в різних форматах і структурах, і зазвичай вони залежать від джерела, тобто від того, звідки походять дані. Наприклад, щомісячний дохід компанії може бути у вигляді таблиці, а дані про частоту серцевих скорочень за годину зі смарт-годинника можуть бути у форматі JSON. Зазвичай дата-саєнтисти працюють із різними типами даних у межах одного набору даних.
Цей урок зосереджений на ідентифікації та класифікації даних за їх характеристиками та джерелами.
Тест перед лекцією
Як описуються дані
Сирі дані
Сирі дані — це дані, які надходять із джерела у своєму початковому стані і ще не були проаналізовані чи організовані. Щоб зрозуміти, що відбувається з набором даних, його потрібно організувати у формат, який буде зрозумілий як людям, так і технологіям, які вони можуть використовувати для подальшого аналізу. Структура набору даних описує, як він організований, і може бути класифікована як структурована, неструктурована або напівструктурована. Ці типи структури варіюються залежно від джерела, але зрештою вписуються в одну з трьох категорій.
Кількісні дані
Кількісні дані — це числові спостереження в наборі даних, які зазвичай можна аналізувати, вимірювати та використовувати математично. Деякі приклади кількісних даних: населення країни, зріст людини або квартальний дохід компанії. З додатковим аналізом кількісні дані можуть бути використані для виявлення сезонних тенденцій індексу якості повітря (AQI) або оцінки ймовірності заторів у години пік у типовий робочий день.
Якісні дані
Якісні дані, також відомі як категорійні дані, — це дані, які не можна виміряти об’єктивно, як кількісні спостереження. Це зазвичай різні формати суб’єктивних даних, які відображають якість чогось, наприклад продукту чи процесу. Іноді якісні дані є числовими, але зазвичай не використовуються математично, як-от телефонні номери чи часові позначки. Деякі приклади якісних даних: коментарі до відео, марка та модель автомобіля або улюблений колір ваших найближчих друзів. Якісні дані можуть бути використані для розуміння, які продукти споживачі люблять найбільше, або для визначення популярних ключових слів у резюме для подачі на роботу.
Структуровані дані
Структуровані дані — це дані, організовані в рядки та стовпці, де кожен рядок має однаковий набір стовпців. Стовпці представляють значення певного типу та ідентифікуються за назвою, яка описує, що представляє значення, тоді як рядки містять фактичні значення. Стовпці часто мають певний набір правил або обмежень щодо значень, щоб гарантувати, що значення точно представляють стовпець. Наприклад, уявіть таблицю клієнтів, де кожен рядок повинен містити номер телефону, а номери телефонів ніколи не містять алфавітних символів. Можуть бути застосовані правила до стовпця номерів телефону, щоб переконатися, що він ніколи не порожній і містить лише цифри.
Перевага структурованих даних полягає в тому, що їх можна організувати таким чином, щоб вони були пов’язані з іншими структурованими даними. Однак через те, що дані спроектовані для організації певним чином, внесення змін до їх загальної структури може вимагати значних зусиль. Наприклад, додавання стовпця електронної пошти до таблиці клієнтів, який не може бути порожнім, означає, що вам потрібно буде вирішити, як додати ці значення до існуючих рядків клієнтів у наборі даних.
Приклади структурованих даних: таблиці, реляційні бази даних, номери телефонів, банківські виписки.
Неструктуровані дані
Неструктуровані дані зазвичай не можна категоризувати в рядки чи стовпці і вони не містять формату чи набору правил для дотримання. Оскільки неструктуровані дані мають менше обмежень щодо своєї структури, їх легше доповнювати новою інформацією порівняно зі структурованим набором даних. Якщо датчик, який фіксує дані про барометричний тиск кожні 2 хвилини, отримав оновлення, яке тепер дозволяє йому вимірювати та записувати температуру, це не потребує зміни існуючих даних, якщо вони неструктуровані. Однак це може ускладнити аналіз або дослідження таких даних. Наприклад, вчений хоче знайти середню температуру за попередній місяць за даними датчика, але виявляє, що датчик записав "e" у деяких своїх даних, щоб позначити, що він був несправний, замість типового числа, що означає, що дані неповні.
Приклади неструктурованих даних: текстові файли, текстові повідомлення, відеофайли.
Напівструктуровані дані
Напівструктуровані дані мають характеристики, які роблять їх комбінацією структурованих і неструктурованих даних. Вони зазвичай не відповідають формату рядків і стовпців, але організовані таким чином, що вважаються структурованими і можуть дотримуватися фіксованого формату або набору правил. Структура варіюється залежно від джерел, наприклад, від чітко визначеної ієрархії до більш гнучкої, яка дозволяє легко інтегрувати нову інформацію. Метадані — це індикатори, які допомагають вирішити, як дані організовані та зберігаються, і мають різні назви залежно від типу даних. Деякі загальні назви для метаданих: теги, елементи, сутності та атрибути. Наприклад, типове електронне повідомлення матиме тему, текст і набір одержувачів і може бути організоване за тим, ким або коли воно було надіслане.
Приклади напівструктурованих даних: HTML, файли CSV, JavaScript Object Notation (JSON).
Джерела даних
Джерело даних — це початкове місце, де дані були створені або де вони "живуть", і це залежить від того, як і коли вони були зібрані. Дані, створені їх користувачами, називаються первинними даними, тоді як вторинні дані надходять із джерела, яке зібрало дані для загального використання. Наприклад, група вчених, які збирають спостереження в тропічному лісі, вважається первинним джерелом, а якщо вони вирішать поділитися ними з іншими вченими, це буде вважатися вторинним джерелом для тих, хто їх використовує.
Бази даних є поширеним джерелом і покладаються на систему управління базами даних для розміщення та підтримки даних, де користувачі використовують команди, які називаються запитами, для дослідження даних. Файли як джерела даних можуть бути аудіо, зображеннями, відеофайлами, а також таблицями, такими як Excel. Інтернет-джерела є поширеним місцем для розміщення даних, де можна знайти як бази даних, так і файли. Інтерфейси програмування додатків, також відомі як API, дозволяють програмістам створювати способи обміну даними з зовнішніми користувачами через Інтернет, тоді як процес веб-скрапінгу витягує дані з веб-сторінки. Уроки в розділі Робота з даними зосереджені на тому, як використовувати різні джерела даних.
Висновок
У цьому уроці ми дізналися:
- Що таке дані
- Як описуються дані
- Як дані класифікуються та категоризуються
- Де можна знайти дані
🚀 Виклик
Kaggle — чудове джерело відкритих наборів даних. Використовуйте інструмент пошуку наборів даних, щоб знайти кілька цікавих наборів даних і класифікувати 3-5 наборів даних за такими критеріями:
- Чи є дані кількісними чи якісними?
- Чи є дані структурованими, неструктурованими чи напівструктурованими?
Тест після лекції
Огляд і самостійне навчання
- Цей модуль Microsoft Learn під назвою Класифікуйте ваші дані містить детальний опис структурованих, напівструктурованих і неструктурованих даних.
Завдання
Відмова від відповідальності:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.