You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/bg/1-Introduction/03-defining-data/README.md

16 KiB

Определяне на данни

 Скетч от (@sketchthedocs)
Определяне на данни - Скетч от @nitya

Данните са факти, информация, наблюдения и измервания, които се използват за открития и за подкрепа на информирани решения. Една точка от данни е единична единица данни в рамките на набор от данни, който представлява колекция от точки от данни. Наборите от данни могат да бъдат в различни формати и структури и обикновено се базират на техния източник или откъде идват данните. Например, месечните приходи на една компания може да са в електронна таблица, но данните за сърдечния ритъм на час от смарт часовник може да са във формат JSON. Често специалистите по данни работят с различни типове данни в рамките на един набор от данни.

Този урок се фокусира върху идентифицирането и класифицирането на данни според техните характеристики и източници.

Тест преди лекцията

Как се описват данните

Сурови данни

Суровите данни са данни, които идват от своя източник в първоначалното си състояние и не са анализирани или организирани. За да се разбере какво се случва с даден набор от данни, той трябва да бъде организиран във формат, който може да бъде разбран както от хората, така и от технологиите, които те могат да използват за по-нататъшен анализ. Структурата на набора от данни описва как е организиран и може да бъде класифициран като структуриран, неструктуриран и полуструктуриран. Тези типове структури ще варират в зависимост от източника, но в крайна сметка ще попаднат в тези три категории.

Количествени данни

Количествените данни са числови наблюдения в рамките на набор от данни и обикновено могат да бъдат анализирани, измервани и използвани математически. Някои примери за количествени данни са: населението на дадена страна, височината на човек или тримесечните приходи на компания. С допълнителен анализ количествените данни могат да се използват за откриване на сезонни тенденции в индекса за качество на въздуха (AQI) или за оценка на вероятността за трафик в час пик в типичен работен ден.

Качествени данни

Качествените данни, известни още като категорийни данни, са данни, които не могат да бъдат измерени обективно като наблюденията на количествени данни. Те обикновено са различни формати на субективни данни, които улавят качеството на нещо, като продукт или процес. Понякога качествените данни са числови, но не се използват математически, като телефонни номера или времеви отпечатъци. Някои примери за качествени данни са: коментари към видеоклипове, марка и модел на автомобил или любимият цвят на най-близките ви приятели. Качествените данни могат да се използват за разбиране кои продукти потребителите харесват най-много или за идентифициране на популярни ключови думи в автобиографии за работа.

Структурирани данни

Структурираните данни са данни, които са организирани в редове и колони, където всеки ред има един и същ набор от колони. Колоните представляват стойност от определен тип и се идентифицират с име, описващо какво представлява стойността, докато редовете съдържат действителните стойности. Колоните често имат специфичен набор от правила или ограничения за стойностите, за да се гарантира, че стойностите точно представят колоната. Например, представете си електронна таблица с клиенти, където всеки ред трябва да има телефонен номер и телефонните номера никога не съдържат буквени символи. Може да има правила, приложени към колоната за телефонен номер, за да се гарантира, че тя никога не е празна и съдържа само числа.

Предимство на структурираните данни е, че те могат да бъдат организирани по начин, който позволява връзка с други структурирани данни. Въпреки това, тъй като данните са проектирани да бъдат организирани по специфичен начин, промяната на цялостната им структура може да изисква много усилия. Например, добавянето на колона за имейл към таблицата с клиенти, която не може да бъде празна, означава, че ще трябва да измислите как да добавите тези стойности към съществуващите редове с клиенти в набора от данни.

Примери за структурирани данни: електронни таблици, релационни бази данни, телефонни номера, банкови извлечения.

Неструктурирани данни

Неструктурираните данни обикновено не могат да бъдат категоризирани в редове или колони и не съдържат формат или набор от правила за следване. Тъй като неструктурираните данни имат по-малко ограничения върху структурата си, е по-лесно да се добавя нова информация в сравнение със структуриран набор от данни. Ако сензор, който записва данни за барометрично налягане на всеки 2 минути, получи актуализация, която му позволява да измерва и записва температура, това не изисква промяна на съществуващите данни, ако те са неструктурирани. Въпреки това, анализирането или изследването на този тип данни може да отнеме повече време. Например, учен, който иска да намери средната температура за предходния месец от данните на сензора, но открива, че сензорът е записал "e" в някои от своите данни, за да отбележи, че е бил повреден, вместо типично число, което означава, че данните са непълни.

Примери за неструктурирани данни: текстови файлове, текстови съобщения, видео файлове.

Полуструктурирани данни

Полуструктурираните данни имат характеристики, които ги правят комбинация от структурирани и неструктурирани данни. Те обикновено не се съобразяват с формат на редове и колони, но са организирани по начин, който се счита за структуриран и може да следва фиксиран формат или набор от правила. Структурата ще варира между източниците, като например добре дефинирана йерархия или нещо по-гъвкаво, което позволява лесна интеграция на нова информация. Метаданните са индикатори, които помагат да се реши как данните са организирани и съхранявани и ще имат различни имена, в зависимост от типа данни. Някои често срещани имена за метаданни са тагове, елементи, обекти и атрибути. Например, типично съобщение по имейл ще има тема, тяло и набор от получатели и може да бъде организирано според това кой или кога го е изпратил.

Примери за полуструктурирани данни: HTML, CSV файлове, JavaScript Object Notation (JSON).

Източници на данни

Източникът на данни е първоначалното местоположение, където данните са генерирани или където "живеят" и ще варира в зависимост от това как и кога са събрани. Данните, генерирани от техните потребители, са известни като първични данни, докато вторичните данни идват от източник, който е събрал данни за общо ползване. Например, група учени, които събират наблюдения в тропическа гора, биха се считали за първичен източник, а ако решат да ги споделят с други учени, това би се считало за вторичен източник за тези, които ги използват.

Базите данни са често срещан източник и разчитат на система за управление на бази данни, за да хостват и поддържат данните, където потребителите използват команди, наречени заявки, за да изследват данните. Файловете като източници на данни могат да бъдат аудио, изображения и видео файлове, както и електронни таблици като Excel. Интернет източниците са често срещано място за хостване на данни, където могат да се намерят както бази данни, така и файлове. Програмните интерфейси за приложения, известни още като APIs, позволяват на програмистите да създават начини за споделяне на данни с външни потребители чрез интернет, докато процесът на уеб скрапинг извлича данни от уеб страница. Уроците в Работа с данни се фокусират върху това как да се използват различни източници на данни.

Заключение

В този урок научихме:

  • Какво представляват данните
  • Как се описват данните
  • Как се класифицират и категоризират данните
  • Къде могат да бъдат намерени данните

🚀 Предизвикателство

Kaggle е отличен източник на отворени набори от данни. Използвайте инструмента за търсене на набори от данни, за да намерите някои интересни набори от данни и класифицирайте 3-5 набора от данни според следните критерии:

  • Данните количествени ли са или качествени?
  • Данните структурирани, неструктурирани или полуструктурирани ли са?

Тест след лекцията

Преглед и самостоятелно обучение

  • Този модул на Microsoft Learn, озаглавен Класифициране на вашите данни, съдържа подробно описание на структурирани, полуструктурирани и неструктурирани данни.

Задание

Класифициране на набори от данни


Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.