|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "356d12cffc3125db133a2d27b827a745",
|
|
|
"translation_date": "2025-08-30T19:34:23+00:00",
|
|
|
"source_file": "1-Introduction/03-defining-data/README.md",
|
|
|
"language_code": "sr"
|
|
|
}
|
|
|
-->
|
|
|
# Дефинисање података
|
|
|
|
|
|
| ](../../sketchnotes/03-DefiningData.png)|
|
|
|
|:---:|
|
|
|
|Дефинисање података - _Скетч од [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
Подаци су чињенице, информације, запажања и мерења која се користе за открића и подршку информисаним одлукама. Једна тачка података представља јединицу података унутар скупа података, који је збирка тачака података. Скупови података могу бити у различитим форматима и структурама, и обично ће зависити од извора, односно одакле подаци потичу. На пример, месечна зарада компаније може бити у табели, док подаци о пулсу на сат из паметног сата могу бити у [JSON](https://stackoverflow.com/a/383699) формату. Уобичајено је да научници који се баве подацима раде са различитим типовима података унутар једног скупа података.
|
|
|
|
|
|
Ова лекција се фокусира на идентификовање и класификацију података према њиховим карактеристикама и изворима.
|
|
|
|
|
|
## [Квиз пре предавања](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
|
|
|
|
|
|
## Како се подаци описују
|
|
|
|
|
|
### Сирови подаци
|
|
|
Сирови подаци су подаци који долазе из извора у свом почетном стању и нису анализирани или организовани. Да би се разумело шта се дешава са скупом података, потребно је организовати их у формат који је разумљив људима, као и технологији која ће их даље анализирати. Структура скупа података описује како је организован и може се класификовати као структурисан, неструктурисан и полу-структурисан. Ове врсте структура ће варирати у зависности од извора, али ће се на крају уклопити у ове три категорије.
|
|
|
|
|
|
### Квантитативни подаци
|
|
|
Квантитативни подаци су нумеричка запажања унутар скупа података и обично се могу анализирати, мерити и користити математички. Неки примери квантитативних података су: популација једне земље, висина особе или квартални приходи компаније. Уз додатну анализу, квантитативни подаци могу се користити за откривање сезонских трендова Индекса квалитета ваздуха (AQI) или процену вероватноће саобраћајних гужви у шпицу радног дана.
|
|
|
|
|
|
### Квалитативни подаци
|
|
|
Квалитативни подаци, познати и као категоријски подаци, су подаци који се не могу објективно мерити као квантитативни подаци. Генерално, то су различити формати субјективних података који бележе квалитет нечега, као што је производ или процес. Понекад су квалитативни подаци нумерички, али се обично не користе математички, попут бројева телефона или временских ознака. Неки примери квалитативних података су: коментари на видео снимке, марка и модел аутомобила или омиљена боја ваших најближих пријатеља. Квалитативни подаци могу се користити за разумевање који производи се највише свиђају потрошачима или за идентификовање популарних кључних речи у биографијама за посао.
|
|
|
|
|
|
### Структурисани подаци
|
|
|
Структурисани подаци су подаци организовани у редове и колоне, где сваки ред има исти скуп колона. Колоне представљају вредност одређеног типа и идентификоване су именом које описује шта та вредност представља, док редови садрже стварне вредности. Колоне често имају одређен скуп правила или ограничења за вредности, како би се осигурало да вредности тачно представљају колону. На пример, замислите табелу са подацима о клијентима где сваки ред мора имати број телефона, а бројеви телефона никада не садрже алфабетске карактере. Могуће је применити правила на колону са бројевима телефона како би се осигурало да никада није празна и да садржи само бројеве.
|
|
|
|
|
|
Предност структурисаних података је у томе што се могу организовати на начин који омогућава повезивање са другим структурисаним подацима. Међутим, пошто су подаци дизајнирани да буду организовани на одређени начин, промене у њиховој укупној структури могу захтевати много труда. На пример, додавање колоне за е-пошту у табелу клијената која не може бити празна значи да ћете морати да смислите како да додате те вредности постојећим редовима клијената у скупу података.
|
|
|
|
|
|
Примери структурисаних података: табеле, релационе базе података, бројеви телефона, банковни извештаји.
|
|
|
|
|
|
### Неструктурисани подаци
|
|
|
Неструктурисани подаци обично не могу бити категорисани у редове или колоне и не садрже формат или скуп правила која треба пратити. Пошто неструктурисани подаци имају мање ограничења у погледу структуре, лакше је додати нове информације у поређењу са структурисаним скупом података. Ако сензор који бележи податке о барометарском притиску свака 2 минута добије ажурирање које му омогућава да мери и бележи температуру, неће бити потребно мењати постојеће податке ако су неструктурисани. Међутим, ово може учинити анализу или истраживање оваквих података дужим процесом. На пример, научник који жели да пронађе просечну температуру претходног месеца из података сензора, али открије да је сензор забележио "е" у неким подацима како би означио да је био покварен уместо типичног броја, што значи да су подаци непотпуни.
|
|
|
|
|
|
Примери неструктурисаних података: текстуалне датотеке, текстуалне поруке, видео датотеке.
|
|
|
|
|
|
### Полу-структурисани подаци
|
|
|
Полу-структурисани подаци имају карактеристике које их чине комбинацијом структурисаних и неструктурисаних података. Обично не прате формат редова и колона, али су организовани на начин који се сматра структурисаним и могу пратити фиксни формат или скуп правила. Структура ће варирати између извора, од добро дефинисане хијерархије до нечега флексибилнијег што омогућава лаку интеграцију нових информација. Метаподаци су индикатори који помажу у одлучивању како су подаци организовани и складиштени и имају различита имена у зависности од типа података. Неки уобичајени називи за метаподатке су ознаке, елементи, ентитети и атрибути. На пример, типична е-порука ће имати наслов, тело и скуп прималаца и може се организовати према томе ко је и када је послата.
|
|
|
|
|
|
Примери полу-структурисаних података: HTML, CSV датотеке, JavaScript Object Notation (JSON).
|
|
|
|
|
|
## Извори података
|
|
|
|
|
|
Извор података је почетна локација где су подаци генерисани или где "живе" и варираће у зависности од тога како и када су прикупљени. Подаци генерисани од стране корисника познати су као примарни подаци, док секундарни подаци долазе из извора који је прикупио податке за општу употребу. На пример, група научника која прикупља запажања у прашуми сматра се примарним извором, а ако одлуче да их поделе са другим научницима, то би се сматрало секундарним за оне који их користе.
|
|
|
|
|
|
Базе података су уобичајени извор и ослањају се на систем за управљање базама података за хостовање и одржавање података, где корисници користе команде зване упити за истраживање података. Датотеке као извори података могу бити аудио, сликовне и видео датотеке, као и табеле попут Excel-а. Интернет извори су уобичајена локација за хостовање података, где се могу наћи базе података као и датотеке. Интерфејси за програмирање апликација, познати и као API-ји, омогућавају програмерима да креирају начине за дељење података са спољним корисницима преко интернета, док процес веб скрапинга извлачи податке са веб странице. [Лекције у раду са подацима](../../../../../../../../../2-Working-With-Data) фокусирају се на то како користити различите изворе података.
|
|
|
|
|
|
## Закључак
|
|
|
|
|
|
У овој лекцији смо научили:
|
|
|
|
|
|
- Шта су подаци
|
|
|
- Како се подаци описују
|
|
|
- Како се подаци класификују и категоришу
|
|
|
- Где се подаци могу пронаћи
|
|
|
|
|
|
## 🚀 Изазов
|
|
|
|
|
|
Kaggle је одличан извор отворених скупова података. Користите [алат за претрагу скупова података](https://www.kaggle.com/datasets) да пронађете неке занимљиве скупове података и класификујте 3-5 скупова података према овим критеријумима:
|
|
|
|
|
|
- Да ли су подаци квантитативни или квалитативни?
|
|
|
- Да ли су подаци структурисани, неструктурисани или полу-структурисани?
|
|
|
|
|
|
## [Квиз после предавања](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)
|
|
|
|
|
|
## Преглед и самостално учење
|
|
|
|
|
|
- Ова јединица на Microsoft Learn-у, под називом [Класификујте своје податке](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data), има детаљан преглед структурисаних, полу-структурисаних и неструктурисаних података.
|
|
|
|
|
|
## Задатак
|
|
|
|
|
|
[Класификација скупова података](assignment.md)
|
|
|
|
|
|
---
|
|
|
|
|
|
**Одрицање од одговорности**:
|
|
|
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако се трудимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква погрешна тумачења или неспоразуме који могу произаћи из коришћења овог превода. |