You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/sr/1-Introduction/03-defining-data
leestott 7373a19c39
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Дефинисање података

 Скетч од (@sketchthedocs)
Дефинисање података - Скетч од @nitya

Подаци су чињенице, информације, запажања и мерења која се користе за открића и подршку информисаним одлукама. Једна јединица података унутар скупа података назива се тачка података, а скуп података је колекција тих тачака. Скупови података могу бити у различитим форматима и структурама, и обично ће зависити од извора, односно одакле потичу подаци. На пример, месечни приходи компаније могу бити у табели, док подаци о срчаном пулсу на сат из паметног сата могу бити у JSON формату. Уобичајено је да научници који се баве подацима раде са различитим типовима података унутар једног скупа података.

Ова лекција се фокусира на идентификовање и класификацију података према њиховим карактеристикама и изворима.

Квиз пре предавања

Како се описују подаци

Сирови подаци

Сирови подаци су подаци који долазе из извора у свом почетном стању и нису анализирани или организовани. Да би се разумело шта се дешава са скупом података, потребно је организовати их у формат који је разумљив људима, као и технологији која се може користити за даљу анализу. Структура скупа података описује како је организован и може се класификовати као структурисан, неструктурисан и полуструктурисан. Ове врсте структура ће варирати у зависности од извора, али ће се на крају уклопити у ове три категорије.

Квантитативни подаци

Квантитативни подаци су нумеричка запажања унутар скупа података и обично се могу анализирати, мерити и користити математички. Неки примери квантитативних података су: популација земље, висина особе или квартални приходи компаније. Уз додатну анализу, квантитативни подаци могу се користити за откривање сезонских трендова индекса квалитета ваздуха (AQI) или процену вероватноће саобраћајних гужви током типичног радног дана.

Квалитативни подаци

Квалитативни подаци, познати и као категоријски подаци, су подаци који се не могу мерити објективно као квантитативни подаци. Углавном су то различити формати субјективних података који бележе квалитет нечега, као што је производ или процес. Понекад су квалитативни подаци нумерички, али се обично не користе математички, као што су телефонски бројеви или временске ознаке. Неки примери квалитативних података су: коментари на видео снимке, марка и модел аутомобила или омиљена боја ваших најближих пријатеља. Квалитативни подаци могу се користити за разумевање који производи највише допадају потрошачима или за идентификовање популарних кључних речи у резимеима за посао.

Структурисани подаци

Структурисани подаци су подаци организовани у редове и колоне, где сваки ред има исти сет колона. Колоне представљају вредност одређеног типа и идентификоване су именом које описује шта та вредност представља, док редови садрже стварне вредности. Колоне често имају одређени сет правила или ограничења за вредности, како би се осигурало да вредности тачно представљају колону. На пример, замислите табелу са подацима о купцима где сваки ред мора имати телефонски број, а телефонски бројеви никада не садрже алфабетске карактере. Могу се применити правила на колону телефонског броја како би се осигурало да никада није празна и да садржи само бројеве.

Предност структурисаних података је у томе што се могу организовати на начин који омогућава повезивање са другим структурисаним подацима. Међутим, пошто су подаци дизајнирани да буду организовани на одређени начин, промене у њиховој укупној структури могу захтевати много труда. На пример, додавање колоне за е-пошту у табелу купаца која не може бити празна значи да ћете морати да смислите како да додате те вредности постојећим редовима купаца у скупу података.

Примери структурисаних података: табеле, релационе базе података, телефонски бројеви, банковни извештаји.

Неструктурисани подаци

Неструктурисани подаци обично не могу бити категорисани у редове или колоне и не садрже формат или сет правила која треба следити. Због мањих ограничења на структуру, лакше је додати нове информације у поређењу са структурисаним скупом података. Ако сензор који бележи податке о барометарском притиску свака 2 минута добије ажурирање које му омогућава да мери и бележи температуру, не захтева измену постојећих података ако су неструктурисани. Међутим, то може учинити анализу или истраживање оваквих података дужим процесом. На пример, научник који жели да пронађе просечну температуру претходног месеца из података сензора, али открије да је сензор забележио "е" у неким својим подацима како би означио да је био покварен уместо типичног броја, што значи да су подаци непотпуни.

Примери неструктурисаних података: текстуалне датотеке, текстуалне поруке, видео датотеке.

Полуструктурисани подаци

Полуструктурисани подаци имају карактеристике које их чине комбинацијом структурисаних и неструктурисаних података. Обично не одговарају формату редова и колона, али су организовани на начин који се сматра структурисаним и могу следити фиксни формат или сет правила. Структура ће варирати између извора, од добро дефинисане хијерархије до нечег флексибилнијег што омогућава лаку интеграцију нових информација. Метаподаци су показатељи који помажу у одлучивању како су подаци организовани и складиштени и имају различита имена, у зависности од типа података. Неки уобичајени називи за метаподатке су ознаке, елементи, ентитети и атрибути. На пример, типична порука е-поште ће имати тему, тело и сет прималаца и може се организовати према томе ко је послао или када је послата.

Примери полуструктурисаних података: HTML, CSV датотеке, JavaScript Object Notation (JSON).

Извори података

Извор података је почетна локација где су подаци генерисани или где "живе" и варираће у зависности од тога како и када су прикупљени. Подаци генерисани од стране корисника називају се примарни подаци, док секундарни подаци долазе из извора који је прикупио податке за општу употребу. На пример, група научника која прикупља запажања у прашуми сматра се примарним извором, а ако одлуче да их поделе са другим научницима, то би се сматрало секундарним за оне који их користе.

Базе података су уобичајени извор и ослањају се на систем за управљање базама података за хостовање и одржавање података, где корисници користе команде назване упити за истраживање података. Датотеке као извори података могу бити аудио, сликовне и видео датотеке, као и табеле попут Excel-а. Интернет извори су уобичајена локација за хостовање података, где се могу наћи базе података као и датотеке. Интерфејси за програмирање апликација, познати као API-ји, омогућавају програмерима да креирају начине за дељење података са спољним корисницима преко интернета, док процес веб скрепинга извлачи податке са веб странице. Лекције у раду са подацима фокусирају се на то како користити различите изворе података.

Закључак

У овој лекцији смо научили:

  • Шта су подаци
  • Како се подаци описују
  • Како се подаци класификују и категоришу
  • Где се подаци могу пронаћи

🚀 Изазов

Kaggle је одличан извор отворених скупова података. Користите алат за претрагу скупова података да пронађете неке занимљиве скупове података и класификујте 3-5 скупова података према овим критеријумима:

  • Да ли су подаци квантитативни или квалитативни?
  • Да ли су подаци структурисани, неструктурисани или полуструктурисани?

Квиз после предавања

Преглед и самостално учење

  • Ова јединица на Microsoft Learn-у, под називом Класификујте своје податке, има детаљан преглед структурисаних, полуструктурисаних и неструктурисаних података.

Задатак

Класификација скупова података


Одрицање од одговорности:
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције Co-op Translator. Иако се трудимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода.