|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "2583a9894af7123b2fcae3376b14c035",
|
|
|
"translation_date": "2025-08-30T19:27:22+00:00",
|
|
|
"source_file": "1-Introduction/01-defining-data-science/README.md",
|
|
|
"language_code": "sr"
|
|
|
}
|
|
|
-->
|
|
|
## Типови података
|
|
|
|
|
|
Као што смо већ поменули, подаци су свуда око нас. Само их треба правилно ухватити! Корисно је разликовати **структуриране** и **неструктуриране** податке. Први су обично представљени у добро организованом облику, често као табела или више табела, док су други само збирка датотека. Понекад можемо говорити и о **полуструктурираним** подацима, који имају неку врсту структуре која може значајно варирати.
|
|
|
|
|
|
| Структурирани | Полуструктурирани | Неструктурирани |
|
|
|
| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- |
|
|
|
| Листа људи са њиховим телефонским бројевима | Википедијине странице са линковима | Текст Енциклопедије Британика |
|
|
|
| Температура у свим просторијама зграде сваког минута у последњих 20 година | Збирка научних радова у JSON формату са ауторима, датумом објављивања и апстрактом | Датотеке са корпоративним документима |
|
|
|
| Подаци о старости и полу свих људи који улазе у зграду | Интернет странице | Сирови видео снимак са надзорне камере |
|
|
|
|
|
|
## Где пронаћи податке
|
|
|
|
|
|
Постоји много могућих извора података, и немогуће је набројати све! Међутим, хајде да поменемо неке од типичних места где можете пронаћи податке:
|
|
|
|
|
|
* **Структурирани**
|
|
|
- **Интернет ствари** (IoT), укључујући податке са различитих сензора, као што су сензори температуре или притиска, пружају много корисних података. На пример, ако је пословна зграда опремљена IoT сензорима, можемо аутоматски контролисати грејање и осветљење како бисмо минимизирали трошкове.
|
|
|
- **Анкете** које тражимо од корисника да попуне након куповине или посете веб сајту.
|
|
|
- **Анализа понашања** може, на пример, помоћи да разумемо колико дубоко корисник истражује сајт и који је типичан разлог за напуштање сајта.
|
|
|
* **Неструктурирани**
|
|
|
- **Текстови** могу бити богат извор увида, као што је укупна **оценa сентимента**, или извлачење кључних речи и семантичког значења.
|
|
|
- **Слике** или **видео записи**. Видео снимак са надзорне камере може се користити за процену саобраћаја на путу и информисање људи о потенцијалним гужвама.
|
|
|
- **Логови веб сервера** могу се користити за разумевање које странице нашег сајта се најчешће посећују и колико дуго.
|
|
|
* **Полуструктурирани**
|
|
|
- **Графови друштвених мрежа** могу бити одличан извор података о личностима корисника и потенцијалној ефикасности у ширењу информација.
|
|
|
- Када имамо гомилу фотографија са забаве, можемо покушати да извучемо податке о **групној динамици** тако што ћемо направити граф људи који се фотографишу једни с другима.
|
|
|
|
|
|
Познавањем различитих могућих извора података, можете размишљати о различитим сценаријима где се технике науке о подацима могу применити за боље разумевање ситуације и побољшање пословних процеса.
|
|
|
|
|
|
## Шта можете радити са подацима
|
|
|
|
|
|
У науци о подацима, фокусирамо се на следеће кораке у раду са подацима:
|
|
|
|
|
|
Наравно, у зависности од стварних података, неки кораци могу недостајати (нпр. када већ имамо податке у бази или када нам није потребно тренирање модела), или се неки кораци могу поновити више пута (као што је обрада података).
|
|
|
|
|
|
## Дигитализација и дигитална трансформација
|
|
|
|
|
|
У последњој деценији, многе компаније су почеле да схватају важност података при доношењу пословних одлука. Да би се применили принципи науке о подацима у пословању, прво је потребно прикупити неке податке, односно превести пословне процесе у дигитални облик. Ово је познато као **дигитализација**. Примена техника науке о подацима на ове податке ради доношења одлука може довести до значајног повећања продуктивности (или чак пословног преокрета), што се назива **дигитална трансформација**.
|
|
|
|
|
|
Хајде да размотримо пример. Претпоставимо да имамо курс науке о подацима (као овај) који онлајн предајемо студентима и желимо да користимо науку о подацима за његово побољшање. Како то можемо урадити?
|
|
|
|
|
|
Можемо почети питањем "Шта се може дигитализовати?" Најједноставнији начин би био да измеримо време које је сваком студенту потребно да заврши сваки модул и да измеримо стечено знање давањем теста са вишеструким избором на крају сваког модула. Просечним временом завршетка за све студенте можемо открити који модули представљају највеће потешкоће за студенте и радити на њиховом поједностављењу.
|
|
|
Можете тврдити да овај приступ није идеалан, јер модули могу бити различитих дужина. Вероватно је праведније поделити време са дужином модула (у броју карактера) и упоредити те вредности уместо тога.
|
|
|
Када почнемо да анализирамо резултате тестова са вишеструким избором, можемо покушати да утврдимо које концепте ученици имају потешкоћа да разумеју, и користимо те информације за побољшање садржаја. Да бисмо то урадили, потребно је да дизајнирамо тестове на такав начин да свако питање одговара одређеном концепту или делу знања.
|
|
|
|
|
|
Ако желимо да идемо још сложеније, можемо приказати време потребно за сваки модул у односу на старосну категорију ученика. Можда ћемо открити да за неке старосне категорије треба непримерено дуго да се заврши модул, или да ученици одустану пре него што га заврше. Ово нам може помоћи да дамо препоруке за старосну групу за модул и минимизирамо незадовољство људи због погрешних очекивања.
|
|
|
|
|
|
## 🚀 Изазов
|
|
|
|
|
|
У овом изазову, покушаћемо да пронађемо концепте релевантне за област Науке о подацима анализирајући текстове. Узет ћемо Википедијски чланак о Науци о подацима, преузети и обрадити текст, а затим направити облак речи попут овог:
|
|
|
|
|
|

|
|
|
|
|
|
Посетите [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') да прочитате код. Такође можете покренути код и видети како у реалном времену врши све трансформације података.
|
|
|
|
|
|
> Ако не знате како да покренете код у Jupyter Notebook-у, погледајте [овај чланак](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
|
|
|
|
|
|
## [Квиз након предавања](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
|
|
|
|
|
|
## Задаци
|
|
|
|
|
|
* **Задатак 1**: Измените горњи код да бисте пронашли повезане концепте за области **Big Data** и **Machine Learning**
|
|
|
* **Задатак 2**: [Размислите о сценаријима Науке о подацима](assignment.md)
|
|
|
|
|
|
## Захвалнице
|
|
|
|
|
|
Ова лекција је написана са ♥️ од стране [Дмитрија Сошњикова](http://soshnikov.com)
|
|
|
|
|
|
---
|
|
|
|
|
|
**Одрицање од одговорности**:
|
|
|
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако се трудимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људи. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода. |