|
|
1 month ago | |
|---|---|---|
| .. | ||
| solution | 1 month ago | |
| README.md | 1 month ago | |
| assignment.md | 1 month ago | |
| notebook.ipynb | 6 months ago | |
README.md
Дефинисање науке о подацима
![]() |
|---|
| Дефинисање науке о подацима - Скетч од @nitya |
Квиз пре предавања
Шта су подаци?
У свакодневном животу, стално смо окружени подацима. Текст који сада читате су подаци. Листа телефонских бројева ваших пријатеља у вашем паметном телефону су подаци, као и тренутно време приказано на вашем сату. Као људска бића, природно оперишемо подацима бројећи новац који имамо или пишући писма нашим пријатељима.
Међутим, подаци су постали много значајнији са стварањем рачунара. Основна улога рачунара је да обављају рачунања, али им је потребно да имају податке на којима ће радити. Због тога је важно разумети како рачунари чувају и обрађују податке.
Са појавом интернета, улога рачунара као уређаја за руковање подацима је порасла. Ако размислите, сада све више користимо рачунаре за обраду и комуникацију података, а не само за рачунање. Када пишемо е-пошту пријатељу или тражимо неке информације на интернету - у суштини стварамо, чувамо, преносимо и манипулишемо подацима.
Можете ли се сетити када сте последњи пут користили рачунар за стварно рачунање?
Шта је наука о подацима?
На Википедији, наука о подацима је дефинисана као научна област која користи научне методе за извлачење знања и увида из структурираних и неструктурираних података, и примењује знање и практичне увиде из података у широком спектру области примене.
Ова дефиниција истиче следеће важне аспекте науке о подацима:
- Главни циљ науке о подацима је извлачење знања из података, другим речима - разумевање података, проналажење скривених односа и изградња модела.
- Наука о подацима користи научне методе, као што су вероватноћа и статистика. У ствари, када је термин наука о подацима први пут уведен, неки су тврдили да је то само нови, модерни назив за статистику. Данас је јасно да је област много шира.
- Добијено знање треба применити за стварање практичних увида, односно увида који се могу применити у стварним пословним ситуацијама.
- Треба да будемо способни да радимо са структурираним и неструктурираним подацима. О различитим типовима података ћемо говорити касније током курса.
- Област примене је важан концепт, и научници који се баве подацима често морају да имају барем одређени степен експертизе у области проблема, на пример: финансије, медицина, маркетинг итд.
Још један важан аспект науке о подацима је да проучава како се подаци могу прикупљати, чувати и обрађивати помоћу рачунара. Док нам статистика пружа математичке основе, наука о подацима примењује математичке концепте за стварно извлачење увида из података.
Један од начина (који се приписује Џиму Греју) да се сагледа наука о подацима је да се сматра посебним парадигмом науке:
- Емпиријска, у којој се углавном ослањамо на посматрања и резултате експеримената
- Теоријска, где нови концепти произилазе из постојећег научног знања
- Рачунарска, где откривамо нове принципе на основу рачунарских експеримената
- Заснована на подацима, заснована на откривању односа и образаца у подацима
Друге сродне области
Пошто су подаци свеприсутни, сама наука о подацима је такође широка област која се дотиче многих других дисциплина.
- Базе података
- Кључно питање је како чувати податке, односно како их структурирати на начин који омогућава бржу обраду. Постоје различите врсте база података које чувају структуриране и неструктуриране податке, што ћемо размотрити у нашем курсу.
- Велики подаци
- Често морамо да чувамо и обрађујемо веома велике количине података са релативно једноставном структуром. Постоје посебни приступи и алати за чување тих података на дистрибуирани начин на кластеру рачунара и њихову ефикасну обраду.
- Машинско учење
- Један од начина да разумемо податке је да изградимо модел који ће моћи да предвиди жељени исход. Развој модела из података назива се машинско учење. Можете погледати наш Курс за почетнике у машинском учењу да бисте сазнали више о томе.
- Вештачка интелигенција
- Област машинског учења позната као вештачка интелигенција (AI) такође се ослања на податке и укључује изградњу сложених модела који опонашају људске процесе размишљања. Методи AI често нам омогућавају да претворимо неструктуриране податке (нпр. природни језик) у структуриране увиде.
- Визуелизација
- Велике количине података су несхватљиве за људско биће, али када креирамо корисне визуализације користећи те податке, можемо боље разумети податке и извући неке закључке. Због тога је важно познавати многе начине визуализације информација - нешто што ћемо обрадити у Трећем делу нашег курса. Сродне области укључују инфографику и интеракцију човека и рачунара уопште.
Типови података
Као што смо већ поменули, подаци су свуда. Само их треба правилно ухватити! Корисно је разликовати структуриране и неструктуриране податке. Први су обично представљени у неком добро структурисаном облику, често као табела или више табела, док су други само збирка датотека. Понекад можемо говорити и о полуструктурираним подацима, који имају неку врсту структуре која може значајно да варира.
| Структурирани | Полуструктурирани | Неструктурирани |
|---|---|---|
| Листа људи са њиховим телефонским бројевима | Википедијине странице са линковима | Текст Енциклопедије Британика |
| Температура у свим просторијама зграде сваког минута у последњих 20 година | Збирка научних радова у JSON формату са ауторима, датумом објављивања и апстрактом | Датотеке са корпоративним документима |
| Подаци о старости и полу свих људи који улазе у зграду | Интернет странице | Сирови видео снимак са надзорне камере |
Где пронаћи податке
Постоји много могућих извора података, и било би немогуће набројати све! Међутим, хајде да поменемо нека типична места где можете пронаћи податке:
- Структурирани
- Интернет ствари (IoT), укључујући податке са различитих сензора, као што су сензори температуре или притиска, пружају много корисних података. На пример, ако је пословна зграда опремљена IoT сензорима, можемо аутоматски контролисати грејање и осветљење како бисмо минимизирали трошкове.
- Анкете које тражимо од корисника да попуне након куповине или након посете веб сајту.
- Анализа понашања може, на пример, помоћи да разумемо колико дубоко корисник истражује сајт и који је типичан разлог за напуштање сајта.
- Неструктурирани
- Текстови могу бити богат извор увида, као што је укупна оцене расположења, или извлачење кључних речи и семантичког значења.
- Слике или Видео. Видео са надзорне камере може се користити за процену саобраћаја на путу и информисање људи о потенцијалним гужвама.
- Логови веб сервера могу се користити за разумевање које странице нашег сајта се најчешће посећују и колико дуго.
- Полуструктурирани
- Графови друштвених мрежа могу бити одлични извори података о личностима корисника и потенцијалној ефикасности у ширењу информација.
- Када имамо гомилу фотографија са забаве, можемо покушати да извучемо податке о групној динамици тако што ћемо направити граф људи који се фотографишу заједно.
Познавањем различитих могућих извора података, можете покушати да размислите о различитим сценаријима где се технике науке о подацима могу применити за боље разумевање ситуације и побољшање пословних процеса.
Шта можете радити са подацима
У науци о подацима, фокусирани смо на следеће кораке у путовању података:
- 1) Прикупљање података
- Први корак је прикупљање података. Док у многим случајевима то може бити једноставан процес, као што су подаци који долазе у базу података из веб апликације, понекад морамо користити посебне технике. На пример, подаци са IoT сензора могу бити преобимни, и добра је пракса користити крајње тачке за баферовање као што је IoT Hub за прикупљање свих података пре даље обраде.
- 2) Чување података
-
Чување података може бити изазовно, посебно ако говоримо о великим подацима. Када одлучујемо како да чувамо податке, има смисла предвидети начин на који ћемо желети да их претражујемо у будућности. Постоји неколико начина на које се подаци могу чувати:
- Релациона база података чува збирку табела и користи посебан језик зван SQL за њихово претраживање. Типично, табеле су организоване у различите групе које се називају шеме. У многим случајевима морамо конвертовати податке из оригиналног облика да би се уклопили у шему.
- NoSQL база података, као што је CosmosDB, не намеће шеме на податке и омогућава чување сложенијих података, на пример, хијерархијских JSON докумената или графова. Међутим, NoSQL базе података немају богате могућности претраживања као SQL и не могу да намећу референтни интегритет, односно правила о томе како су подаци структурисани у табелама и како се односе између табела.
- Data Lake складиштење се користи за велике збирке података у сировом, неструктурисаном облику. Data Lake се често користи са великим подацима, где сви подаци не могу стати на један рачунар и морају се чувати и обрађивати на кластеру сервера. Parquet је формат података који се често користи у комбинацији са великим подацима.
- 3) Обрада података
- Ово је најузбудљивији део путовања података, који укључује конвертовање података из њиховог оригиналног облика у облик који се може користити за визуализацију/обуку модела. Када се ради о неструктурисаним подацима као што су текст или слике, можда ћемо морати да користимо неке AI технике за извлачење карактеристика из података, чиме их конвертујемо у структурисани облик.
- 4) Визуелизација / Људски увиди
- Често, да бисмо разумели податке, морамо их визуализовати. Имајући много различитих техника визуализације у нашем алату, можемо пронаћи прави приказ за добијање увида. Често, научник који се бави подацима мора "играти се са подацима", визуализујући их много пута и тражећи неке односе. Такође, можемо користити статистичке технике за тестирање хипотеза или доказивање корелације између различитих делова података.
- 5) Обука предиктивног модела
- Пошто је крајњи циљ науке о подацима да буде у могућности да доноси одлуке на основу података, можда ћемо желети да користимо технике машинског учења за изградњу предиктивног модела. Можемо га затим користити за предвиђања користећи нове скупове података са сличним структурама.
Наравно, у зависности од стварних података, неки кораци могу недостајати (нпр. када већ имамо податке у бази података или када нам није потребна обука модела), или неки кораци могу бити поновљени више пута (као што је обрада података).
Дигитализација и дигитална трансформација
У последњој деценији, многе компаније су почеле да схватају важност података приликом доношења пословних одлука. Да би применили принципе нау
Можда ћете тврдити да овај приступ није идеалан, јер модули могу бити различите дужине. Вероватно је праведније поделити време са дужином модула (у броју карактера) и упоредити те вредности.
Када почнемо да анализирамо резултате тестова са вишеструким избором, можемо покушати да утврдимо које концепте ученици имају потешкоћа да разумеју и да искористимо те информације за побољшање садржаја. Да бисмо то урадили, потребно је да осмислимо тестове на такав начин да свако питање одговара одређеном концепту или делу знања.
Ако желимо да се упустимо у још сложенију анализу, можемо приказати време потребно за сваки модул у односу на старосну категорију ученика. Можда ћемо открити да за неке старосне категорије треба непримерено дуго да се заврши модул или да ученици одустану пре него што га заврше. Ово нам може помоћи да дамо препоруке за старосну групу за модул и да минимизирамо незадовољство људи због погрешних очекивања.
🚀 Изазов
У овом изазову, покушаћемо да пронађемо концепте релевантне за област науке о подацима анализирајући текстове. Узет ћемо Википедијски чланак о науци о подацима, преузети и обрадити текст, а затим направити облак речи попут овог:
Посетите notebook.ipynb да бисте прочитали код. Такође можете покренути код и видети како у реалном времену врши све трансформације података.
Ако не знате како да покренете код у Jupyter Notebook-у, погледајте овај чланак.
Квиз након предавања
Задаци
- Задатак 1: Измените горњи код да бисте пронашли повезане концепте за области Big Data и Machine Learning
- Задатак 2: Размислите о сценаријима науке о подацима
Аутори
Ова лекција је написана са ♥️ од стране Дмитрија Сошњикова
Одрицање од одговорности:
Овај документ је преведен помоћу услуге за превођење вештачке интелигенције Co-op Translator. Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода.


