|
3 weeks ago | |
---|---|---|
.. | ||
README.md | 3 weeks ago | |
assignment.md | 3 weeks ago |
README.md
Увод у науку о подацима у облаку
![]() |
---|
Наука о подацима у облаку: Увод - Скетч од @nitya |
У овој лекцији, научићете основне принципе облака, затим ћете видети зашто је занимљиво користити услуге облака за покретање ваших пројеката из области науке о подацима, и погледаћемо неке примере пројеката из области науке о подацима који се изводе у облаку.
Квиз пре предавања
Шта је облак?
Облак, или рачунарство у облаку, представља испоруку широког спектра услуга рачунарства које се плаћају по употреби и хостују на инфраструктури преко интернета. Услуге укључују решења као што су складиштење, базе података, умрежавање, софтвер, аналитика и интелигентне услуге.
Обично разликујемо јавни, приватни и хибридни облак на следећи начин:
- Јавни облак: јавни облак је у власништву и под управом треће стране која пружа услуге рачунарства преко интернета јавности.
- Приватни облак: односи се на ресурсе рачунарства у облаку који се користе искључиво од стране једног предузећа или организације, са услугама и инфраструктуром одржаваним на приватној мрежи.
- Хибридни облак: хибридни облак је систем који комбинује јавни и приватни облак. Корисници се одлучују за локални дата центар, док омогућавају да се подаци и апликације покрећу на једном или више јавних облака.
Већина услуга рачунарства у облаку спада у три категорије: инфраструктура као услуга (IaaS), платформа као услуга (PaaS) и софтвер као услуга (SaaS).
- Инфраструктура као услуга (IaaS): корисници изнајмљују ИТ инфраструктуру као што су сервери и виртуелне машине (VMs), складиштење, мреже, оперативни системи.
- Платформа као услуга (PaaS): корисници изнајмљују окружење за развој, тестирање, испоруку и управљање софтверским апликацијама. Корисници не морају да брину о постављању или управљању основном инфраструктуром сервера, складиштења, мреже и база података потребних за развој.
- Софтвер као услуга (SaaS): корисници добијају приступ софтверским апликацијама преко интернета, на захтев и обично на основу претплате. Корисници не морају да брину о хостовању и управљању софтверском апликацијом, основној инфраструктури или одржавању, као што су ажурирања софтвера и безбедносне закрпе.
Неки од највећих провајдера облака су Amazon Web Services, Google Cloud Platform и Microsoft Azure.
Зашто изабрати облак за науку о подацима?
Програмери и ИТ професионалци одлучују да раде са облаком из многих разлога, укључујући следеће:
- Иновација: можете покретати своје апликације интегришући иновативне услуге које су креирали провајдери облака директно у ваше апликације.
- Флексибилност: плаћате само за услуге које вам требају и можете бирати из широког спектра услуга. Обично плаћате по употреби и прилагођавате своје услуге у складу са вашим потребама које се мењају.
- Буџет: не морате да правите почетне инвестиције за куповину хардвера и софтвера, постављање и управљање локалним дата центрима, већ плаћате само за оно што користите.
- Скалабилност: ваши ресурси могу се прилагодити потребама вашег пројекта, што значи да ваше апликације могу користити више или мање рачунарске снаге, складиштења и пропусног опсега, прилагођавајући се спољним факторима у било ком тренутку.
- Продуктивност: можете се фокусирати на свој посао уместо да трошите време на задатке које може управљати неко други, као што је управљање дата центрима.
- Поузданост: рачунарство у облаку нуди неколико начина за континуално прављење резервних копија ваших података и можете поставити планове за опоравак од катастрофа како бисте одржали свој посао и услуге, чак и у кризним временима.
- Безбедност: можете искористити политике, технологије и контроле које јачају безбедност вашег пројекта.
Ово су неки од најчешћих разлога зашто људи одлучују да користе услуге облака. Сада када боље разумемо шта је облак и које су његове главне предности, погледајмо конкретније послове научника о подацима и програмера који раде са подацима, и како им облак може помоћи са неколико изазова са којима се могу суочити:
- Чување великих количина података: уместо да купујете, управљате и штитите велике сервере, можете чувати своје податке директно у облаку, са решењима као што су Azure Cosmos DB, Azure SQL Database и Azure Data Lake Storage.
- Извршавање интеграције података: интеграција података је суштински део науке о подацима, који вам омогућава да направите прелазак од прикупљања података до предузимања акција. Уз услуге интеграције података које се нуде у облаку, можете прикупљати, трансформисати и интегрисати податке из различитих извора у један складиште података, уз Data Factory.
- Обрада података: обрада великих количина података захтева много рачунарске снаге, а не сви имају приступ довољно моћним машинама за то, због чега многи људи одлучују да директно искористе огромну рачунарску снагу облака за покретање и примену својих решења.
- Коришћење услуга аналитике података: услуге облака као што су Azure Synapse Analytics, Azure Stream Analytics и Azure Databricks помажу вам да своје податке претворите у корисне увиде.
- Коришћење услуга машинског учења и интелигенције података: уместо да почнете од нуле, можете користити алгоритме машинског учења које нуди провајдер облака, уз услуге као што је AzureML. Такође можете користити когнитивне услуге као што су претварање говора у текст, текст у говор, компјутерски вид и више.
Примери науке о подацима у облаку
Хајде да ово учинимо конкретнијим тако што ћемо погледати неколико сценарија.
Анализа осећања на друштвеним мрежама у реалном времену
Почећемо са сценаријем који често проучавају људи који започињу са машинским учењем: анализа осећања на друштвеним мрежама у реалном времену.
Рецимо да водите веб-сајт са вестима и желите да искористите податке уживо како бисте разумели који садржај би могао занимати ваше читаоце. Да бисте сазнали више о томе, можете направити програм који изводи анализу осећања у реалном времену на подацима из Twitter публикација, о темама које су релевантне за ваше читаоце.
Кључни показатељи које ћете гледати су обим твитова о одређеним темама (хаштаговима) и осећања, која се утврђују помоћу аналитичких алата који изводе анализу осећања око одређених тема.
Потребни кораци за креирање овог пројекта су следећи:
- Креирајте чвориште за догађаје за стриминг улазних података, које ће прикупљати податке са Twitter-а.
- Конфигуришите и покрените Twitter клијент апликацију, која ће позивати Twitter Streaming API-је.
- Креирајте посао за Stream Analytics.
- Спецификујте улаз и упит за посао.
- Креирајте излазни канал и спецификујте излаз за посао.
- Покрените посао.
Да бисте видели цео процес, погледајте документацију.
Анализа научних радова
Хајде да узмемо још један пример пројекта који је креирао Дмитриј Сошњиков, један од аутора овог курикулума.
Дмитриј је направио алат који анализира радове о COVID-у. Прегледом овог пројекта, видећете како можете направити алат који извлачи знање из научних радова, добија увиде и помаже истраживачима да се ефикасно крећу кроз велике колекције радова.
Хајде да видимо различите кораке који су коришћени за ово:
- Извлачење и претпроцесирање информација уз Text Analytics for Health.
- Коришћење Azure ML за паралелизацију обраде.
- Чување и упит информација уз Cosmos DB.
- Креирање интерактивне контролне табле за истраживање и визуализацију података уз Power BI.
Да бисте видели цео процес, посетите Дмитријев блог.
Као што видите, можемо искористити услуге облака на много начина за извођење науке о подацима.
Фуснота
Извори:
- https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
- https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
- https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
Квиз после предавања
Задатак
Одрицање од одговорности:
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције Co-op Translator. Иако се трудимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људи. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода.