26 KiB
Наука о подацима у стварном свету
![]() |
---|
Наука о подацима у стварном свету - Скетч од @nitya |
Стигли смо скоро до краја овог путовања учења!
Почели смо са дефиницијама науке о подацима и етике, истражили различите алате и технике за анализу и визуализацију података, прегледали животни циклус науке о подацима и погледали како се процеси науке о подацима могу скалирати и аутоматизовати уз помоћ услуга облачног рачунарства. Сада се вероватно питате: "Како тачно да применим све ово знање у стварним контекстима?"
У овој лекцији истражићемо примену науке о подацима у различитим индустријама и дубље се позабавити конкретним примерима у истраживању, дигиталним хуманистичким наукама и одрживости. Погледаћемо могућности студентских пројеката и закључити са корисним ресурсима који ће вам помоћи да наставите своје путовање учења!
Квиз пре предавања
Квиз пре предавања
Наука о подацима + Индустрија
Захваљујући демократизацији вештачке интелигенције, програмери сада лакше дизајнирају и интегришу одлуке засноване на вештачкој интелигенцији и увиде засноване на подацима у корисничка искуства и развојне токове рада. Ево неколико примера како се наука о подацима "примењује" у стварним апликацијама у индустрији:
-
Google Flu Trends је користио науку о подацима за корелацију термина претраге са трендовима грипа. Иако је приступ имао недостатке, подигао је свест о могућностима (и изазовима) предвиђања у здравству заснованог на подацима.
-
UPS Routing Predictions - објашњава како UPS користи науку о подацима и машинско учење за предвиђање оптималних рута за испоруку, узимајући у обзир временске услове, саобраћајне обрасце, рокове испоруке и још много тога.
-
NYC Taxicab Route Visualization - подаци прикупљени коришћењем Закона о слободи информација помогли су у визуализацији једног дана у животу таксија у Њујорку, помажући нам да разумемо како се крећу кроз град, колико зарађују и трајање путовања током сваког 24-часовног периода.
-
Uber Data Science Workbench - користи податке (о локацијама преузимања и остављања, трајању путовања, преферираним рутама итд.) прикупљене из милиона Uber путовања дневно за изградњу алата за анализу података који помаже у одређивању цена, безбедности, откривању превара и навигационим одлукама.
-
Sports Analytics - фокусира се на предиктивну аналитику (анализа тимова и играча - као у Moneyball - и управљање навијачима) и визуализацију података (дашборди тимова и навијача, игре итд.) са апликацијама као што су скаутинг талената, спортско клађење и управљање инвентаром/местом одржавања.
-
Наука о подацима у банкарству - истиче вредност науке о подацима у финансијској индустрији са апликацијама које се крећу од моделирања ризика и откривања превара, до сегментације клијената, предвиђања у реалном времену и система препорука. Предиктивна аналитика такође покреће критичне мере као што су кредитни скор.
-
Наука о подацима у здравству - истиче апликације као што су медицинска сликања (нпр. MRI, X-Ray, CT-Scan), геномика (секвенцирање ДНК), развој лекова (процена ризика, предвиђање успеха), предиктивна аналитика (нега пацијената и логистика снабдевања), праћење и превенција болести итд.
Извор слике: Data Flair: 6 Amazing Data Science Applications
Слика приказује друге домене и примере примене техника науке о подацима. Желите да истражите друге апликације? Погледајте секцију Преглед и самостално учење испод.
Наука о подацима + Истраживање
![]() |
---|
Наука о подацима и истраживање - Скетч од @nitya |
Док се стварне апликације често фокусирају на индустријске случајеве употребе у великом обиму, апликације и пројекти у истраживању могу бити корисни из две перспективе:
- могућности иновација - истраживање брзог прототиписања напредних концепата и тестирање корисничких искустава за апликације следеће генерације.
- изазови у имплементацији - истраживање потенцијалних штета или нежељених последица технологија науке о подацима у стварним контекстима.
За студенте, ови истраживачки пројекти могу пружити могућности за учење и сарадњу које могу побољшати ваше разумевање теме и проширити вашу свест и ангажовање са релевантним људима или тимовима који раде у областима интересовања. Како изгледају истраживачки пројекти и како могу направити утицај?
Погледајмо један пример - MIT Gender Shades Study од Џој Буоламвини (MIT Media Labs) са значајним истраживачким радом коауторисаним са Тимнит Гебру (тада у Microsoft Research) који се фокусирао на:
- Шта: Циљ истраживачког пројекта био је процена пристрасности присутне у алгоритмима и скуповима података за аутоматску анализу лица на основу пола и типа коже.
- Зашто: Анализа лица се користи у областима као што су спровођење закона, безбедност на аеродромима, системи за запошљавање и више - контексти где нетачне класификације (нпр. због пристрасности) могу изазвати потенцијалне економске и социјалне штете за погођене појединце или групе. Разумевање (и елиминисање или ублажавање) пристрасности је кључно за правичност у употреби.
- Како: Истраживачи су препознали да постојећи бенчмаркови углавном користе субјекте светлије коже и креирали нови скуп података (1000+ слика) који је више избалансиран по полу и типу коже. Скуп података је коришћен за процену тачности три производа за класификацију пола (од Microsoft-а, IBM-а и Face++).
Резултати су показали да, иако је укупна тачност класификације била добра, постојала је приметна разлика у стопама грешака између различитих подгрупа - са погрешним одређивањем пола које је било веће за жене или особе тамније коже, што указује на пристрасност.
Кључни резултати: Подигнута је свест да наука о подацима захтева више репрезентативних скупова података (избалансиране подгрупе) и више инклузивних тимова (разнолике позадине) како би се препознале и елиминисале или ублажиле такве пристрасности раније у AI решењима. Истраживачки напори попут овог су такође кључни за многе организације у дефинисању принципа и пракси за одговорну AI како би се побољшала правичност у њиховим AI производима и процесима.
Желите да сазнате више о релевантним истраживачким напорима у Microsoft-у?
- Погледајте Microsoft Research Projects о вештачкој интелигенцији.
- Истражите студентске пројекте из Microsoft Research Data Science Summer School.
- Погледајте пројекат Fairlearn и иницијативе Responsible AI.
Наука о подацима + Хуманистичке науке
![]() |
---|
Наука о подацима и дигиталне хуманистичке науке - Скетч од @nitya |
Дигиталне хуманистичке науке су дефинисане као "збирка пракси и приступа који комбинују рачунарске методе са хуманистичким истраживањем". Пројекти са Станфорда као што су "реобликовање историје" и "поетско размишљање" илуструју везу између Дигиталних хуманистичких наука и науке о подацима - наглашавајући технике као што су анализа мрежа, визуализација информација, просторна и текстуална анализа које нам могу помоћи да поново размотримо историјске и књижевне скупове података како бисмо извели нове увиде и перспективе.
Желите да истражите и проширите пројекат у овој области?
Погледајте "Емили Дикинсон и метар расположења" - одличан пример од Џен Лупер који поставља питање како можемо користити науку о подацима да поново размотримо познату поезију и преиспитамо њено значење и доприносе њеног аутора у новим контекстима. На пример, можемо ли предвидети годишње доба у којем је песма написана анализом њеног тона или сентимента - и шта нам то говори о стању ума аутора током релевантног периода?
Да бисмо одговорили на то питање, следимо кораке животног циклуса науке о подацима:
Прикупљање података
- за прикупљање релевантног скупа података за анализу. Опције укључују коришћење API-ја (нпр. Poetry DB API) или скрапање веб страница (нпр. Project Gutenberg) коришћењем алата као што је Scrapy.Чишћење података
- објашњава како текст може бити форматиран, очишћен и поједностављен коришћењем основних алата као што су Visual Studio Code и Microsoft Excel.Анализа података
- објашњава како можемо сада увозити скуп података у "Бележнице" за анализу коришћењем Python пакета (као што су pandas, numpy и matplotlib) за организовање и визуализацију података.Анализа сентимента
- објашњава како можемо интегрисати облачне услуге као што је Text Analytics, користећи алате са мало кода као што је Power Automate за аутоматизоване токове рада обраде података.
Коришћењем овог тока рада, можемо истражити сезонске утицаје на сентимент песама и помоћи нам да формирамо сопствене перспективе о аутору. Испробајте сами - затим проширите бележницу да поставите друга питања или визуализујете податке на нове начине!
Можете користити неке од алата из алатке за дигиталне хуманистичке науке за истраживање ових области.
Наука о подацима + Одрживост
![]() |
---|
Наука о подацима и одрживост - Скетч од @nitya |
Агенда за одрживи развој до 2030. године - коју су усвојиле све чланице Уједињених нација 2015. године - идентификује 17 циљева, укључујући оне који се фокусирају на заштиту планете од деградације и утицаја климатских промена. Иницијатива Microsoft Sustainability подржава ове циљеве истражујући начине на које техн Пројекат Планетарни Компјутер је тренутно у прегледу (од септембра 2021) - ево како можете започети допринос решењима за одрживост користећи науку о подацима.
- Затражите приступ да започнете истраживање и повежете се са колегама.
- Истражите документацију да бисте разумели подржане скупове података и API-је.
- Истражите апликације као што је Мониторинг екосистема за инспирацију о идејама за апликације.
Размислите о томе како можете користити визуализацију података да откријете или нагласите релевантне увиде у области као што су климатске промене и крчење шума. Или размислите о томе како увиди могу бити коришћени за креирање нових корисничких искустава која мотивишу промене у понашању за одрживији начин живота.
Наука о подацима + Студенти
Говорили смо о применама у индустрији и истраживању, и истраживали примере апликација науке о подацима у дигиталним хуманистичким наукама и одрживости. Па како можете изградити своје вештине и поделити своју експертизу као почетници у науци о подацима?
Ево неколико примера студентских пројеката из области науке о подацима који могу да вас инспиришу.
- MSR Летња школа науке о подацима са GitHub пројектима који истражују теме као што су:
- Дигитализација материјалне културе: Истраживање социо-економских дистрибуција у Сиркапу - од Орнела Алтуњан и тима из Клермонта, користећи ArcGIS StoryMaps.
🚀 Изазов
Претражите чланке који препоручују пројекте из области науке о подацима који су погодни за почетнике - као ових 50 тема или ових 21 идеја за пројекте или ових 16 пројеката са изворним кодом које можете анализирати и прилагодити. И не заборавите да пишете блогове о својим путовањима учења и делите своје увиде са свима нама.
Квиз након предавања
Квиз након предавања
Преглед и самостално учење
Желите да истражите више примена? Ево неколико релевантних чланака:
- 17 Примена и примера науке о подацима - јул 2021
- 11 Задивљујућих примена науке о подацима у стварном свету - мај 2021
- Наука о подацима у стварном свету - збирка чланака
- 12 Примена науке о подацима у стварном свету са примерима - мај 2024
- Наука о подацима у: образовању, пољопривреди, финансијама, филмовима, здравственој заштити и још много тога.
Задатак
Истражите скуп података Планетарног Компјутера
Одрицање од одговорности:
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције Co-op Translator. Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква погрешна тумачења или неспоразуме који могу произаћи из коришћења овог превода.