19 KiB
Data Science v reálnom svete
![]() |
---|
Data Science v reálnom svete - Sketchnote od @nitya |
Sme takmer na konci tejto vzdelávacej cesty!
Začali sme definíciami dátovej vedy a etiky, preskúmali rôzne nástroje a techniky na analýzu a vizualizáciu dát, prešli životný cyklus dátovej vedy a pozreli sa na škálovanie a automatizáciu pracovných postupov dátovej vedy pomocou cloudových služieb. Pravdepodobne sa pýtate: "Ako presne môžem všetky tieto poznatky aplikovať v reálnom svete?"
V tejto lekcii preskúmame reálne aplikácie dátovej vedy v rôznych odvetviach a ponoríme sa do konkrétnych príkladov v oblasti výskumu, digitálnych humanitných vied a udržateľnosti. Pozrieme sa na príležitosti pre študentské projekty a zakončíme užitočnými zdrojmi, ktoré vám pomôžu pokračovať vo vašej vzdelávacej ceste!
Kvíz pred prednáškou
Data Science + Priemysel
Vďaka demokratizácii AI je pre vývojárov teraz jednoduchšie navrhovať a integrovať rozhodovanie poháňané AI a poznatky založené na dátach do používateľských skúseností a vývojových pracovných postupov. Tu je niekoľko príkladov, ako sa dátová veda "aplikuje" v reálnych aplikáciách naprieč priemyslom:
-
Google Flu Trends využíval dátovú vedu na koreláciu vyhľadávacích výrazov s trendmi chrípky. Hoci prístup mal nedostatky, zvýšil povedomie o možnostiach (a výzvách) predpovedí v zdravotníctve založených na dátach.
-
Predikcie trás UPS - vysvetľuje, ako UPS využíva dátovú vedu a strojové učenie na predpovedanie optimálnych trás pre doručovanie, pričom zohľadňuje poveternostné podmienky, dopravné vzory, termíny doručenia a ďalšie faktory.
-
Vizualizácia trás taxíkov v NYC - dáta získané pomocou zákonov o slobode informácií pomohli vizualizovať jeden deň v živote taxíkov v NYC, čo nám umožňuje pochopiť, ako sa pohybujú po rušnom meste, koľko zarábajú a aké sú trvania ciest počas 24-hodinového obdobia.
-
Uber Data Science Workbench - využíva dáta (o miestach vyzdvihnutia a vysadenia, trvaní ciest, preferovaných trasách atď.) získané z miliónov denných jázd Uberom na vytvorenie nástroja na analýzu dát, ktorý pomáha s cenotvorbou, bezpečnosťou, detekciou podvodov a navigačnými rozhodnutiami.
-
Analytika v športe - zameriava sa na prediktívnu analytiku (analýza tímov a hráčov - napr. Moneyball - a manažment fanúšikov) a vizualizáciu dát (dashboardy tímov a fanúšikov, hry atď.) s aplikáciami ako skauting talentov, športové stávkovanie a manažment inventára/miest.
-
Dátová veda v bankovníctve - zdôrazňuje hodnotu dátovej vedy vo finančnom priemysle s aplikáciami od modelovania rizík a detekcie podvodov, cez segmentáciu zákazníkov, až po predikcie v reálnom čase a odporúčacie systémy. Prediktívna analytika tiež poháňa kritické opatrenia ako kreditné skóre.
-
Dátová veda v zdravotníctve - zdôrazňuje aplikácie ako medicínske zobrazovanie (napr. MRI, röntgen, CT-sken), genomika (sekvenovanie DNA), vývoj liekov (hodnotenie rizík, predikcia úspechu), prediktívna analytika (starostlivosť o pacientov a logistika zásob), sledovanie a prevencia chorôb atď.
Zdroj obrázku: Data Flair: 6 Amazing Data Science Applications
Obrázok ukazuje ďalšie oblasti a príklady aplikácie techník dátovej vedy. Chcete preskúmať ďalšie aplikácie? Pozrite si sekciu Recenzia a samostatné štúdium nižšie.
Data Science + Výskum
![]() |
---|
Dátová veda & Výskum - Sketchnote od @nitya |
Zatiaľ čo aplikácie v reálnom svete sa často zameriavajú na priemyselné prípady použitia vo veľkom meradle, výskumné aplikácie a projekty môžu byť užitočné z dvoch perspektív:
- príležitosti na inovácie - skúmanie rýchleho prototypovania pokročilých konceptov a testovanie používateľských skúseností pre aplikácie budúcej generácie.
- výzvy pri nasadení - skúmanie potenciálnych škôd alebo neúmyselných dôsledkov technológií dátovej vedy v reálnych kontextoch.
Pre študentov môžu tieto výskumné projekty poskytnúť príležitosti na učenie a spoluprácu, ktoré zlepšia vaše pochopenie témy a rozšíria vaše povedomie a zapojenie sa s relevantnými ľuďmi alebo tímami pracujúcimi v oblastiach záujmu. Ako vyzerajú výskumné projekty a aký môžu mať dopad?
Pozrime sa na jeden príklad - MIT Gender Shades Study od Joy Buolamwini (MIT Media Labs) s významným výskumným článkom spoluautorky Timnit Gebru (vtedy v Microsoft Research), ktorý sa zameriaval na:
- Čo: Cieľom výskumného projektu bolo hodnotiť predsudky prítomné v automatizovaných algoritmoch na analýzu tvárí a dátových súboroch na základe pohlavia a typu pokožky.
- Prečo: Analýza tvárí sa používa v oblastiach ako presadzovanie práva, bezpečnosť na letiskách, systémy na prijímanie zamestnancov a ďalšie - kontexty, kde nepresné klasifikácie (napr. kvôli predsudkom) môžu spôsobiť potenciálne ekonomické a sociálne škody dotknutým jednotlivcom alebo skupinám. Pochopenie (a eliminácia alebo zmiernenie) predsudkov je kľúčom k spravodlivosti pri používaní.
- Ako: Výskumníci si uvedomili, že existujúce benchmarky používali prevažne subjekty so svetlejšou pokožkou, a vytvorili nový dátový súbor (1000+ obrázkov), ktorý bol viac vyvážený podľa pohlavia a typu pokožky. Tento dátový súbor bol použitý na hodnotenie presnosti troch produktov na klasifikáciu pohlavia (od Microsoftu, IBM a Face++).
Výsledky ukázali, že hoci celková presnosť klasifikácie bola dobrá, existoval výrazný rozdiel v chybovosti medzi rôznymi podskupinami - s nesprávnym určením pohlavia častejším u žien alebo osôb s tmavšou pokožkou, čo naznačuje predsudky.
Kľúčové výsledky: Zvýšenie povedomia o tom, že dátová veda potrebuje viac reprezentatívnych dátových súborov (vyvážené podskupiny) a viac inkluzívnych tímov (rôznorodé pozadie), aby sa takéto predsudky rozpoznali a eliminovali alebo zmiernili skôr v AI riešeniach. Výskumné úsilie ako toto je tiež zásadné pre mnohé organizácie pri definovaní princípov a praktík pre zodpovednú AI, aby sa zlepšila spravodlivosť naprieč ich AI produktmi a procesmi.
Chcete sa dozvedieť o relevantných výskumných aktivitách v Microsoft?
- Pozrite si Microsoft Research Projects v oblasti umelej inteligencie.
- Preskúmajte študentské projekty z Microsoft Research Data Science Summer School.
- Pozrite si projekt Fairlearn a iniciatívy Responsible AI.
Data Science + Humanitné vedy
![]() |
---|
Dátová veda & Digitálne humanitné vedy - Sketchnote od @nitya |
Digitálne humanitné vedy boli definované ako "súbor praktík a prístupov kombinujúcich výpočtové metódy s humanistickým skúmaním". Projekty Stanfordu ako "rebooting history" a "poetic thinking" ilustrujú prepojenie medzi digitálnymi humanitnými vedami a dátovou vedou - zdôrazňujúc techniky ako analýza sietí, vizualizácia informácií, priestorová a textová analýza, ktoré nám môžu pomôcť znovu preskúmať historické a literárne dátové súbory a odvodiť nové poznatky a perspektívy.
Chcete preskúmať a rozšíriť projekt v tejto oblasti?
Pozrite si "Emily Dickinson and the Meter of Mood" - skvelý príklad od Jen Looper, ktorý sa pýta, ako môžeme pomocou dátovej vedy znovu preskúmať známe básne a prehodnotiť ich význam a prínos ich autora v nových kontextoch. Napríklad, môžeme predpovedať ročné obdobie, v ktorom bola báseň napísaná, analýzou jej tónu alebo sentimentu - a čo nám to hovorí o stave mysle autora počas relevantného obdobia?
Na zodpovedanie tejto otázky nasledujeme kroky životného cyklu dátovej vedy:
Získavanie dát
- na zhromaždenie relevantného dátového súboru na analýzu. Možnosti zahŕňajú použitie API (napr. Poetry DB API) alebo scraping webových stránok (napr. Project Gutenberg) pomocou nástrojov ako Scrapy.Čistenie dát
- vysvetľuje, ako môže byť text formátovaný, sanitizovaný a zjednodušený pomocou základných nástrojov ako Visual Studio Code a Microsoft Excel.Analýza dát
- vysvetľuje, ako môžeme teraz importovať dátový súbor do "Notebooks" na analýzu pomocou Python balíkov (ako pandas, numpy a matplotlib) na organizáciu a vizualizáciu dát.Analýza sentimentu
- vysvetľuje, ako môžeme integrovať cloudové služby ako Text Analytics, pomocou nástrojov s nízkym kódom ako Power Automate na automatizované pracovné postupy spracovania dát.
Pomocou tohto pracovného postupu môžeme preskúmať sezónne vplyvy na sentiment básní a pomôcť nám vytvoriť vlastné perspektívy o autorovi. Vyskúšajte to sami - potom rozšírte notebook, aby ste položili ďalšie otázky alebo vizualizovali dáta novými spôsobmi!
Môžete použiť niektoré nástroje z Digital Humanities toolkit na preskúmanie týchto otázok.
Data Science + Udržateľnosť
![]() |
---|
Dátová veda & Udržateľnosť - Sketchnote od @nitya |
Agenda 2030 pre udržateľný rozvoj - prijatá všetkými členmi OSN v roku 2015 - identifikuje 17 cieľov vrátane tých, ktoré sa zameriavajú na ochranu planéty pred degradáciou a dopadmi klimatických zmien. Iniciatíva Microsoft Sustainability podporuje tieto ciele skúmaním spôsobov, ako technologické riešenia môžu podporiť a budovať udržateľnejšiu budúcnosť so zameraním na 4 ciele - byť uhlíkovo negatívny, vodne pozitívny, bez odpadu a biodiverzný do roku 2030.
Riešenie týchto výziev v škálovateľnom a včasnom meradle si vyžaduje cloudové myslenie - a veľké množstvo dát. Iniciatíva Planetary Computer poskytuje 4 komponenty, ktoré pomáhajú dátovým vedcom a vývojárom v tomto úsilí:
-
Katalóg dát - s petabajtmi dát o systémoch Zeme (bezplatné a hostované na Azure).
-
Planetary API - na pomoc používateľom pri hľadaní relevantných dát naprieč priestorom a časom.
-
Hub - spravované prostredie pre vedcov na sprac Projekt Planetary Computer je momentálne v náhľade (k septembru 2021) - tu je návod, ako začať prispievať k riešeniam udržateľnosti pomocou dátovej vedy.
-
Požiadajte o prístup, aby ste mohli začať s prieskumom a spojiť sa s kolegami.
-
Preskúmajte dokumentáciu, aby ste pochopili podporované datasety a API.
-
Preskúmajte aplikácie ako Monitorovanie ekosystémov pre inšpiráciu na nápady aplikácií.
Premýšľajte o tom, ako môžete využiť vizualizáciu dát na odhalenie alebo zvýraznenie relevantných poznatkov v oblastiach, ako sú klimatické zmeny a odlesňovanie. Alebo premýšľajte o tom, ako môžu byť poznatky použité na vytvorenie nových užívateľských zážitkov, ktoré motivujú k zmenám správania pre udržateľnejší život.
Dátová veda + študenti
Hovorili sme o aplikáciách v reálnom svete v priemysle a výskume a preskúmali sme príklady aplikácií dátovej vedy v digitálnych humanitných vedách a udržateľnosti. Ako si teda môžete budovať svoje zručnosti a zdieľať svoje odborné znalosti ako začiatočníci v dátovej vede?
Tu je niekoľko príkladov študentských projektov v dátovej vede, ktoré vás môžu inšpirovať.
- MSR Data Science Summer School s GitHub projektmi, ktoré skúmajú témy ako:
- Digitalizácia materiálnej kultúry: Skúmanie socio-ekonomických rozdelení v Sirkape - od Ornella Altunyan a tímu z Claremont, s použitím ArcGIS StoryMaps.
🚀 Výzva
Vyhľadajte články, ktoré odporúčajú projekty dátovej vedy vhodné pre začiatočníkov - ako napríklad týchto 50 tém, týchto 21 nápadov na projekty alebo týchto 16 projektov so zdrojovým kódom, ktoré môžete rozobrať a upraviť. A nezabudnite blogovať o svojich učebných cestách a zdieľať svoje poznatky s nami všetkými.
Kvíz po prednáške
Prehľad a samoštúdium
Chcete preskúmať viac prípadov použitia? Tu je niekoľko relevantných článkov:
- 17 aplikácií a príkladov dátovej vedy - júl 2021
- 11 úžasných aplikácií dátovej vedy v reálnom svete - máj 2021
- Dátová veda v reálnom svete - kolekcia článkov
- Dátová veda v: vzdelávaní, poľnohospodárstve, financiách, filmoch a ďalších.
Zadanie
Preskúmajte dataset Planetary Computer
Upozornenie:
Tento dokument bol preložený pomocou služby na automatický preklad Co-op Translator. Aj keď sa snažíme o presnosť, upozorňujeme, že automatické preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre dôležité informácie sa odporúča profesionálny ľudský preklad. Nezodpovedáme za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.