19 KiB
Data Science v reálném světě
![]() |
---|
Data Science v reálném světě - Sketchnote od @nitya |
Jsme téměř na konci této vzdělávací cesty!
Začali jsme definicemi data science a etiky, prozkoumali různé nástroje a techniky pro analýzu a vizualizaci dat, přezkoumali životní cyklus data science a podívali se na škálování a automatizaci pracovních postupů data science pomocí cloudových služeb. Možná si teď říkáte: "Jak přesně mohu všechny tyto poznatky aplikovat v reálném světě?"
V této lekci prozkoumáme reálné aplikace data science napříč průmyslem a ponoříme se do konkrétních příkladů v oblasti výzkumu, digitálních humanitních věd a udržitelnosti. Podíváme se na příležitosti studentských projektů a zakončíme užitečnými zdroji, které vám pomohou pokračovat ve vaší vzdělávací cestě!
Kvíz před přednáškou
Data Science + průmysl
Díky demokratizaci AI je pro vývojáře nyní snazší navrhovat a integrovat rozhodování řízené AI a poznatky založené na datech do uživatelských zkušeností a vývojových pracovních postupů. Zde je několik příkladů, jak je data science "aplikována" v reálných aplikacích napříč průmyslem:
-
Google Flu Trends využíval data science k propojení vyhledávacích dotazů s trendy chřipky. Přestože měl tento přístup své nedostatky, upozornil na možnosti (a výzvy) predikcí ve zdravotnictví založených na datech.
-
Predikce tras UPS - popisuje, jak UPS využívá data science a strojové učení k predikci optimálních tras pro doručování s ohledem na povětrnostní podmínky, dopravní situaci, termíny doručení a další faktory.
-
Vizualizace tras taxíků v NYC - data získaná pomocí zákonů o svobodném přístupu k informacím pomohla vizualizovat denní provoz taxíků v NYC, což nám umožňuje pochopit, jak se pohybují po městě, kolik vydělávají a jak dlouho trvají jednotlivé jízdy během 24 hodin.
-
Uber Data Science Workbench - využívá data (o místech vyzvednutí a vysazení, délce jízdy, preferovaných trasách atd.) shromážděná z milionů jízd Uberu denně k vytvoření analytického nástroje, který pomáhá s cenotvorbou, bezpečností, detekcí podvodů a navigačními rozhodnutími.
-
Sportovní analytika - zaměřuje se na prediktivní analytiku (analýza týmů a hráčů - viz Moneyball - a řízení fanoušků) a vizualizaci dat (dashboardy týmů a fanoušků, hry atd.) s aplikacemi jako skauting talentů, sportovní sázení a řízení zásob/areálů.
-
Data Science v bankovnictví - zdůrazňuje hodnotu data science ve finančním sektoru s aplikacemi od modelování rizik a detekce podvodů po segmentaci zákazníků, predikce v reálném čase a doporučovací systémy. Prediktivní analytika také podporuje klíčová opatření, jako jsou kreditní skóre.
-
Data Science ve zdravotnictví - zdůrazňuje aplikace jako lékařské zobrazování (např. MRI, rentgen, CT), genomiku (sekvenování DNA), vývoj léků (hodnocení rizik, predikce úspěšnosti), prediktivní analytiku (péče o pacienty a logistika zásob), sledování a prevence nemocí atd.
Zdroj obrázku: Data Flair: 6 Amazing Data Science Applications
Obrázek ukazuje další oblasti a příklady aplikace technik data science. Chcete prozkoumat další aplikace? Podívejte se na sekci Přehled a samostudium níže.
Data Science + výzkum
![]() |
---|
Data Science & výzkum - Sketchnote od @nitya |
Zatímco reálné aplikace se často zaměřují na průmyslové případy ve velkém měřítku, aplikace a projekty ve výzkumu mohou být užitečné ze dvou hledisek:
- příležitosti k inovacím - zkoumání rychlého prototypování pokročilých konceptů a testování uživatelských zkušeností pro aplikace nové generace.
- výzvy při nasazení - zkoumání potenciálních škod nebo neúmyslných důsledků technologií data science v reálných kontextech.
Pro studenty mohou tyto výzkumné projekty poskytnout jak příležitosti k učení, tak ke spolupráci, což může zlepšit jejich porozumění tématu a rozšířit povědomí a zapojení s relevantními lidmi nebo týmy pracujícími v oblastech zájmu. Jak tedy výzkumné projekty vypadají a jaký mohou mít dopad?
Podívejme se na jeden příklad - MIT Gender Shades Study od Joy Buolamwini (MIT Media Labs) s významným výzkumným článkem spoluautorky Timnit Gebru (tehdy v Microsoft Research), který se zaměřil na:
- Co: Cílem výzkumného projektu bylo vyhodnotit přítomnost zaujatosti v algoritmech a datových sadách pro automatizovanou analýzu obličejů na základě pohlaví a typu pleti.
- Proč: Analýza obličejů se používá v oblastech jako vymáhání práva, letištní bezpečnost, náborové systémy a další - kontexty, kde nepřesné klasifikace (např. kvůli zaujatosti) mohou způsobit ekonomické a sociální škody dotčeným jednotlivcům nebo skupinám. Porozumění (a eliminace nebo zmírnění) zaujatosti je klíčem k férovosti při používání.
- Jak: Výzkumníci si uvědomili, že stávající benchmarky používaly převážně subjekty se světlejší pletí, a vytvořili novou datovou sadu (1000+ obrázků), která byla vyváženější podle pohlaví a typu pleti. Tato datová sada byla použita k vyhodnocení přesnosti tří produktů pro klasifikaci pohlaví (od Microsoftu, IBM a Face++).
Výsledky ukázaly, že přestože celková přesnost klasifikace byla dobrá, existoval znatelný rozdíl v chybovosti mezi různými podskupinami - s nesprávným určením pohlaví častějším u žen nebo osob s tmavší pletí, což naznačuje zaujatost.
Klíčové výsledky: Zvýšení povědomí o tom, že data science potřebuje více reprezentativních datových sad (vyvážené podskupiny) a více inkluzivních týmů (různorodé zázemí), aby bylo možné rozpoznat a eliminovat nebo zmírnit takové zaujatosti dříve v AI řešeních. Výzkumné úsilí, jako je toto, je také klíčové pro definování principů a postupů pro zodpovědnou AI v mnoha organizacích, aby se zlepšila férovost jejich AI produktů a procesů.
Chcete se dozvědět o relevantních výzkumných aktivitách v Microsoftu?
- Podívejte se na výzkumné projekty Microsoftu v oblasti umělé inteligence.
- Prozkoumejte studentské projekty z Microsoft Research Data Science Summer School.
- Podívejte se na projekt Fairlearn a iniciativy Responsible AI.
Data Science + humanitní vědy
![]() |
---|
Data Science & digitální humanitní vědy - Sketchnote od @nitya |
Digitální humanitní vědy byly definovány jako "soubor praktik a přístupů kombinujících výpočetní metody s humanitním bádáním". Projekty Stanfordu jako "rebooting history" a "poetic thinking" ilustrují propojení mezi digitálními humanitními vědami a data science - zdůrazňují techniky jako analýza sítí, vizualizace informací, prostorová a textová analýza, které nám mohou pomoci znovu prozkoumat historické a literární datové sady a získat nové poznatky a perspektivy.
Chcete prozkoumat a rozšířit projekt v této oblasti?
Podívejte se na "Emily Dickinson and the Meter of Mood" - skvělý příklad od Jen Looper, který se ptá, jak můžeme pomocí data science znovu prozkoumat známou poezii a přehodnotit její význam a přínos její autorky v nových kontextech. Například, můžeme předpovědět roční období, ve kterém byla báseň napsána, analýzou jejího tónu nebo sentimentu - a co nám to říká o stavu mysli autorky během daného období?
K zodpovězení této otázky následujeme kroky životního cyklu data science:
Získávání dat
- sběr relevantní datové sady pro analýzu. Možnosti zahrnují použití API (např. Poetry DB API) nebo scraping webových stránek (např. Project Gutenberg) pomocí nástrojů jako Scrapy.Čištění dat
- vysvětluje, jak lze text formátovat, čistit a zjednodušovat pomocí základních nástrojů jako Visual Studio Code a Microsoft Excel.Analýza dat
- vysvětluje, jak můžeme nyní importovat datovou sadu do "notebooků" pro analýzu pomocí Python knihoven (jako pandas, numpy a matplotlib) k organizaci a vizualizaci dat.Analýza sentimentu
- vysvětluje, jak můžeme integrovat cloudové služby jako Text Analytics, pomocí nástrojů s nízkým kódem jako Power Automate pro automatizované pracovní postupy zpracování dat.
Pomocí tohoto pracovního postupu můžeme zkoumat sezónní vlivy na sentiment básní a pomoci nám vytvořit vlastní pohledy na autorku. Vyzkoušejte si to sami - a poté rozšiřte notebook o další otázky nebo vizualizujte data novými způsoby!
Můžete použít některé nástroje z Digital Humanities toolkit k prozkoumání těchto otázek.
Data Science + udržitelnost
![]() |
---|
Data Science & udržitelnost - Sketchnote od @nitya |
Agenda 2030 pro udržitelný rozvoj - přijatá všemi členy OSN v roce 2015 - identifikuje 17 cílů, včetně těch, které se zaměřují na ochranu planety před degradací a dopady změny klimatu. Iniciativa Microsoft Sustainability podporuje tyto cíle zkoumáním způsobů, jak mohou technologická řešení podpořit a budovat udržitelnější budoucnost se zaměřením na 4 cíle - být uhlíkově negativní, vodně pozitivní, bez odpadu a biodiverzní do roku 2030.
Řešení těchto výzev ve škálovatelném a včasném měřítku vyžaduje myšlení v měřítku cloudu - a velká data. Iniciativa Planetary Computer poskytuje 4 komponenty, které pomáhají datovým vědcům a vývojářům v tomto úsilí:
-
Katalog dat - s petabajty dat o zemských systémech (zdarma a hostováno na Azure).
-
Planetary API - pomáhá uživatelům vyhledávat relevantní data napříč prostorem a časem.
-
Hub - spravované prostředí pro vědce ke zpracování masivních geodatových sad.
-
Aplikace - ukázky případů použití a nástrojů pro udržitelné poznatky. Projekt Planetary Computer je aktuálně v náhledu (k září 2021) - zde je návod, jak začít přispívat k řešením udržitelnosti pomocí datové vědy.
-
Požádejte o přístup a začněte s průzkumem a propojením s ostatními.
-
Prozkoumejte dokumentaci, abyste porozuměli podporovaným datovým sadám a API.
-
Pro inspiraci na aplikační nápady prozkoumejte aplikace jako Ecosystem Monitoring.
Přemýšlejte o tom, jak můžete využít vizualizaci dat k odhalení nebo zdůraznění relevantních poznatků v oblastech, jako je změna klimatu a odlesňování. Nebo přemýšlejte o tom, jak lze poznatky využít k vytvoření nových uživatelských zážitků, které motivují ke změně chování směrem k udržitelnějšímu životnímu stylu.
Datová věda + studenti
Mluvili jsme o aplikacích v reálném světě v průmyslu a výzkumu a prozkoumali příklady aplikací datové vědy v digitálních humanitních vědách a udržitelnosti. Jak si tedy můžete jako začátečníci v datové vědě budovat dovednosti a sdílet své znalosti?
Zde je několik příkladů studentských projektů v oblasti datové vědy, které vás mohou inspirovat.
- MSR Data Science Summer School s GitHub projekty, které zkoumají témata jako:
- Digitalizace materiální kultury: Zkoumání socioekonomických rozložení v Sirkapu - od Ornella Altunyan a týmu z Claremontu, s využitím ArcGIS StoryMaps.
🚀 Výzva
Vyhledejte články, které doporučují projekty datové vědy vhodné pro začátečníky - například těchto 50 témat, těchto 21 nápadů na projekty nebo těchto 16 projektů se zdrojovým kódem, které můžete rozebrat a znovu sestavit. Nezapomeňte také blogovat o svých učebních cestách a sdílet své poznatky s námi všemi.
Kvíz po přednášce
Přehled a samostudium
Chcete prozkoumat více případů použití? Zde je několik relevantních článků:
- 17 aplikací a příkladů datové vědy - červenec 2021
- 11 úchvatných aplikací datové vědy v reálném světě - květen 2021
- Datová věda v reálném světě - sbírka článků
- Datová věda v: vzdělávání, zemědělství, financích, filmech a dalších oblastech.
Zadání
Prozkoumejte datovou sadu Planetary Computer
Prohlášení:
Tento dokument byl přeložen pomocí služby pro automatický překlad Co-op Translator. Přestože se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace doporučujeme profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.