You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/cs/6-Data-Science-In-Wild/20-Real-World-Examples/README.md

19 KiB

Data Science v reálném světě

 Sketchnote od (@sketchthedocs)
Data Science v reálném světě - Sketchnote od @nitya

Jsme téměř na konci této vzdělávací cesty!

Začali jsme definicemi data science a etiky, prozkoumali různé nástroje a techniky pro analýzu a vizualizaci dat, přezkoumali životní cyklus data science a podívali se na škálování a automatizaci pracovních postupů data science pomocí cloudových služeb. Možná si teď říkáte: "Jak přesně mohu všechny tyto poznatky aplikovat v reálném světě?"

V této lekci prozkoumáme reálné aplikace data science napříč průmyslem a ponoříme se do konkrétních příkladů v oblasti výzkumu, digitálních humanitních věd a udržitelnosti. Podíváme se na příležitosti studentských projektů a zakončíme užitečnými zdroji, které vám pomohou pokračovat ve vaší vzdělávací cestě!

Kvíz před přednáškou

Kvíz před přednáškou

Data Science + průmysl

Díky demokratizaci AI je pro vývojáře nyní snazší navrhovat a integrovat rozhodování řízené AI a poznatky založené na datech do uživatelských zkušeností a vývojových pracovních postupů. Zde je několik příkladů, jak je data science "aplikována" v reálných aplikacích napříč průmyslem:

  • Google Flu Trends využíval data science k propojení vyhledávacích dotazů s trendy chřipky. Přestože měl tento přístup své nedostatky, upozornil na možnosti (a výzvy) predikcí ve zdravotnictví založených na datech.

  • Predikce tras UPS - popisuje, jak UPS využívá data science a strojové učení k predikci optimálních tras pro doručování s ohledem na povětrnostní podmínky, dopravní situaci, termíny doručení a další faktory.

  • Vizualizace tras taxíků v NYC - data získaná pomocí zákonů o svobodném přístupu k informacím pomohla vizualizovat denní provoz taxíků v NYC, což nám umožňuje pochopit, jak se pohybují po městě, kolik vydělávají a jak dlouho trvají jednotlivé jízdy během 24 hodin.

  • Uber Data Science Workbench - využívá data (o místech vyzvednutí a vysazení, délce jízdy, preferovaných trasách atd.) shromážděná z milionů jízd Uberu denně k vytvoření analytického nástroje, který pomáhá s cenotvorbou, bezpečností, detekcí podvodů a navigačními rozhodnutími.

  • Sportovní analytika - zaměřuje se na prediktivní analytiku (analýza týmů a hráčů - viz Moneyball - a řízení fanoušků) a vizualizaci dat (dashboardy týmů a fanoušků, hry atd.) s aplikacemi jako skauting talentů, sportovní sázení a řízení zásob/areálů.

  • Data Science v bankovnictví - zdůrazňuje hodnotu data science ve finančním sektoru s aplikacemi od modelování rizik a detekce podvodů po segmentaci zákazníků, predikce v reálném čase a doporučovací systémy. Prediktivní analytika také podporuje klíčová opatření, jako jsou kreditní skóre.

  • Data Science ve zdravotnictví - zdůrazňuje aplikace jako lékařské zobrazování (např. MRI, rentgen, CT), genomiku (sekvenování DNA), vývoj léků (hodnocení rizik, predikce úspěšnosti), prediktivní analytiku (péče o pacienty a logistika zásob), sledování a prevence nemocí atd.

Aplikace Data Science v reálném světě Zdroj obrázku: Data Flair: 6 Amazing Data Science Applications

Obrázek ukazuje další oblasti a příklady aplikace technik data science. Chcete prozkoumat další aplikace? Podívejte se na sekci Přehled a samostudium níže.

Data Science + výzkum

 Sketchnote od (@sketchthedocs)
Data Science & výzkum - Sketchnote od @nitya

Zatímco reálné aplikace se často zaměřují na průmyslové případy ve velkém měřítku, aplikace a projekty ve výzkumu mohou být užitečné ze dvou hledisek:

  • příležitosti k inovacím - zkoumání rychlého prototypování pokročilých konceptů a testování uživatelských zkušeností pro aplikace nové generace.
  • výzvy při nasazení - zkoumání potenciálních škod nebo neúmyslných důsledků technologií data science v reálných kontextech.

Pro studenty mohou tyto výzkumné projekty poskytnout jak příležitosti k učení, tak ke spolupráci, což může zlepšit jejich porozumění tématu a rozšířit povědomí a zapojení s relevantními lidmi nebo týmy pracujícími v oblastech zájmu. Jak tedy výzkumné projekty vypadají a jaký mohou mít dopad?

Podívejme se na jeden příklad - MIT Gender Shades Study od Joy Buolamwini (MIT Media Labs) s významným výzkumným článkem spoluautorky Timnit Gebru (tehdy v Microsoft Research), který se zaměřil na:

  • Co: Cílem výzkumného projektu bylo vyhodnotit přítomnost zaujatosti v algoritmech a datových sadách pro automatizovanou analýzu obličejů na základě pohlaví a typu pleti.
  • Proč: Analýza obličejů se používá v oblastech jako vymáhání práva, letištní bezpečnost, náborové systémy a další - kontexty, kde nepřesné klasifikace (např. kvůli zaujatosti) mohou způsobit ekonomické a sociální škody dotčeným jednotlivcům nebo skupinám. Porozumění (a eliminace nebo zmírnění) zaujatosti je klíčem k férovosti při používání.
  • Jak: Výzkumníci si uvědomili, že stávající benchmarky používaly převážně subjekty se světlejší pletí, a vytvořili novou datovou sadu (1000+ obrázků), která byla vyváženější podle pohlaví a typu pleti. Tato datová sada byla použita k vyhodnocení přesnosti tří produktů pro klasifikaci pohlaví (od Microsoftu, IBM a Face++).

Výsledky ukázaly, že přestože celková přesnost klasifikace byla dobrá, existoval znatelný rozdíl v chybovosti mezi různými podskupinami - s nesprávným určením pohlaví častějším u žen nebo osob s tmavší pletí, což naznačuje zaujatost.

Klíčové výsledky: Zvýšení povědomí o tom, že data science potřebuje více reprezentativních datových sad (vyvážené podskupiny) a více inkluzivních týmů (různorodé zázemí), aby bylo možné rozpoznat a eliminovat nebo zmírnit takové zaujatosti dříve v AI řešeních. Výzkumné úsilí, jako je toto, je také klíčové pro definování principů a postupů pro zodpovědnou AI v mnoha organizacích, aby se zlepšila férovost jejich AI produktů a procesů.

Chcete se dozvědět o relevantních výzkumných aktivitách v Microsoftu?

Data Science + humanitní vědy

 Sketchnote od (@sketchthedocs)
Data Science & digitální humanitní vědy - Sketchnote od @nitya

Digitální humanitní vědy byly definovány jako "soubor praktik a přístupů kombinujících výpočetní metody s humanitním bádáním". Projekty Stanfordu jako "rebooting history" a "poetic thinking" ilustrují propojení mezi digitálními humanitními vědami a data science - zdůrazňují techniky jako analýza sítí, vizualizace informací, prostorová a textová analýza, které nám mohou pomoci znovu prozkoumat historické a literární datové sady a získat nové poznatky a perspektivy.

Chcete prozkoumat a rozšířit projekt v této oblasti?

Podívejte se na "Emily Dickinson and the Meter of Mood" - skvělý příklad od Jen Looper, který se ptá, jak můžeme pomocí data science znovu prozkoumat známou poezii a přehodnotit její význam a přínos její autorky v nových kontextech. Například, můžeme předpovědět roční období, ve kterém byla báseň napsána, analýzou jejího tónu nebo sentimentu - a co nám to říká o stavu mysli autorky během daného období?

K zodpovězení této otázky následujeme kroky životního cyklu data science:

  • Získávání dat - sběr relevantní datové sady pro analýzu. Možnosti zahrnují použití API (např. Poetry DB API) nebo scraping webových stránek (např. Project Gutenberg) pomocí nástrojů jako Scrapy.
  • Čištění dat - vysvětluje, jak lze text formátovat, čistit a zjednodušovat pomocí základních nástrojů jako Visual Studio Code a Microsoft Excel.
  • Analýza dat - vysvětluje, jak můžeme nyní importovat datovou sadu do "notebooků" pro analýzu pomocí Python knihoven (jako pandas, numpy a matplotlib) k organizaci a vizualizaci dat.
  • Analýza sentimentu - vysvětluje, jak můžeme integrovat cloudové služby jako Text Analytics, pomocí nástrojů s nízkým kódem jako Power Automate pro automatizované pracovní postupy zpracování dat.

Pomocí tohoto pracovního postupu můžeme zkoumat sezónní vlivy na sentiment básní a pomoci nám vytvořit vlastní pohledy na autorku. Vyzkoušejte si to sami - a poté rozšiřte notebook o další otázky nebo vizualizujte data novými způsoby!

Můžete použít některé nástroje z Digital Humanities toolkit k prozkoumání těchto otázek.

Data Science + udržitelnost

 Sketchnote od (@sketchthedocs)
Data Science & udržitelnost - Sketchnote od @nitya

Agenda 2030 pro udržitelný rozvoj - přijatá všemi členy OSN v roce 2015 - identifikuje 17 cílů, včetně těch, které se zaměřují na ochranu planety před degradací a dopady změny klimatu. Iniciativa Microsoft Sustainability podporuje tyto cíle zkoumáním způsobů, jak mohou technologická řešení podpořit a budovat udržitelnější budoucnost se zaměřením na 4 cíle - být uhlíkově negativní, vodně pozitivní, bez odpadu a biodiverzní do roku 2030.

Řešení těchto výzev ve škálovatelném a včasném měřítku vyžaduje myšlení v měřítku cloudu - a velká data. Iniciativa Planetary Computer poskytuje 4 komponenty, které pomáhají datovým vědcům a vývojářům v tomto úsilí:

  • Katalog dat - s petabajty dat o zemských systémech (zdarma a hostováno na Azure).

  • Planetary API - pomáhá uživatelům vyhledávat relevantní data napříč prostorem a časem.

  • Hub - spravované prostředí pro vědce ke zpracování masivních geodatových sad.

  • Aplikace - ukázky případů použití a nástrojů pro udržitelné poznatky. Projekt Planetary Computer je aktuálně v náhledu (k září 2021) - zde je návod, jak začít přispívat k řešením udržitelnosti pomocí datové vědy.

  • Požádejte o přístup a začněte s průzkumem a propojením s ostatními.

  • Prozkoumejte dokumentaci, abyste porozuměli podporovaným datovým sadám a API.

  • Pro inspiraci na aplikační nápady prozkoumejte aplikace jako Ecosystem Monitoring.

Přemýšlejte o tom, jak můžete využít vizualizaci dat k odhalení nebo zdůraznění relevantních poznatků v oblastech, jako je změna klimatu a odlesňování. Nebo přemýšlejte o tom, jak lze poznatky využít k vytvoření nových uživatelských zážitků, které motivují ke změně chování směrem k udržitelnějšímu životnímu stylu.

Datová věda + studenti

Mluvili jsme o aplikacích v reálném světě v průmyslu a výzkumu a prozkoumali příklady aplikací datové vědy v digitálních humanitních vědách a udržitelnosti. Jak si tedy můžete jako začátečníci v datové vědě budovat dovednosti a sdílet své znalosti?

Zde je několik příkladů studentských projektů v oblasti datové vědy, které vás mohou inspirovat.

🚀 Výzva

Vyhledejte články, které doporučují projekty datové vědy vhodné pro začátečníky - například těchto 50 témat, těchto 21 nápadů na projekty nebo těchto 16 projektů se zdrojovým kódem, které můžete rozebrat a znovu sestavit. Nezapomeňte také blogovat o svých učebních cestách a sdílet své poznatky s námi všemi.

Kvíz po přednášce

Kvíz po přednášce

Přehled a samostudium

Chcete prozkoumat více případů použití? Zde je několik relevantních článků:

Zadání

Prozkoumejte datovou sadu Planetary Computer


Prohlášení:
Tento dokument byl přeložen pomocí služby pro automatický překlad Co-op Translator. Přestože se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace doporučujeme profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.