|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago |
README.md
Podatkovna znanost v resničnem svetu
![]() |
---|
Podatkovna znanost v resničnem svetu - Sketchnote by @nitya |
Skoraj smo na koncu tega učnega potovanja!
Začeli smo z definicijami podatkovne znanosti in etike, raziskali različna orodja in tehnike za analizo ter vizualizacijo podatkov, pregledali življenjski cikel podatkovne znanosti ter preučili skaliranje in avtomatizacijo delovnih procesov podatkovne znanosti s storitvami v oblaku. Verjetno se sprašujete: "Kako lahko vse te nauke prenesem v resnične kontekste?"
V tej lekciji bomo raziskali resnične aplikacije podatkovne znanosti v industriji ter se poglobili v specifične primere v raziskovalnih, digitalno-humanističnih in trajnostnih kontekstih. Pogledali bomo priložnosti za študentske projekte in zaključili z uporabnimi viri, ki vam bodo pomagali nadaljevati vaše učno potovanje!
Predhodni kviz
Predhodni kviz
Podatkovna znanost + Industrija
Zaradi demokratizacije umetne inteligence razvijalci zdaj lažje oblikujejo in vključujejo odločitve, ki temeljijo na umetni inteligenci, ter vpoglede, ki temeljijo na podatkih, v uporabniške izkušnje in razvojne delovne procese. Tukaj je nekaj primerov, kako se podatkovna znanost "uporablja" v resničnih aplikacijah v industriji:
-
Google Flu Trends je uporabil podatkovno znanost za povezovanje iskalnih izrazov s trendi gripe. Čeprav je imel pristop pomanjkljivosti, je opozoril na možnosti (in izzive) napovedovanja zdravja na podlagi podatkov.
-
UPS Routing Predictions - pojasnjuje, kako UPS uporablja podatkovno znanost in strojno učenje za napovedovanje optimalnih poti za dostavo, pri čemer upošteva vremenske razmere, prometne vzorce, roke dostave in drugo.
-
Vizualizacija poti taksijev v NYC - podatki, zbrani z uporabo zakonov o svobodi informacij, so pomagali vizualizirati dan v življenju taksijev v NYC, kar nam omogoča razumevanje, kako se premikajo po mestu, koliko zaslužijo in trajanje voženj v 24-urnem obdobju.
-
Uber Data Science Workbench - uporablja podatke (o lokacijah prevzemov in odhodov, trajanju voženj, prednostnih poteh itd.), zbrane iz milijonov Uber voženj dnevno, za izdelavo orodja za analizo podatkov, ki pomaga pri določanju cen, varnosti, odkrivanju goljufij in navigacijskih odločitvah.
-
Športna analitika - se osredotoča na napovedno analitiko (analiza ekip in igralcev - pomislite na Moneyball - ter upravljanje navijačev) in vizualizacijo podatkov (nadzorne plošče ekip in navijačev, igre itd.) z aplikacijami, kot so iskanje talentov, športne stave in upravljanje zalog/objektov.
-
Podatkovna znanost v bančništvu - poudarja vrednost podatkovne znanosti v finančni industriji z aplikacijami, ki segajo od modeliranja tveganj in odkrivanja goljufij do segmentacije strank, napovedovanja v realnem času in priporočilnih sistemov. Napovedna analitika prav tako poganja ključne ukrepe, kot so kreditne ocene.
-
Podatkovna znanost v zdravstvu - poudarja aplikacije, kot so medicinsko slikanje (npr. MRI, rentgen, CT-skeniranje), genomika (sekvenciranje DNK), razvoj zdravil (ocena tveganja, napoved uspeha), napovedna analitika (oskrba pacientov in logistika oskrbe), sledenje boleznim in preprečevanje itd.
Vir slike: Data Flair: 6 Amazing Data Science Applications
Slika prikazuje druge domene in primere uporabe tehnik podatkovne znanosti. Želite raziskati druge aplikacije? Oglejte si razdelek Pregled in samostojno učenje spodaj.
Podatkovna znanost + Raziskave
![]() |
---|
Podatkovna znanost in raziskave - Sketchnote by @nitya |
Medtem ko se resnične aplikacije pogosto osredotočajo na industrijske primere uporabe v velikem obsegu, so raziskovalne aplikacije in projekti koristni z dveh vidikov:
- priložnosti za inovacije - raziskovanje hitrega prototipiranja naprednih konceptov in testiranje uporabniških izkušenj za aplikacije naslednje generacije.
- izzivi pri implementaciji - preučevanje potencialnih škod ali nenamernih posledic tehnologij podatkovne znanosti v resničnih kontekstih.
Za študente lahko ti raziskovalni projekti nudijo priložnosti za učenje in sodelovanje, ki izboljšajo vaše razumevanje teme ter razširijo vašo ozaveščenost in angažiranost z relevantnimi ljudmi ali ekipami, ki delajo na področjih vašega interesa. Kako izgledajo raziskovalni projekti in kako lahko vplivajo?
Poglejmo en primer - MIT Gender Shades Study Joy Buolamwini (MIT Media Labs) s pomembnim raziskovalnim člankom, ki ga je soavtorirala s Timnit Gebru (takrat pri Microsoft Research), osredotočenim na:
- Kaj: Cilj raziskovalnega projekta je bil oceniti pristranskost v algoritmih in podatkovnih zbirkah za avtomatizirano analizo obrazov glede na spol in tip kože.
- Zakaj: Analiza obrazov se uporablja na področjih, kot so kazenski pregon, varnost na letališčih, sistemi zaposlovanja in drugo - konteksti, kjer lahko netočne klasifikacije (npr. zaradi pristranskosti) povzročijo potencialne ekonomske in socialne škode prizadetim posameznikom ali skupinam. Razumevanje (in odpravljanje ali zmanjševanje) pristranskosti je ključno za pravičnost pri uporabi.
- Kako: Raziskovalci so ugotovili, da obstoječi referenčni podatki večinoma uporabljajo osebe s svetlejšo poltjo, in ustvarili novo podatkovno zbirko (1000+ slik), ki je bila bolj uravnotežena glede na spol in tip kože. Podatkovna zbirka je bila uporabljena za oceno natančnosti treh produktov za klasifikacijo spola (Microsoft, IBM & Face++).
Rezultati so pokazali, da je bila skupna natančnost klasifikacije dobra, vendar je bila opazna razlika v stopnjah napak med različnimi podskupinami - z napačno klasifikacijo spola pogostejšo pri ženskah ali osebah s temnejšo poltjo, kar kaže na pristranskost.
Ključni rezultati: Povečana ozaveščenost, da podatkovna znanost potrebuje bolj reprezentativne podatkovne zbirke (uravnotežene podskupine) in bolj vključujoče ekipe (raznolika ozadja), da bi pristranskosti prepoznali in odpravili ali zmanjšali že zgodaj v rešitvah umetne inteligence. Takšni raziskovalni napori so ključni tudi za številne organizacije pri določanju načel in praks za odgovorno umetno inteligenco, da bi izboljšali pravičnost v svojih produktih in procesih umetne inteligence.
Želite izvedeti več o relevantnih raziskovalnih prizadevanjih v Microsoftu?
- Oglejte si Microsoft Research Projects na področju umetne inteligence.
- Raziščite študentske projekte iz Microsoft Research Data Science Summer School.
- Oglejte si projekt Fairlearn in pobude Responsible AI.
Podatkovna znanost + Humanistika
![]() |
---|
Podatkovna znanost in digitalna humanistika - Sketchnote by @nitya |
Digitalna humanistika je opredeljena kot "zbirka praks in pristopov, ki združujejo računalniške metode s humanističnim raziskovanjem". Stanfordovi projekti, kot sta "rebooting history" in "poetic thinking", ilustrirajo povezavo med digitalno humanistiko in podatkovno znanostjo - poudarjajo tehnike, kot so analiza omrežij, vizualizacija informacij, prostorska in besedilna analiza, ki nam lahko pomagajo ponovno preučiti zgodovinske in literarne podatkovne zbirke ter pridobiti nove vpoglede in perspektive.
Želite raziskati in razširiti projekt na tem področju?
Oglejte si "Emily Dickinson and the Meter of Mood" - odličen primer Jen Looper, ki sprašuje, kako lahko uporabimo podatkovno znanost za ponovno preučitev znane poezije in ponovno ovrednotenje njenega pomena ter prispevkov avtorice v novih kontekstih. Na primer, ali lahko napovemo letni čas, v katerem je bila pesem napisana, z analizo njenega tona ali sentimenta - in kaj nam to pove o avtorjevem duševnem stanju v relevantnem obdobju?
Da bi odgovorili na to vprašanje, sledimo korakom življenjskega cikla podatkovne znanosti:
Pridobivanje podatkov
- za zbiranje relevantne podatkovne zbirke za analizo. Možnosti vključujejo uporabo API-ja (npr. Poetry DB API) ali strganje spletnih strani (npr. Project Gutenberg) z orodji, kot je Scrapy.Čiščenje podatkov
- pojasnjuje, kako je mogoče besedilo formatirati, očistiti in poenostaviti z osnovnimi orodji, kot sta Visual Studio Code in Microsoft Excel.Analiza podatkov
- pojasnjuje, kako lahko zdaj uvozimo podatkovno zbirko v "zvezke" za analizo z uporabo Pythonovih paketov (kot so pandas, numpy in matplotlib) za organizacijo in vizualizacijo podatkov.Analiza sentimenta
- pojasnjuje, kako lahko vključimo storitve v oblaku, kot je Text Analytics, z uporabo orodij z malo kode, kot je Power Automate za avtomatizirane delovne procese obdelave podatkov.
S pomočjo tega delovnega procesa lahko raziskujemo sezonske vplive na sentiment pesmi in si oblikujemo lastne perspektive o avtorici. Preizkusite sami - nato razširite zvezek, da postavite druga vprašanja ali vizualizirate podatke na nove načine!
Nekatera orodja iz Digital Humanities toolkit lahko uporabite za raziskovanje teh poti.
Podatkovna znanost + Trajnost
![]() |
---|
Podatkovna znanost in trajnost - Sketchnote by @nitya |
Agenda 2030 za trajnostni razvoj - sprejeta s strani vseh članic Združenih narodov leta 2015 - opredeljuje 17 ciljev, vključno s tistimi, ki se osredotočajo na zaščito planeta pred degradacijo in vplivi podnebnih sprememb. Pobuda Microsoft Sustainability podpira te cilje z raziskovanjem načinov, kako lahko tehnološke rešitve podpirajo in gradijo bolj trajnostno prihodnost s fokusom na 4 cilje - biti ogljično negativni, vodno pozitivni, brez odpadkov in biotsko raznovrstni do leta 2030.
Reševanje teh izzivov na skalabilen in pravočasen način zahteva razmišljanje na ravni oblaka - in obsežne podatke. Pobuda Planetary Computer ponuja 4 komponente, ki pomagajo podatkovnim znanstvenikom in razvijalcem pri tem prizadevanju:
-
Katalog podatkov - s petabajti podatkov o zemeljskih sistemih (brezplačno in gostovano na Azure).
-
Planetary API - za pomoč uporabnikom pri iskanju relevantnih podatkov skozi prostor in čas.
-
Hub - upravljano okolje za znanstvenike za obdelavo obsežnih geozemeljskih podatkovnih zbirk.
-
Aplikacije - prikaz primerov uporabe in orodij za vpoglede v trajnost. Projekt Planetary Computer je trenutno v predogledu (od septembra 2021) - tukaj je, kako lahko začnete prispevati k trajnostnim rešitvam z uporabo podatkovne znanosti.
-
Zahtevajte dostop za začetek raziskovanja in povezovanje z vrstniki.
-
Raziskujte dokumentacijo, da razumete podprte podatkovne zbirke in API-je.
-
Raziskujte aplikacije, kot je Ecosystem Monitoring, za navdih pri idejah za aplikacije.
Razmislite, kako lahko uporabite vizualizacijo podatkov za razkrivanje ali poudarjanje pomembnih vpogledov na področjih, kot sta podnebne spremembe in krčenje gozdov. Ali pa razmislite, kako lahko vpogledi služijo za ustvarjanje novih uporabniških izkušenj, ki spodbujajo vedenjske spremembe za bolj trajnostno življenje.
Podatkovna znanost + študenti
Govorili smo o aplikacijah v industriji in raziskavah ter raziskovali primere uporabe podatkovne znanosti v digitalni humanistiki in trajnosti. Kako pa lahko kot začetniki v podatkovni znanosti gradite svoje veščine in delite svoje znanje?
Tukaj je nekaj primerov študentskih projektov iz podatkovne znanosti, ki vas lahko navdihnejo.
- Poletna šola podatkovne znanosti MSR z GitHub projekti, ki raziskujejo teme, kot so:
- Digitalizacija materialne kulture: Raziskovanje socio-ekonomskih razporeditev v Sirkapu - od Ornella Altunyan in ekipe na Claremontu, z uporabo ArcGIS StoryMaps.
🚀 Izziv
Poiščite članke, ki priporočajo projekte podatkovne znanosti, primerni za začetnike - kot teh 50 tematskih področij ali teh 21 idej za projekte ali teh 16 projektov s kodo, ki jih lahko razstavite in preoblikujete. Ne pozabite pisati blogov o svojih učnih poteh in deliti svoje vpoglede z nami.
Kviz po predavanju
Kviz po predavanju
Pregled in samostojno učenje
Želite raziskati več primerov uporabe? Tukaj je nekaj relevantnih člankov:
- 17 aplikacij in primerov uporabe podatkovne znanosti - julij 2021
- 11 osupljivih aplikacij podatkovne znanosti v resničnem svetu - maj 2021
- Podatkovna znanost v resničnem svetu - zbirka člankov
- 12 resničnih aplikacij podatkovne znanosti s primeri - maj 2024
- Podatkovna znanost v: izobraževanju, kmetijstvu, financah, filmih, zdravstvu in več.
Naloga
Raziskujte podatkovno zbirko Planetary Computer
Omejitev odgovornosti:
Ta dokument je bil preveden z uporabo storitve za strojno prevajanje Co-op Translator. Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo strokovno človeško prevajanje. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki izhajajo iz uporabe tega prevoda.