18 KiB
Data Science u Stvarnom Svijetu
![]() |
---|
Data Science u Stvarnom Svijetu - Sketchnote by @nitya |
Skoro smo na kraju ovog edukativnog putovanja!
Počeli smo s definicijama data sciencea i etike, istražili razne alate i tehnike za analizu i vizualizaciju podataka, pregledali životni ciklus data sciencea te proučili skaliranje i automatizaciju radnih procesa uz usluge računalstva u oblaku. Možda se sada pitate: "Kako sve ovo znanje primijeniti u stvarnim situacijama?"
U ovoj lekciji istražit ćemo primjene data sciencea u industriji te se osvrnuti na konkretne primjere u istraživanju, digitalnim humanističkim znanostima i održivosti. Pogledat ćemo studentske projekte i zaključiti s korisnim resursima koji će vam pomoći da nastavite svoje učenje!
Kviz prije predavanja
Data Science + Industrija
Zahvaljujući demokratizaciji umjetne inteligencije, programerima je sada lakše dizajnirati i integrirati odluke vođene umjetnom inteligencijom i uvide temeljene na podacima u korisnička iskustva i razvojne procese. Evo nekoliko primjera kako se data science "primjenjuje" u stvarnim industrijskim situacijama:
-
Google Flu Trends koristio je data science za povezivanje pojmova pretraživanja s trendovima gripe. Iako je pristup imao nedostatke, podigao je svijest o mogućnostima (i izazovima) predviđanja u zdravstvu temeljenog na podacima.
-
UPS Predikcija Ruta - objašnjava kako UPS koristi data science i strojno učenje za predviđanje optimalnih ruta za dostavu, uzimajući u obzir vremenske uvjete, prometne obrasce, rokove dostave i druge faktore.
-
Vizualizacija Ruta NYC Taksija - podaci prikupljeni pomoću Zakona o slobodi informacija pomogli su vizualizirati jedan dan u životu taksija u NYC-u, omogućujući nam da razumijemo kako se kreću kroz grad, koliko zarađuju i koliko traju vožnje tijekom 24 sata.
-
Uber Data Science Workbench - koristi podatke (o lokacijama preuzimanja i odredišta, trajanju vožnje, preferiranim rutama itd.) prikupljene iz milijuna Uber vožnji dnevno za izradu alata za analizu podataka koji pomaže u određivanju cijena, sigurnosti, otkrivanju prijevara i donošenju navigacijskih odluka.
-
Sportska Analitika - fokusira se na prediktivnu analitiku (analiza timova i igrača - poput Moneyball - i upravljanje navijačima) te vizualizaciju podataka (nadzorne ploče za timove i navijače, igre itd.) s primjenama poput skautinga talenata, sportskog klađenja i upravljanja inventarom/objektima.
-
Data Science u Bankarstvu - ističe vrijednost data sciencea u financijskoj industriji s primjenama koje uključuju modeliranje rizika, otkrivanje prijevara, segmentaciju klijenata, predikcije u stvarnom vremenu i sustave preporuka. Prediktivna analitika također pokreće ključne mjere poput kreditnih bodova.
-
Data Science u Zdravstvu - ističe primjene poput medicinskog snimanja (npr. MRI, rendgen, CT-skeniranje), genomike (sekvenciranje DNK), razvoja lijekova (procjena rizika, predviđanje uspjeha), prediktivne analitike (briga o pacijentima i logistika opskrbe), praćenja i prevencije bolesti itd.
Izvor slike: Data Flair: 6 Amazing Data Science Applications
Slika prikazuje druge domene i primjere primjene tehnika data sciencea. Želite istražiti druge primjene? Pogledajte odjeljak Pregled i Samostalno Učenje u nastavku.
Data Science + Istraživanje
![]() |
---|
Data Science & Istraživanje - Sketchnote by @nitya |
Dok se stvarne primjene često fokusiraju na industrijske slučajeve u velikim razmjerima, primjene i projekti u istraživanju mogu biti korisni iz dvije perspektive:
- prilike za inovacije - istraživanje brzog prototipiranja naprednih koncepata i testiranje korisničkih iskustava za aplikacije sljedeće generacije.
- izazovi implementacije - istraživanje potencijalnih šteta ili nenamjernih posljedica tehnologija data sciencea u stvarnim kontekstima.
Za studente, ovi istraživački projekti mogu pružiti prilike za učenje i suradnju koje poboljšavaju razumijevanje teme te proširuju svijest i angažman s relevantnim ljudima ili timovima koji rade na područjima interesa. Kako izgledaju istraživački projekti i kako mogu imati utjecaj?
Pogledajmo jedan primjer - MIT Gender Shades Study od Joy Buolamwini (MIT Media Labs) s ključnim istraživačkim radom koji je koautorirala Timnit Gebru (tada u Microsoft Researchu) i koji se fokusirao na:
- Što: Cilj istraživačkog projekta bio je procijeniti pristranost prisutnu u algoritmima i skupovima podataka za automatsku analizu lica na temelju spola i tipa kože.
- Zašto: Analiza lica koristi se u područjima poput provođenja zakona, sigurnosti na aerodromima, sustava zapošljavanja i više - konteksti u kojima netočne klasifikacije (npr. zbog pristranosti) mogu uzrokovati potencijalne ekonomske i društvene štete pogođenim pojedincima ili grupama. Razumijevanje (i uklanjanje ili ublažavanje) pristranosti ključno je za pravednost u korištenju.
- Kako: Istraživači su prepoznali da postojeći referentni skupovi podataka koriste pretežno osobe svjetlije puti te su kreirali novi skup podataka (1000+ slika) koji je uravnoteženiji prema spolu i tipu kože. Taj skup podataka korišten je za procjenu točnosti tri proizvoda za klasifikaciju spola (od Microsofta, IBM-a i Face++).
Rezultati su pokazali da, iako je ukupna točnost klasifikacije bila dobra, postojala je primjetna razlika u stopama pogrešaka između različitih podskupina - s pogrešnim određivanjem spola češćim kod žena ili osoba tamnije puti, što ukazuje na pristranost.
Ključni Ishodi: Podignuta je svijest da data science treba reprezentativnije skupove podataka (uravnotežene podskupine) i inkluzivnije timove (raznolike pozadine) kako bi se takve pristranosti prepoznale i uklonile ili ublažile ranije u AI rješenjima. Istraživački napori poput ovog također su ključni za definiranje principa i praksi za odgovornu umjetnu inteligenciju u mnogim organizacijama kako bi se poboljšala pravednost u njihovim AI proizvodima i procesima.
Želite saznati više o relevantnim istraživačkim naporima u Microsoftu?
- Pogledajte Microsoft Research Projects na temu umjetne inteligencije.
- Istražite studentske projekte iz Microsoft Research Data Science Summer School.
- Pogledajte projekt Fairlearn i inicijative za Odgovornu AI.
Data Science + Humanističke Znanosti
![]() |
---|
Data Science & Digitalne Humanističke Znanosti - Sketchnote by @nitya |
Digitalne humanističke znanosti definirane su kao "skup praksi i pristupa koji kombiniraju računalne metode s humanističkim istraživanjem". Stanford projekti poput "rebooting history" i "poetic thinking" ilustriraju povezanost između Digitalnih Humanističkih Znanosti i Data Sciencea - naglašavajući tehnike poput analize mreža, vizualizacije informacija, prostorne i tekstualne analize koje nam mogu pomoći da ponovno razmotrimo povijesne i književne skupove podataka kako bismo dobili nove uvide i perspektive.
Želite istražiti i proširiti projekt u ovom području?
Pogledajte "Emily Dickinson and the Meter of Mood" - izvrstan primjer od Jen Looper koji postavlja pitanje kako možemo koristiti data science za ponovno razmatranje poznate poezije i preispitivanje njezina značenja te doprinosa autora u novim kontekstima. Na primjer, možemo li predvidjeti godišnje doba u kojem je pjesma napisana analizom njezina tona ili sentimenta - i što nam to govori o autorovu stanju uma tijekom relevantnog razdoblja?
Da bismo odgovorili na to pitanje, slijedimo korake životnog ciklusa data sciencea:
Prikupljanje Podataka
- za prikupljanje relevantnog skupa podataka za analizu. Opcije uključuju korištenje API-ja (npr. Poetry DB API) ili struganje web stranica (npr. Project Gutenberg) pomoću alata poput Scrapy.Čišćenje Podataka
- objašnjava kako se tekst može formatirati, sanitizirati i pojednostaviti pomoću osnovnih alata poput Visual Studio Codea i Microsoft Excela.Analiza Podataka
- objašnjava kako sada možemo uvesti skup podataka u "Notebooks" za analizu pomoću Python paketa (poput pandas, numpy i matplotlib) za organizaciju i vizualizaciju podataka.Analiza Sentimenta
- objašnjava kako možemo integrirati usluge u oblaku poput Text Analyticsa, koristeći alate s malo koda poput Power Automate za automatizirane radne procese obrade podataka.
Koristeći ovaj radni proces, možemo istražiti sezonske utjecaje na sentiment pjesama i pomoći nam oblikovati vlastite perspektive o autoru. Isprobajte sami - zatim proširite bilježnicu kako biste postavili druga pitanja ili vizualizirali podatke na nove načine!
Možete koristiti neke od alata iz Digital Humanities Toolkit za istraživanje ovih tema.
Data Science + Održivi Razvoj
![]() |
---|
Data Science & Održivi Razvoj - Sketchnote by @nitya |
Agenda za Održivi Razvoj 2030 - usvojena od strane svih članica Ujedinjenih naroda 2015. godine - identificira 17 ciljeva, uključujući one koji se fokusiraju na Zaštitu Planeta od degradacije i utjecaja klimatskih promjena. Inicijativa Microsoft Sustainability podržava ove ciljeve istražujući načine na koje tehnološka rješenja mogu podržati i izgraditi održiviju budućnost s fokusom na 4 cilja - postati ugljično negativan, vodno pozitivan, bez otpada i bioraznolik do 2030.
Rješavanje ovih izazova na skalabilan i pravovremen način zahtijeva razmišljanje u oblaku - i velike količine podataka. Inicijativa Planetary Computer pruža 4 komponente koje pomažu data znanstvenicima i programerima u ovom naporu:
-
Katalog Podataka - s petabajtima podataka o Zemljinim sustavima (besplatno i hostirano na Azureu).
-
Planetary API - za pomoć korisnicima u pretraživanju relevantnih podataka kroz prostor i vrijeme.
-
Hub - upravljano okruženje za znanstvenike za obradu masivnih geoprostornih skupova podataka.
-
Aplikacije - prikazuju slučajeve upotrebe i alate za uvide u održivost. Planetary Computer Project trenutno je u fazi pregleda (od rujna 2021.) - evo kako možete započeti doprinositi rješenjima za održivost koristeći podatkovnu znanost.
-
Zatražite pristup kako biste započeli istraživanje i povezali se s kolegama.
-
Istražite dokumentaciju kako biste razumjeli podržane skupove podataka i API-je.
-
Istražite aplikacije poput Praćenje ekosustava za inspiraciju za ideje aplikacija.
Razmislite o tome kako možete koristiti vizualizaciju podataka za otkrivanje ili naglašavanje relevantnih uvida u područjima poput klimatskih promjena i krčenja šuma. Ili razmislite o tome kako se uvidi mogu koristiti za stvaranje novih korisničkih iskustava koja motiviraju promjene ponašanja za održiviji način života.
Podatkovna znanost + studenti
Razgovarali smo o stvarnim primjenama u industriji i istraživanju te istražili primjere primjene podatkovne znanosti u digitalnim humanističkim znanostima i održivosti. Pa kako možete izgraditi svoje vještine i podijeliti svoje znanje kao početnici u podatkovnoj znanosti?
Evo nekoliko primjera studentskih projekata iz podatkovne znanosti koji vas mogu inspirirati.
- MSR Ljetna škola podatkovne znanosti s GitHub projektima koji istražuju teme poput:
- Digitalizacija materijalne kulture: Istraživanje socio-ekonomskih distribucija u Sirkapu - od Ornella Altunyan i tima iz Claremonta, koristeći ArcGIS StoryMaps.
🚀 Izazov
Potražite članke koji preporučuju projekte iz podatkovne znanosti prilagođene početnicima - poput ovih 50 područja ili ovih 21 ideja za projekte ili ovih 16 projekata s izvornim kodom koje možete rastaviti i ponovno sastaviti. I ne zaboravite pisati blogove o svojim putovanjima učenja i podijeliti svoje uvide s nama.
Kviz nakon predavanja
Pregled i samostalno učenje
Želite istražiti više primjera upotrebe? Evo nekoliko relevantnih članaka:
- 17 primjena i primjera podatkovne znanosti - srpanj 2021.
- 11 zadivljujućih primjena podatkovne znanosti u stvarnom svijetu - svibanj 2021.
- Podatkovna znanost u stvarnom svijetu - zbirka članaka
- Podatkovna znanost u: Obrazovanju, Poljoprivredi, Financijama, Filmovima i više.
Zadatak
Istražite skup podataka Planetary Computer
Odricanje od odgovornosti:
Ovaj dokument je preveden pomoću AI usluge za prevođenje Co-op Translator. Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati mjerodavnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane stručnjaka. Ne preuzimamo odgovornost za nesporazume ili pogrešna tumačenja koja mogu proizaći iz korištenja ovog prijevoda.