History

leestott 8dcd54c138 🌐 Update translations via Co-op Translator		3 weeks ago
..
README.md	🌐 Update translations via Co-op Translator	3 weeks ago
assignment.md	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

Podatkovna znanost v resničnem svetu


Podatkovna znanost v resničnem svetu - Sketchnote avtorja @nitya

Smo skoraj na koncu te učne poti!

Začeli smo z definicijami podatkovne znanosti in etike, raziskali različna orodja in tehnike za analizo in vizualizacijo podatkov, pregledali življenjski cikel podatkovne znanosti ter preučili, kako razširiti in avtomatizirati delovne tokove podatkovne znanosti s storitvami v oblaku. Verjetno se zdaj sprašujete: "Kako lahko vse to znanje uporabim v resničnih situacijah?"

V tej lekciji bomo raziskali resnične primere uporabe podatkovne znanosti v industriji ter se poglobili v specifične primere na področju raziskav, digitalne humanistike in trajnosti. Pogledali bomo tudi priložnosti za študentske projekte in zaključili z uporabnimi viri, ki vam bodo pomagali nadaljevati vašo učno pot!

Predhodni kviz

Podatkovna znanost + industrija

Zaradi demokratizacije umetne inteligence je razvijalcem zdaj lažje oblikovati in vključevati odločitve, ki temeljijo na umetni inteligenci, ter vpoglede, ki temeljijo na podatkih, v uporabniške izkušnje in razvojne delovne tokove. Tukaj je nekaj primerov, kako se podatkovna znanost "uporablja" v resničnih aplikacijah v industriji:

Google Flu Trends je uporabil podatkovno znanost za povezovanje iskalnih izrazov s trendi gripe. Čeprav je imel pristop pomanjkljivosti, je opozoril na možnosti (in izzive) napovedovanja zdravja na podlagi podatkov.
UPS Routing Predictions - pojasnjuje, kako UPS uporablja podatkovno znanost in strojno učenje za napovedovanje optimalnih poti za dostavo, pri čemer upošteva vremenske razmere, prometne vzorce, roke dostave in drugo.
Vizualizacija poti taksijev v NYC - podatki, zbrani z uporabo zakonov o svobodi informacij, so pomagali vizualizirati en dan v življenju taksijev v NYC, kar nam omogoča razumevanje, kako se premikajo po mestu, koliko zaslužijo in kako dolge so njihove vožnje v 24-urnem obdobju.
Uber Data Science Workbench - uporablja podatke (o lokacijah prevzema in odlaganja, trajanju voženj, priljubljenih poteh itd.), zbrane iz milijonov Uber voženj dnevno, za izdelavo orodja za analizo podatkov, ki pomaga pri določanju cen, varnosti, odkrivanju prevar in navigacijskih odločitvah.
Športna analitika - osredotoča se na napovedno analitiko (analiza ekip in igralcev - pomislite na Moneyball - in upravljanje navijačev) ter vizualizacijo podatkov (nadzorne plošče ekip in navijačev, igre itd.) z aplikacijami, kot so iskanje talentov, športne stave in upravljanje zalog/objektov.
Podatkovna znanost v bančništvu - poudarja vrednost podatkovne znanosti v finančni industriji z aplikacijami, ki segajo od modeliranja tveganj in odkrivanja prevar do segmentacije strank, napovedovanja v realnem času in priporočilnih sistemov. Napovedna analitika prav tako poganja ključne ukrepe, kot so kreditne ocene.
Podatkovna znanost v zdravstvu - poudarja aplikacije, kot so medicinsko slikanje (npr. MRI, rentgen, CT-skeniranje), genomika (sekvenciranje DNK), razvoj zdravil (ocena tveganja, napoved uspeha), napovedna analitika (oskrba pacientov in logistika oskrbe), sledenje boleznim in preprečevanje itd.

Vir slike: Data Flair: 6 Amazing Data Science Applications

Slika prikazuje druge domene in primere uporabe tehnik podatkovne znanosti. Želite raziskati druge aplikacije? Oglejte si razdelek Pregled in samostojno učenje spodaj.

Podatkovna znanost + raziskave


Podatkovna znanost in raziskave - Sketchnote avtorja @nitya

Medtem ko se resnične aplikacije pogosto osredotočajo na industrijske primere uporabe v velikem obsegu, so raziskovalne aplikacije in projekti koristni z dveh vidikov:

priložnosti za inovacije - raziskovanje hitrega prototipiranja naprednih konceptov in testiranje uporabniških izkušenj za aplikacije naslednje generacije.
izzivi pri implementaciji - preučevanje morebitnih škod ali nenamernih posledic tehnologij podatkovne znanosti v resničnih kontekstih.

Za študente lahko ti raziskovalni projekti nudijo priložnosti za učenje in sodelovanje, ki izboljšajo razumevanje teme ter razširijo zavedanje in angažiranost z ustreznimi ljudmi ali ekipami, ki delajo na področjih zanimanja. Kako torej izgledajo raziskovalni projekti in kakšen vpliv lahko imajo?

Poglejmo en primer - MIT Gender Shades Study avtorice Joy Buolamwini (MIT Media Labs) s pomembnim raziskovalnim člankom, ki ga je soavtorila Timnit Gebru (takrat pri Microsoft Research). Študija se je osredotočila na:

Kaj: Cilj raziskovalnega projekta je bil oceniti pristranskost v algoritmih in podatkovnih zbirkah za avtomatizirano analizo obrazov glede na spol in barvo kože.
Zakaj: Analiza obrazov se uporablja na področjih, kot so kazenski pregon, varnost na letališčih, sistemi zaposlovanja in drugo - konteksti, kjer lahko netočne klasifikacije (npr. zaradi pristranskosti) povzročijo ekonomsko in socialno škodo prizadetim posameznikom ali skupinam. Razumevanje (in odpravljanje ali zmanjševanje) pristranskosti je ključno za pravičnost pri uporabi.
Kako: Raziskovalci so ugotovili, da so obstoječi referenčni standardi uporabljali pretežno svetlopolte subjekte, zato so ustvarili novo podatkovno zbirko (1000+ slik), ki je bila bolj uravnotežena glede na spol in barvo kože. Podatkovna zbirka je bila uporabljena za oceno natančnosti treh izdelkov za klasifikacijo spola (Microsoft, IBM in Face++).

Rezultati so pokazali, da je bila, čeprav je bila splošna natančnost klasifikacije dobra, opazna razlika v stopnjah napak med različnimi podskupinami - z napačno določitvijo spola, ki je bila pogostejša pri ženskah ali osebah s temnejšo barvo kože, kar kaže na pristranskost.

Ključni rezultati: Povečano zavedanje, da podatkovna znanost potrebuje bolj reprezentativne podatkovne zbirke (uravnotežene podskupine) in bolj vključujoče ekipe (raznolika ozadja), da bi lahko pristranskosti prepoznali in odpravili ali zmanjšali že v zgodnjih fazah rešitev umetne inteligence. Takšni raziskovalni napori so prav tako ključni za številne organizacije pri oblikovanju načel in praks za odgovorno umetno inteligenco, da bi izboljšali pravičnost svojih AI izdelkov in procesov.

Želite izvedeti več o ustreznih raziskovalnih prizadevanjih pri Microsoftu?

Oglejte si Microsoft Research Projects na področju umetne inteligence.
Raziščite študentske projekte iz Microsoft Research Data Science Summer School.
Oglejte si projekt Fairlearn in pobude za odgovorno umetno inteligenco.

Podatkovna znanost + humanistika


Podatkovna znanost in digitalna humanistika - Sketchnote avtorja @nitya

Digitalna humanistika je opredeljena kot "zbirka praks in pristopov, ki združujejo računalniške metode s humanističnim raziskovanjem". Stanfordovi projekti, kot sta "rebooting history" in "poetic thinking", ponazarjajo povezavo med digitalno humanistiko in podatkovno znanostjo - poudarjajo tehnike, kot so analiza omrežij, vizualizacija informacij, prostorska in besedilna analiza, ki nam lahko pomagajo ponovno preučiti zgodovinske in literarne podatkovne zbirke ter pridobiti nove vpoglede in perspektive.

Želite raziskati in razširiti projekt na tem področju?

Oglejte si "Emily Dickinson and the Meter of Mood" - odličen primer avtorice Jen Looper, ki se sprašuje, kako lahko uporabimo podatkovno znanost za ponovno preučitev znane poezije in ponovno ovrednotenje njenega pomena ter prispevkov avtorice v novih kontekstih. Na primer, ali lahko napovemo letni čas, v katerem je bila pesem napisana, z analizo njenega tona ali razpoloženja - in kaj nam to pove o avtorjevem duševnem stanju v relevantnem obdobju?

Za odgovor na to vprašanje sledimo korakom življenjskega cikla podatkovne znanosti:

Pridobivanje podatkov - za zbiranje ustreznega nabora podatkov za analizo. Možnosti vključujejo uporabo API-jev (npr. Poetry DB API) ali strganje spletnih strani (npr. Project Gutenberg) z orodji, kot je Scrapy.
Čiščenje podatkov - pojasnjuje, kako lahko besedilo formatiramo, očistimo in poenostavimo z osnovnimi orodji, kot sta Visual Studio Code in Microsoft Excel.
Analiza podatkov - pojasnjuje, kako lahko zdaj uvozimo nabor podatkov v "zvezke" za analizo z uporabo Pythonovih knjižnic (kot so pandas, numpy in matplotlib) za organizacijo in vizualizacijo podatkov.
Analiza razpoloženja - pojasnjuje, kako lahko vključimo storitve v oblaku, kot je Text Analytics, z uporabo orodij z malo kode, kot je Power Automate za avtomatizirane delovne tokove obdelave podatkov.

Z uporabo tega delovnega toka lahko raziskujemo sezonske vplive na razpoloženje pesmi in si oblikujemo lastne poglede na avtorico. Preizkusite sami - nato razširite zvezek, da postavite druga vprašanja ali vizualizirate podatke na nove načine!

Nekatera orodja iz Digital Humanities Toolkit lahko uporabite za raziskovanje teh vprašanj.

Podatkovna znanost + trajnost


Podatkovna znanost in trajnost - Sketchnote avtorja @nitya

Agenda 2030 za trajnostni razvoj - ki so jo leta 2015 sprejele vse članice Združenih narodov - določa 17 ciljev, vključno s tistimi, ki se osredotočajo na zaščito planeta pred degradacijo in vplivi podnebnih sprememb. Pobuda Microsoft Sustainability podpira te cilje z raziskovanjem načinov, kako lahko tehnološke rešitve podpirajo in gradijo bolj trajnostno prihodnost, s fokusom na 4 cilje - postati ogljično negativni, vodno pozitivni, brez odpadkov in biotsko raznovrstni do leta 2030.

Reševanje teh izzivov na obsežen in pravočasen način zahteva razmišljanje na ravni oblaka - in velike količine podatkov. Pobuda Planetary Computer ponuja 4 komponente, ki pomagajo podatkovnim znanstvenikom in razvijalcem pri tem prizadevanju:

Katalog podatkov - s petabajti podatkov o zemeljskih sistemih (brezplačno in gostovano na Azure).
Planetary API - za pomoč uporabnikom pri iskanju ustreznih podatkov po prostoru in času.
Hub - upravljano okolje za znanstvenike za obdelavo masivnih geosprostorskih podatkovnih zbirk.
Aplikacije - prikaz primerov uporabe in orodij za vpoglede v trajnost. Projekt Planetary Computer je trenutno v predogledu (od septembra 2021) - tukaj je, kako lahko začnete prispevati k rešitvam za trajnost z uporabo podatkovne znanosti.
Zahtevajte dostop za začetek raziskovanja in povezovanje s kolegi.
Raziščite dokumentacijo, da razumete podprte nabore podatkov in API-je.
Raziščite aplikacije, kot je Ecosystem Monitoring, za navdih pri idejah za aplikacije.

Razmislite, kako lahko uporabite vizualizacijo podatkov za razkrivanje ali poudarjanje pomembnih vpogledov na področjih, kot sta podnebne spremembe in krčenje gozdov. Ali pa razmislite, kako je mogoče vpoglede uporabiti za ustvarjanje novih uporabniških izkušenj, ki spodbujajo vedenjske spremembe za bolj trajnostno življenje.

Podatkovna znanost + Študenti

Govorili smo o aplikacijah iz resničnega sveta v industriji in raziskavah ter raziskovali primere uporabe podatkovne znanosti v digitalnih humanističnih vedah in trajnosti. Kako torej lahko kot začetniki v podatkovni znanosti gradite svoje veščine in delite svoje znanje?

Tukaj je nekaj primerov študentskih projektov iz podatkovne znanosti za navdih.

Poletna šola podatkovne znanosti MSR z GitHub projekti, ki raziskujejo teme, kot so:
- Rasna pristranskost pri uporabi sile s strani policije | Github
- Zanesljivost podzemne železnice v New Yorku | Github
Digitalizacija materialne kulture: Raziskovanje socio-ekonomskih razporeditev v Sirkapu - od Ornella Altunyan in ekipe na Claremontu, z uporabo ArcGIS StoryMaps.

🚀 Izziv

Poiščite članke, ki priporočajo projekte iz podatkovne znanosti, primerni za začetnike - na primer teh 50 tematskih področij ali teh 21 idej za projekte ali teh 16 projektov s kodo, ki jih lahko razstavite in predelate. Ne pozabite tudi pisati blogov o svojih učnih poteh in deliti svoje vpoglede z nami.

Kviz po predavanju

Pregled in samostojno učenje

Želite raziskati več primerov uporabe? Tukaj je nekaj ustreznih člankov:

17 aplikacij in primerov uporabe podatkovne znanosti - julij 2021
11 osupljivih aplikacij podatkovne znanosti v resničnem svetu - maj 2021
Podatkovna znanost v resničnem svetu - zbirka člankov
Podatkovna znanost v: Izobraževanju, Kmetijstvu, Financah, Filmih in več.

Naloga

Raziščite nabor podatkov Planetary Computer

Omejitev odgovornosti:
Ta dokument je bil preveden z uporabo storitve za strojno prevajanje Co-op Translator. Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem maternem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitne nesporazume ali napačne razlage, ki izhajajo iz uporabe tega prevoda.