|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 4 weeks ago |
README.md
Data Science tosielämässä
![]() |
---|
Data Science tosielämässä - Sketchnote by @nitya |
Olemme melkein tämän oppimismatkan lopussa!
Aloitimme määritelmistä, jotka koskivat data sciencea ja etiikkaa, tutkimme erilaisia työkaluja ja tekniikoita data-analyysiin ja visualisointiin, kävimme läpi data sciencen elinkaaren ja tarkastelimme, miten data science -työnkulkuja voidaan laajentaa ja automatisoida pilvipalveluiden avulla. Joten saatat miettiä: "Miten tarkalleen ottaen voin soveltaa näitä oppeja tosielämän tilanteisiin?"
Tässä oppitunnissa tutkimme data sciencen tosielämän sovelluksia eri toimialoilla ja sukellamme erityisiin esimerkkeihin tutkimuksen, digitaalisten humanististen tieteiden ja kestävän kehityksen konteksteissa. Tarkastelemme opiskelijaprojektimahdollisuuksia ja päätämme hyödyllisiin resursseihin, jotka auttavat sinua jatkamaan oppimismatkaasi!
Ennakkokysely
Ennakkokysely
Data Science + Teollisuus
AI:n demokratisoinnin ansiosta kehittäjien on nyt helpompi suunnitella ja integroida AI-pohjaista päätöksentekoa ja dataan perustuvia oivalluksia käyttäjäkokemuksiin ja kehitystyönkulkuihin. Tässä muutamia esimerkkejä siitä, miten data sciencea "sovelletaan" tosielämän sovelluksiin eri toimialoilla:
-
Google Flu Trends käytti data sciencea korreloimaan hakutermit influenssatrendien kanssa. Vaikka lähestymistavassa oli puutteita, se lisäsi tietoisuutta dataan perustuvien terveydenhuollon ennusteiden mahdollisuuksista (ja haasteista).
-
UPS Reittiennusteet - selittää, miten UPS käyttää data sciencea ja koneoppimista ennustamaan optimaalisia toimitusreittejä huomioiden sääolosuhteet, liikennemallit, toimitusaikataulut ja paljon muuta.
-
NYC Taksireittien visualisointi - data, joka kerättiin Freedom Of Information Laws avulla, auttoi visualisoimaan yhden päivän NYC:n taksien elämästä, auttaen ymmärtämään, miten ne navigoivat vilkkaassa kaupungissa, kuinka paljon rahaa ne ansaitsevat ja matkojen keston 24 tunnin aikana.
-
Uber Data Science Workbench - käyttää dataa (nouto- ja jättöpaikat, matkan kesto, suosituimmat reitit jne.), joka kerätään miljoonista Uber-matkoista päivittäin, rakentaakseen data-analytiikkatyökalun hinnoittelun, turvallisuuden, petosten havaitsemisen ja navigointipäätösten tueksi.
-
Urheiluanalytiikka - keskittyy ennustavaan analytiikkaan (joukkue- ja pelaaja-analyysi - ajattele Moneyball - ja fanien hallinta) ja datavisualisointiin (joukkue- ja fanien hallintapaneelit, pelit jne.) sovelluksilla, kuten kykyjenetsintä, urheilupelaaminen ja varaston/tilojen hallinta.
-
Data Science pankkialalla - korostaa data sciencen arvoa rahoitusalalla sovelluksilla, jotka vaihtelevat riskimallinnuksesta ja petosten havaitsemisesta asiakassegmentointiin, reaaliaikaisiin ennusteisiin ja suosittelujärjestelmiin. Ennustava analytiikka ohjaa myös kriittisiä mittareita, kuten luottopisteet.
-
Data Science terveydenhuollossa - korostaa sovelluksia, kuten lääketieteellinen kuvantaminen (esim. MRI, röntgen, CT-skannaus), genomiikka (DNA-sekvensointi), lääkekehitys (riskinarviointi, onnistumisen ennustaminen), ennustava analytiikka (potilashoito ja toimituslogistiikka), tautien seuranta ja ehkäisy jne.
Kuva: Data Flair: 6 Amazing Data Science Applications
Kuvassa näkyy muita aloja ja esimerkkejä data science -tekniikoiden soveltamisesta. Haluatko tutkia muita sovelluksia? Katso Review & Self Study -osio alta.
Data Science + Tutkimus
![]() |
---|
Data Science & Tutkimus - Sketchnote by @nitya |
Vaikka tosielämän sovellukset keskittyvät usein teollisuuden käyttötapauksiin laajassa mittakaavassa, tutkimus sovellukset ja projektit voivat olla hyödyllisiä kahdesta näkökulmasta:
- innovointimahdollisuudet - tutkia edistyneiden konseptien nopeaa prototyyppausta ja käyttäjäkokemusten testausta seuraavan sukupolven sovelluksille.
- käyttöönoton haasteet - tutkia mahdollisia haittoja tai tahattomia seurauksia data science -teknologioiden käytöstä tosielämän konteksteissa.
Opiskelijoille nämä tutkimusprojektit voivat tarjota sekä oppimis- että yhteistyömahdollisuuksia, jotka parantavat ymmärrystä aiheesta ja laajentavat tietoisuutta ja vuorovaikutusta asiaankuuluvien ihmisten tai tiimien kanssa, jotka työskentelevät kiinnostuksen kohteena olevilla alueilla. Miltä tutkimusprojektit näyttävät ja miten ne voivat vaikuttaa?
Tarkastellaan yhtä esimerkkiä - MIT Gender Shades Study Joy Buolamwinilta (MIT Media Labs) ja merkittävä tutkimuspaperi, jonka hän kirjoitti yhdessä Timnit Gebrun (silloin Microsoft Research) kanssa. Tutkimus keskittyi:
- Mitä: Tutkimusprojektin tavoitteena oli arvioida sukupuoleen ja ihonväriin perustuvaa vinoutta automaattisissa kasvoanalyysialgoritmeissa ja -datalähteissä.
- Miksi: Kasvoanalyysiä käytetään esimerkiksi lainvalvonnassa, lentokenttien turvallisuudessa, rekrytointijärjestelmissä ja muissa konteksteissa, joissa epätarkat luokitukset (esim. vinoutumisen vuoksi) voivat aiheuttaa taloudellisia ja sosiaalisia haittoja asianomaisille yksilöille tai ryhmille. Vinoumien ymmärtäminen (ja niiden poistaminen tai lieventäminen) on avain oikeudenmukaisuuteen käytössä.
- Miten: Tutkijat huomasivat, että olemassa olevat vertailuarvot käyttivät pääasiassa vaaleaihoisia henkilöitä, ja he loivat uuden datasarjan (yli 1000 kuvaa), joka oli tasapainoisempi sukupuolen ja ihonvärin suhteen. Datasarjaa käytettiin arvioimaan kolmen sukupuoliluokittelutuotteen (Microsoft, IBM & Face++) tarkkuutta.
Tulokset osoittivat, että vaikka yleinen luokittelutarkkuus oli hyvä, virheprosenttien ero eri alaryhmien välillä oli huomattava - väärä sukupuoliluokittelu oli yleisempää naisilla tai tummaihoisilla henkilöillä, mikä viittasi vinoumaan.
Keskeiset tulokset: Lisäsi tietoisuutta siitä, että data science tarvitsee enemmän edustavia datasarjoja (tasapainoiset alaryhmät) ja enemmän inklusiivisia tiimejä (monipuoliset taustat) tunnistamaan ja poistamaan tai lieventämään tällaisia vinoumia AI-ratkaisujen kehityksen alkuvaiheessa. Tällaiset tutkimusponnistelut ovat myös keskeisiä monille organisaatioille, jotka määrittelevät periaatteita ja käytäntöjä vastuulliselle AI:lle parantaakseen oikeudenmukaisuutta AI-tuotteissaan ja -prosesseissaan.
Haluatko oppia Microsoftin tutkimusponnisteluista?
- Tutustu Microsoft Research Projects tekoälyn alalla.
- Tutki opiskelijaprojekteja Microsoft Research Data Science Summer School.
- Tutustu Fairlearn projektiin ja Responsible AI aloitteisiin.
Data Science + Humanistiset tieteet
![]() |
---|
Data Science & Digitaaliset humanistiset tieteet - Sketchnote by @nitya |
Digitaaliset humanistiset tieteet on määritelty "kokoelmaksi käytäntöjä ja lähestymistapoja, jotka yhdistävät laskennalliset menetelmät humanistiseen tutkimukseen". Stanfordin projektit, kuten "rebooting history" ja "poetic thinking" havainnollistavat yhteyttä digitaalisten humanististen tieteiden ja data sciencen välillä - korostaen tekniikoita, kuten verkkoanalyysi, informaation visualisointi, spatiaalinen ja tekstianalyysi, jotka voivat auttaa meitä tarkastelemaan historiallisia ja kirjallisia datasarjoja uusien oivallusten ja näkökulmien saamiseksi.
Haluatko tutkia ja laajentaa projektia tällä alueella?
Tutustu "Emily Dickinson and the Meter of Mood" - loistava esimerkki Jen Looperilta, joka kysyy, miten voimme käyttää data sciencea tarkastelemaan uudelleen tuttua runoutta ja arvioimaan sen merkitystä ja tekijän panosta uusissa konteksteissa. Esimerkiksi, voimmeko ennustaa vuodenajan, jolloin runo on kirjoitettu, analysoimalla sen sävyä tai tunnetta - ja mitä tämä kertoo tekijän mielentilasta kyseisenä ajanjaksona?
Vastataksemme tähän kysymykseen seuraamme data sciencen elinkaaren vaiheita:
Data Acquisition
- kerätäksemme relevantin datasarjan analysointia varten. Vaihtoehtoja ovat esimerkiksi API:n käyttö (esim. Poetry DB API) tai verkkosivujen kaavinta (esim. Project Gutenberg) työkaluilla, kuten Scrapy.Data Cleaning
- selittää, miten tekstiä voidaan muotoilla, puhdistaa ja yksinkertaistaa perusvälineillä, kuten Visual Studio Code ja Microsoft Excel.Data Analysis
- selittää, miten voimme tuoda datasarjan "Notebooks"-ympäristöön analysointia varten Python-pakettien (kuten pandas, numpy ja matplotlib) avulla datan järjestämiseksi ja visualisoimiseksi.Sentiment Analysis
- selittää, miten voimme integroida pilvipalvelut, kuten Text Analytics, käyttämällä vähäkoodisia työkaluja, kuten Power Automate automatisoitujen datankäsittelytyönkulkujen luomiseen.
Tämän työnkulun avulla voimme tutkia vuodenaikojen vaikutuksia runojen sentimenttiin ja auttaa meitä muodostamaan omia näkemyksiämme tekijästä. Kokeile itse - ja laajenna notebookia kysyäksesi muita kysymyksiä tai visualisoidaksesi dataa uusilla tavoilla!
Voit käyttää joitakin työkaluja Digital Humanities toolkit -kokoelmasta näiden tutkimuspolkujen edistämiseksi.
Data Science + Kestävä kehitys
![]() |
---|
Data Science & Kestävä kehitys - Sketchnote by @nitya |
2030 Agenda For Sustainable Development - jonka kaikki Yhdistyneiden Kansakuntien jäsenet hyväksyivät vuonna 2015 - tunnistaa 17 tavoitetta, mukaan lukien tavoitteet, jotka keskittyvät planeetan suojelemiseen rappeutumiselta ja ilmastonmuutoksen vaikutuksilta. Microsoft Sustainability -aloite tukee näitä tavoitteita tutkimalla, miten teknologiaratkaisut voivat tukea ja rakentaa kestävämpiä tulevaisuuksia keskittyen neljään tavoitteeseen - olla hiilinegatiivinen, vesipositiivinen, nollajäte ja biologisesti monimuotoinen vuoteen 2030 mennessä.
Näiden haasteiden ratkaiseminen skaalautuvasti ja ajallaan vaatii pilvipohjaista ajattelua - ja suuria datamääriä. Planetary Computer -aloite tarjoaa neljä komponenttia, jotka auttavat data sciencen asiantuntijoita ja kehittäjiä tässä työssä:
-
Data Catalog - sisältää petatavujen verran Earth Systems -dataa (ilmainen ja Azure-isännöity).
-
Planetary API - auttaa käyttäjiä etsimään relevanttia dataa ajan ja paikan mukaan.
-
Hub - hallittu ympäristö tutkijoille massiivisten paikkatietoaineistojen käsittelyyn.
-
Applications - esittelee käyttötapauksia ja työkaluja kestävän kehityksen oivallusten tueksi. Planetary Computer -projekti on tällä hetkellä esikatseluvaiheessa (syyskuu 2021) - näin pääset alkuun ja voit osallistua kestävän kehityksen ratkaisuihin datatieteen avulla.
-
Pyydä käyttöoikeutta aloittaaksesi tutkimisen ja verkostoitumisen muiden kanssa.
-
Tutustu dokumentaatioon ymmärtääksesi tuetut tietoaineistot ja API:t.
-
Tutustu sovelluksiin, kuten Ecosystem Monitoring, saadaksesi inspiraatiota sovellusideoihin.
Pohdi, kuinka voit käyttää datavisualisointia tuomaan esiin tai korostamaan merkityksellisiä havaintoja esimerkiksi ilmastonmuutoksen ja metsäkadon kaltaisista aiheista. Tai mieti, kuinka havaintoja voidaan hyödyntää uusien käyttäjäkokemusten luomisessa, jotka motivoivat käyttäytymismuutoksia kohti kestävämpää elämäntapaa.
Datatiede + Opiskelijat
Olemme keskustelleet tosielämän sovelluksista teollisuudessa ja tutkimuksessa sekä tutkineet datatieteen sovellusesimerkkejä digitaalisen humanismin ja kestävän kehityksen aloilla. Kuinka siis voit kehittää taitojasi ja jakaa asiantuntemustasi datatieteen aloittelijana?
Tässä muutamia esimerkkejä datatieteen opiskelijaprojekteista inspiraatioksi.
- MSR Data Science Summer School ja GitHub projektit, joissa tutkitaan aiheita kuten:
- Materiaalisen kulttuurin digitalisointi: Sirkapin sosioekonomisten jakautumien tutkiminen - Ornella Altunyan ja Claremont-tiimi käyttivät ArcGIS StoryMaps.
🚀 Haaste
Etsi artikkeleita, jotka suosittelevat datatieteen projekteja aloittelijoille - kuten nämä 50 aihealuetta tai nämä 21 projektia tai nämä 16 projektia lähdekoodilla, joita voit purkaa ja muokata. Älä unohda blogata oppimismatkastasi ja jakaa havaintojasi kanssamme.
Luentojälkeinen kysely
Luentojälkeinen kysely
Kertaus & Itseopiskelu
Haluatko tutkia lisää käyttötapauksia? Tässä muutamia aiheeseen liittyviä artikkeleita:
- 17 Datatieteen sovellusta ja esimerkkiä - heinäkuu 2021
- 11 Henkeäsalpaavaa datatieteen sovellusta tosielämässä - toukokuu 2021
- Datatiede tosielämässä - artikkelikokoelma
- 12 Tosielämän datatieteen sovellusta esimerkein - toukokuu 2024
- Datatiede: Koulutuksessa, Maataloudessa, Rahoituksessa, Elokuvissa, Terveydenhuollossa ja muualla.
Tehtävä
Tutki Planetary Computer -tietoaineistoa
Vastuuvapauslauseke:
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulee pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskääntämistä. Emme ole vastuussa väärinkäsityksistä tai virhetulkinnoista, jotka johtuvat tämän käännöksen käytöstä.