|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 4 weeks ago |
README.md
Data Science i den virkelige verden
![]() |
---|
Data Science i den virkelige verden - Sketchnote av @nitya |
Vi nærmer oss slutten av denne læringsreisen!
Vi startet med definisjoner av data science og etikk, utforsket ulike verktøy og teknikker for dataanalyse og visualisering, gjennomgikk livssyklusen for data science, og så på hvordan man kan skalere og automatisere arbeidsflyter for data science med skytjenester. Så du lurer kanskje: "Hvordan kan jeg egentlig koble all denne læringen til virkelige kontekster?"
I denne leksjonen skal vi utforske virkelige anvendelser av data science på tvers av ulike bransjer og dykke ned i spesifikke eksempler innen forskning, digitale humaniora og bærekraft. Vi skal se på studentprosjektmuligheter og avslutte med nyttige ressurser som kan hjelpe deg med å fortsette din læringsreise!
Quiz før forelesning
Quiz før forelesning
Data Science + Industri
Takket være demokratiseringen av AI, finner utviklere det nå enklere å designe og integrere AI-drevne beslutningsprosesser og datadrevne innsikter i brukeropplevelser og utviklingsarbeidsflyter. Her er noen eksempler på hvordan data science "anvendes" i virkelige applikasjoner på tvers av bransjer:
-
Google Flu Trends brukte data science for å korrelere søketermer med influensatrender. Selv om tilnærmingen hadde svakheter, skapte den oppmerksomhet rundt mulighetene (og utfordringene) med datadrevne helseprediksjoner.
-
UPS Routing Predictions - forklarer hvordan UPS bruker data science og maskinlæring for å forutsi optimale leveringsruter, med hensyn til værforhold, trafikkmønstre, leveringsfrister og mer.
-
NYC Taxicab Route Visualization - data samlet inn ved hjelp av Freedom Of Information Laws hjalp med å visualisere en dag i livet til NYC-taxier, og ga innsikt i hvordan de navigerer i den travle byen, pengene de tjener, og varigheten av turer over en 24-timers periode.
-
Uber Data Science Workbench - bruker data (om hente- og leveringssteder, turvarighet, foretrukne ruter osv.) samlet fra millioner av Uber-turer daglig for å bygge et dataanalyseverktøy som hjelper med prissetting, sikkerhet, svindeldeteksjon og navigasjonsbeslutninger.
-
Sports Analytics - fokuserer på prediktiv analyse (lag- og spilleranalyse - tenk Moneyball - og fanhåndtering) og datavisualisering (lag- og fandashboards, spill osv.) med applikasjoner som talentspeiding, sportsbetting og inventar-/arenaadministrasjon.
-
Data Science i banksektoren - fremhever verdien av data science i finansindustrien med applikasjoner som risikomodellering og svindeldeteksjon, kundesegmentering, sanntidsprediksjon og anbefalingssystemer. Prediktiv analyse driver også kritiske tiltak som kredittscore.
-
Data Science i helsevesenet - fremhever applikasjoner som medisinsk bildediagnostikk (f.eks. MR, røntgen, CT-skanning), genomikk (DNA-sekvensering), legemiddelutvikling (risikovurdering, suksessprediksjon), prediktiv analyse (pasientomsorg og logistikk), sykdomssporing og forebygging osv.
Bildekreditt: Data Flair: 6 Amazing Data Science Applications
Figuren viser andre domener og eksempler på anvendelse av data science-teknikker. Vil du utforske andre applikasjoner? Sjekk ut Gjennomgang og selvstudium-seksjonen nedenfor.
Data Science + Forskning
![]() |
---|
Data Science & Forskning - Sketchnote av @nitya |
Mens virkelige applikasjoner ofte fokuserer på bruksområder i stor skala, kan forskningsprosjekter være nyttige fra to perspektiver:
- innovasjonsmuligheter - utforske rask prototyping av avanserte konsepter og testing av brukeropplevelser for neste generasjons applikasjoner.
- utfordringer ved implementering - undersøke potensielle skader eller utilsiktede konsekvenser av data science-teknologier i virkelige kontekster.
For studenter kan disse forskningsprosjektene gi både lærings- og samarbeidsmuligheter som kan forbedre forståelsen av emnet og utvide bevisstheten og engasjementet med relevante personer eller team som jobber innen interesseområder. Så hvordan ser forskningsprosjekter ut, og hvordan kan de ha en innvirkning?
La oss se på ett eksempel - MIT Gender Shades Study fra Joy Buolamwini (MIT Media Labs) med en signatur forskningsartikkel medforfattet av Timnit Gebru (da ved Microsoft Research) som fokuserte på:
- Hva: Målet med forskningsprosjektet var å evaluere bias i automatiserte ansiktsanalysealgoritmer og datasett basert på kjønn og hudtype.
- Hvorfor: Ansiktsanalyse brukes i områder som rettshåndhevelse, flyplassikkerhet, ansettelsessystemer og mer - kontekster der unøyaktige klassifiseringer (f.eks. på grunn av bias) kan forårsake potensielle økonomiske og sosiale skader for berørte individer eller grupper. Å forstå (og eliminere eller redusere) bias er nøkkelen til rettferdighet i bruk.
- Hvordan: Forskerne anerkjente at eksisterende benchmarks hovedsakelig brukte lysere hudtoner, og kuraterte et nytt datasett (1000+ bilder) som var mer balansert etter kjønn og hudtype. Datasettet ble brukt til å evaluere nøyaktigheten til tre kjønnsklassifiseringsprodukter (fra Microsoft, IBM & Face++).
Resultatene viste at selv om den totale klassifiseringsnøyaktigheten var god, var det en merkbar forskjell i feilrater mellom ulike undergrupper - med feilkjønning som var høyere for kvinner eller personer med mørkere hudtoner, noe som indikerer bias.
Viktige resultater: Skapte oppmerksomhet rundt behovet for representative datasett (balanserte undergrupper) og inkluderende team (mangfoldige bakgrunner) for å gjenkjenne og eliminere eller redusere slike bias tidlig i AI-løsninger. Forskningsinnsats som dette er også avgjørende for at mange organisasjoner kan definere prinsipper og praksis for ansvarlig AI for å forbedre rettferdighet i deres AI-produkter og prosesser.
Vil du lære om relevante forskningsinnsatser hos Microsoft?
- Sjekk ut Microsoft Research Projects innen kunstig intelligens.
- Utforsk studentprosjekter fra Microsoft Research Data Science Summer School.
- Sjekk ut Fairlearn prosjektet og Responsible AI initiativer.
Data Science + Humaniora
![]() |
---|
Data Science & Digitale Humaniora - Sketchnote av @nitya |
Digitale humaniora er definert som "en samling av praksiser og tilnærminger som kombinerer beregningsmetoder med humanistisk forskning". Stanford-prosjekter som "rebooting history" og "poetic thinking" illustrerer koblingen mellom Digitale Humaniora og Data Science - med vekt på teknikker som nettverksanalyse, informasjonsvisualisering, romlig og tekstanalyse som kan hjelpe oss med å gjenbesøke historiske og litterære datasett for å utlede nye innsikter og perspektiver.
Vil du utforske og utvide et prosjekt innen dette området?
Sjekk ut "Emily Dickinson and the Meter of Mood" - et flott eksempel fra Jen Looper som spør hvordan vi kan bruke data science til å gjenbesøke kjent poesi og revurdere dens betydning og bidrag fra forfatteren i nye kontekster. For eksempel, kan vi forutsi hvilken sesong et dikt ble skrevet i ved å analysere tonen eller sentimentet - og hva forteller dette oss om forfatterens sinnstilstand i den aktuelle perioden?
For å svare på det spørsmålet følger vi trinnene i livssyklusen for data science:
Data Acquisition
- for å samle inn et relevant datasett for analyse. Alternativer inkluderer bruk av en API (f.eks. Poetry DB API) eller scraping av nettsider (f.eks. Project Gutenberg) ved hjelp av verktøy som Scrapy.Data Cleaning
- forklarer hvordan tekst kan formateres, renses og forenkles ved hjelp av grunnleggende verktøy som Visual Studio Code og Microsoft Excel.Data Analysis
- forklarer hvordan vi nå kan importere datasettet til "Notebooks" for analyse ved hjelp av Python-pakker (som pandas, numpy og matplotlib) for å organisere og visualisere dataene.Sentiment Analysis
- forklarer hvordan vi kan integrere skytjenester som Text Analytics, ved hjelp av lavkodeverktøy som Power Automate for automatiserte databehandlingsarbeidsflyter.
Ved å bruke denne arbeidsflyten kan vi utforske sesongmessige påvirkninger på sentimentet i diktene, og hjelpe oss med å forme våre egne perspektiver på forfatteren. Prøv det selv - og utvid deretter notatboken for å stille andre spørsmål eller visualisere dataene på nye måter!
Du kan bruke noen av verktøyene i Digital Humanities toolkit for å forfølge disse undersøkelsesområdene.
Data Science + Bærekraft
![]() |
---|
Data Science & Bærekraft - Sketchnote av @nitya |
2030 Agenda For Sustainable Development - vedtatt av alle FN-medlemmer i 2015 - identifiserer 17 mål, inkludert de som fokuserer på beskytte planeten mot nedbrytning og virkningen av klimaendringer. Microsoft Sustainability-initiativet støtter disse målene ved å utforske måter teknologiløsninger kan bidra til å bygge mer bærekraftige fremtider med et fokus på 4 mål - være karbonnegative, vannpositive, null avfall og biologisk mangfoldige innen 2030.
Å takle disse utfordringene på en skalerbar og tidsriktig måte krever tenkning i sky-skala - og store mengder data. Planetary Computer-initiativet gir 4 komponenter for å hjelpe dataforskere og utviklere i denne innsatsen:
-
Data Catalog - med petabyte av Earth Systems-data (gratis og Azure-hostet).
-
Planetary API - for å hjelpe brukere med å søke etter relevante data på tvers av rom og tid.
-
Hub - administrert miljø for forskere til å behandle massive geospatiale datasett.
-
Applications - viser bruksområder og verktøy for bærekraftige innsikter. Planetary Computer-prosjektet er for øyeblikket i forhåndsvisning (per september 2021) - her er hvordan du kan komme i gang med å bidra til bærekraftige løsninger ved hjelp av dataanalyse.
-
Be om tilgang for å starte utforskning og koble deg til andre.
-
Utforsk dokumentasjon for å forstå støttede datasett og API-er.
-
Utforsk applikasjoner som Ecosystem Monitoring for inspirasjon til applikasjonsideer.
Tenk på hvordan du kan bruke datavisualisering for å avdekke eller forsterke relevante innsikter innen områder som klimaendringer og avskoging. Eller vurder hvordan innsikter kan brukes til å skape nye brukeropplevelser som motiverer til atferdsendringer for et mer bærekraftig liv.
Dataanalyse + Studenter
Vi har snakket om virkelige applikasjoner i industri og forskning, og utforsket eksempler på dataanalyseapplikasjoner innen digitale humaniora og bærekraft. Så hvordan kan du bygge ferdighetene dine og dele ekspertisen din som nybegynner innen dataanalyse?
Her er noen eksempler på studentprosjekter innen dataanalyse for inspirasjon.
- MSR Data Science Summer School med GitHub prosjekter som utforsker temaer som:
- Digitalisering av materiell kultur: Utforsking av sosioøkonomiske fordelinger i Sirkap - fra Ornella Altunyan og teamet ved Claremont, ved bruk av ArcGIS StoryMaps.
🚀 Utfordring
Søk etter artikler som anbefaler dataanalyseprosjekter som er nybegynnervennlige - som disse 50 temaområdene eller disse 21 prosjektideene eller disse 16 prosjektene med kildekode som du kan dekonstruere og remikse. Og ikke glem å blogge om læringsreisen din og dele innsiktene dine med oss alle.
Quiz etter forelesning
Quiz etter forelesning
Gjennomgang & Selvstudium
Vil du utforske flere bruksområder? Her er noen relevante artikler:
- 17 applikasjoner og eksempler innen dataanalyse - juli 2021
- 11 imponerende applikasjoner innen dataanalyse i den virkelige verden - mai 2021
- Dataanalyse i den virkelige verden - artikkelsamling
- 12 virkelige applikasjoner innen dataanalyse med eksempler - mai 2024
- Dataanalyse innen: Utdanning, Landbruk, Finans, Film, Helsevesen og mer.
Oppgave
Utforsk et Planetary Computer-datasett
Ansvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten Co-op Translator. Selv om vi streber etter nøyaktighet, vær oppmerksom på at automatiserte oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.