|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 5 months ago | |
README.md
Datawetenschap in de Praktijk
![]() |
|---|
| Datawetenschap in de Praktijk - Sketchnote door @nitya |
We zijn bijna aan het einde van deze leerreis!
We begonnen met definities van datawetenschap en ethiek, verkenden verschillende tools en technieken voor data-analyse en visualisatie, bespraken de levenscyclus van datawetenschap, en bekeken hoe we workflows voor datawetenschap kunnen opschalen en automatiseren met cloud computing-diensten. Dus je vraagt je waarschijnlijk af: "Hoe pas ik al deze kennis precies toe in de praktijk?"
In deze les gaan we de toepassingen van datawetenschap in verschillende industrieën verkennen en specifieke voorbeelden bekijken in de context van onderzoek, digitale geesteswetenschappen en duurzaamheid. We bespreken ook mogelijkheden voor studentenprojecten en sluiten af met nuttige bronnen om je leerreis voort te zetten!
Quiz Voorafgaand aan de Les
Quiz voorafgaand aan de les
Datawetenschap + Industrie
Dankzij de democratisering van AI wordt het voor ontwikkelaars steeds eenvoudiger om AI-gedreven besluitvorming en datagestuurde inzichten te ontwerpen en te integreren in gebruikerservaringen en ontwikkelworkflows. Hier zijn enkele voorbeelden van hoe datawetenschap wordt toegepast in de praktijk binnen verschillende industrieën:
-
Google Flu Trends gebruikte datawetenschap om zoektermen te correleren met grieptrends. Hoewel de aanpak gebreken vertoonde, bracht het bewustzijn over de mogelijkheden (en uitdagingen) van datagestuurde voorspellingen in de gezondheidszorg.
-
UPS Routing Predictions - beschrijft hoe UPS datawetenschap en machine learning gebruikt om optimale bezorgroutes te voorspellen, rekening houdend met weersomstandigheden, verkeerspatronen, bezorgdeadlines en meer.
-
NYC Taxicab Route Visualization - data verzameld via Freedom Of Information Laws hielp een dag in het leven van NYC-taxi's te visualiseren, waardoor we inzicht kregen in hoe ze door de drukke stad navigeren, hoeveel ze verdienen en hoe lang ritten duren gedurende een periode van 24 uur.
-
Uber Data Science Workbench - gebruikt data (over ophaal- en afleverlocaties, ritduur, voorkeursroutes, etc.) verzameld uit miljoenen Uber-ritten dagelijks om een data-analysetool te bouwen die helpt bij prijsbepaling, veiligheid, fraudedetectie en navigatiebeslissingen.
-
Sportanalyse - richt zich op voorspellende analyse (team- en spelersanalyse - denk aan Moneyball - en fanbeheer) en datavisualisatie (team- en fandashboards, games, etc.) met toepassingen zoals talent scouting, sportweddenschappen en voorraad-/locatiebeheer.
-
Datawetenschap in de Bankensector - benadrukt de waarde van datawetenschap in de financiële sector met toepassingen variërend van risicomodellering en fraudedetectie tot klantsegmentatie, realtime voorspellingen en aanbevelingssystemen. Voorspellende analyses drijven ook kritieke maatregelen zoals kredietscores.
-
Datawetenschap in de Gezondheidszorg - benadrukt toepassingen zoals medische beeldvorming (bijv. MRI, röntgenfoto's, CT-scans), genomica (DNA-sequencing), medicijnontwikkeling (risicobeoordeling, succesvoorspelling), voorspellende analyses (patiëntenzorg en logistiek), ziekteopsporing en -preventie, etc.
Afbeeldingsbron: Data Flair: 6 Amazing Data Science Applications
De afbeelding toont andere domeinen en voorbeelden van het toepassen van datawetenschappelijke technieken. Wil je meer toepassingen verkennen? Bekijk de sectie Review & Zelfstudie hieronder.
Datawetenschap + Onderzoek
![]() |
|---|
| Datawetenschap & Onderzoek - Sketchnote door @nitya |
Hoewel toepassingen in de praktijk vaak gericht zijn op industriële use-cases op schaal, kunnen onderzoeks-toepassingen en projecten nuttig zijn vanuit twee perspectieven:
- Innovatiekansen - snelle prototyping van geavanceerde concepten en het testen van gebruikerservaringen voor toepassingen van de volgende generatie.
- Implementatie-uitdagingen - onderzoek naar mogelijke schade of onbedoelde gevolgen van datawetenschappelijke technologieën in de praktijk.
Voor studenten kunnen deze onderzoeksprojecten zowel leer- als samenwerkingsmogelijkheden bieden die je begrip van het onderwerp verbeteren en je bewustzijn en betrokkenheid vergroten bij relevante mensen of teams die werken in interessegebieden. Hoe zien onderzoeksprojecten eruit en hoe kunnen ze impact maken?
Laten we een voorbeeld bekijken - de MIT Gender Shades Study van Joy Buolamwini (MIT Media Labs) met een belangrijk onderzoeksartikel mede-auteur van Timnit Gebru (destijds bij Microsoft Research) dat zich richtte op:
- Wat: Het doel van het onderzoeksproject was om de vooringenomenheid in geautomatiseerde gezichtsanalysesystemen en datasets te evalueren op basis van geslacht en huidskleur.
- Waarom: Gezichtsanalyse wordt gebruikt in gebieden zoals wetshandhaving, luchthavenbeveiliging, wervingssystemen en meer - contexten waarin onnauwkeurige classificaties (bijv. door vooringenomenheid) economische en sociale schade kunnen veroorzaken voor getroffen individuen of groepen. Het begrijpen (en elimineren of verminderen) van vooringenomenheid is essentieel voor eerlijk gebruik.
- Hoe: Onderzoekers erkenden dat bestaande benchmarks voornamelijk lichtere huidtypes gebruikten en stelden een nieuwe dataset samen (1000+ afbeeldingen) die meer gebalanceerd was qua geslacht en huidskleur. De dataset werd gebruikt om de nauwkeurigheid van drie geslachtsclassificatieproducten (van Microsoft, IBM & Face++) te evalueren.
De resultaten toonden aan dat hoewel de algehele classificatienauwkeurigheid goed was, er een merkbaar verschil was in foutpercentages tussen verschillende subgroepen - met misclassificatie die hoger was voor vrouwen of personen met een donkere huidskleur, wat wijst op vooringenomenheid.
Belangrijke Resultaten: Het onderzoek bracht bewustzijn dat datawetenschap meer representatieve datasets (gebalanceerde subgroepen) en meer inclusieve teams (diverse achtergronden) nodig heeft om dergelijke vooringenomenheid eerder in AI-oplossingen te herkennen en te elimineren of te verminderen. Onderzoeksinspanningen zoals deze zijn ook van cruciaal belang voor veel organisaties bij het definiëren van principes en praktijken voor verantwoordelijke AI om eerlijkheid in hun AI-producten en -processen te verbeteren.
Wil je meer leren over relevante onderzoeksinspanningen bij Microsoft?
- Bekijk Microsoft Research Projects op het gebied van Kunstmatige Intelligentie.
- Verken studentenprojecten van de Microsoft Research Data Science Summer School.
- Bekijk het Fairlearn project en de Responsible AI initiatieven.
Datawetenschap + Geesteswetenschappen
![]() |
|---|
| Datawetenschap & Digitale Geesteswetenschappen - Sketchnote door @nitya |
Digitale Geesteswetenschappen worden gedefinieerd als "een verzameling van praktijken en benaderingen die computationele methoden combineren met humanistische vraagstukken". Stanford-projecten zoals "rebooting history" en "poetic thinking" illustreren de verbinding tussen Digitale Geesteswetenschappen en Datawetenschap - met nadruk op technieken zoals netwerkanalyse, informatievisualisatie, ruimtelijke en tekstanalyse die ons kunnen helpen historische en literaire datasets opnieuw te bekijken om nieuwe inzichten en perspectieven te verkrijgen.
Wil je een project in dit domein verkennen en uitbreiden?
Bekijk "Emily Dickinson and the Meter of Mood" - een geweldig voorbeeld van Jen Looper dat onderzoekt hoe we datawetenschap kunnen gebruiken om bekende poëzie opnieuw te bekijken en de betekenis en bijdragen van de auteur in een nieuwe context te herwaarderen. Bijvoorbeeld, kunnen we het seizoen voorspellen waarin een gedicht is geschreven door de toon of het sentiment te analyseren - en wat zegt dit over de gemoedstoestand van de auteur in die periode?
Om die vraag te beantwoorden, volgen we de stappen van onze datawetenschappelijke levenscyclus:
Data Verzamelen- om een relevante dataset voor analyse te verzamelen. Opties zijn onder andere het gebruik van een API (bijv. Poetry DB API) of het scrapen van webpagina's (bijv. Project Gutenberg) met tools zoals Scrapy.Data Schoonmaken- legt uit hoe tekst kan worden geformatteerd, geschoond en vereenvoudigd met basisgereedschappen zoals Visual Studio Code en Microsoft Excel.Data Analyseren- legt uit hoe we de dataset nu kunnen importeren in "Notebooks" voor analyse met behulp van Python-pakketten (zoals pandas, numpy en matplotlib) om de data te organiseren en te visualiseren.Sentimentanalyse- legt uit hoe we cloudservices zoals Text Analytics kunnen integreren, met behulp van low-code tools zoals Power Automate voor geautomatiseerde dataverwerkingsworkflows.
Met deze workflow kunnen we de seizoensinvloeden op het sentiment van de gedichten verkennen en ons eigen perspectief op de auteur vormen. Probeer het zelf - en breid vervolgens de notebook uit om andere vragen te stellen of de data op nieuwe manieren te visualiseren!
Je kunt enkele tools uit de Digital Humanities toolkit gebruiken om deze onderzoekspaden te volgen.
Datawetenschap + Duurzaamheid
![]() |
|---|
| Datawetenschap & Duurzaamheid - Sketchnote door @nitya |
De Agenda 2030 voor Duurzame Ontwikkeling - aangenomen door alle leden van de Verenigde Naties in 2015 - identificeert 17 doelen, waaronder doelen die zich richten op het beschermen van de planeet tegen degradatie en de impact van klimaatverandering. Het Microsoft Duurzaamheidsinitiatief ondersteunt deze doelen door te onderzoeken hoe technologische oplossingen duurzamere toekomsten kunnen ondersteunen en bouwen met een focus op 4 doelen - koolstofnegatief, waterpositief, nul afval en biodivers tegen 2030.
Het aanpakken van deze uitdagingen op schaalbare en tijdige wijze vereist denken op cloudschaal - en grootschalige data. Het Planetary Computer initiatief biedt 4 componenten om datawetenschappers en ontwikkelaars hierbij te helpen:
-
Data Catalogus - met petabytes aan Earth Systems-data (gratis en gehost op Azure).
-
Planetary API - om gebruikers te helpen relevante data te zoeken over ruimte en tijd.
-
Hub - beheerde omgeving voor wetenschappers om enorme geospatiale datasets te verwerken.
-
Toepassingen - toont use-cases en tools voor duurzaamheidsinzichten. Het Planetary Computer Project is momenteel in preview (vanaf september 2021) - hier is hoe je kunt beginnen met bijdragen aan duurzame oplossingen met behulp van datawetenschap.
-
Vraag toegang aan om te starten met verkennen en in contact te komen met anderen.
-
Verken de documentatie om inzicht te krijgen in de ondersteunde datasets en API's.
-
Ontdek toepassingen zoals Ecosysteem Monitoring voor inspiratie voor applicatie-ideeën.
Denk na over hoe je datavisualisatie kunt gebruiken om relevante inzichten over onderwerpen zoals klimaatverandering en ontbossing te onthullen of te versterken. Of denk na over hoe inzichten kunnen worden gebruikt om nieuwe gebruikerservaringen te creëren die gedragsveranderingen stimuleren voor een duurzamere levensstijl.
Datawetenschap + Studenten
We hebben gesproken over toepassingen in de praktijk binnen de industrie en onderzoek, en voorbeelden van datawetenschapstoepassingen in digitale geesteswetenschappen en duurzaamheid verkend. Maar hoe kun je als beginnende datawetenschapper je vaardigheden ontwikkelen en je expertise delen?
Hier zijn enkele voorbeelden van datawetenschapsprojecten voor studenten om je te inspireren.
- MSR Data Science Summer School met GitHub projecten die onderwerpen verkennen zoals:
- Digitalisering van Materiële Cultuur: Onderzoek naar sociaal-economische verdelingen in Sirkap - van Ornella Altunyan en haar team in Claremont, met behulp van ArcGIS StoryMaps.
🚀 Uitdaging
Zoek naar artikelen die datawetenschapsprojecten aanbevelen die geschikt zijn voor beginners - zoals deze 50 onderwerpen of deze 21 projectideeën of deze 16 projecten met broncode die je kunt analyseren en aanpassen. En vergeet niet om te bloggen over je leerervaringen en je inzichten met ons allemaal te delen.
Quiz na de lezing
Quiz na de lezing
Herziening & Zelfstudie
Wil je meer use cases verkennen? Hier zijn een paar relevante artikelen:
- 17 Data Science-toepassingen en voorbeelden - juli 2021
- 11 Adembenemende Data Science-toepassingen in de echte wereld - mei 2021
- Data Science in de echte wereld - Artikelcollectie
- Data Science in: Onderwijs, Landbouw, Financiën, Films & meer.
Opdracht
Verken een Planetary Computer Dataset
Disclaimer:
Dit document is vertaald met behulp van de AI-vertalingsservice Co-op Translator. Hoewel we streven naar nauwkeurigheid, willen we u erop wijzen dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor kritieke informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.



