|
4 weeks ago | |
---|---|---|
.. | ||
README.md | 4 weeks ago | |
assignment.md | 4 weeks ago |
README.md
Datenwissenschaft in der realen Welt
![]() |
---|
Datenwissenschaft in der realen Welt - Sketchnote von @nitya |
Wir sind fast am Ende dieser Lernreise angekommen!
Wir haben mit Definitionen von Datenwissenschaft und Ethik begonnen, verschiedene Werkzeuge und Techniken für Datenanalyse und -visualisierung erkundet, den Lebenszyklus der Datenwissenschaft überprüft und uns angesehen, wie man Workflows der Datenwissenschaft mit Cloud-Computing-Diensten skalieren und automatisieren kann. Jetzt fragen Sie sich wahrscheinlich: "Wie genau kann ich all diese Erkenntnisse auf reale Kontexte anwenden?"
In dieser Lektion werden wir reale Anwendungen der Datenwissenschaft in verschiedenen Branchen untersuchen und spezifische Beispiele in den Bereichen Forschung, digitale Geisteswissenschaften und Nachhaltigkeit betrachten. Wir werden Möglichkeiten für Studentenprojekte beleuchten und mit nützlichen Ressourcen abschließen, die Ihnen helfen, Ihre Lernreise fortzusetzen!
Quiz vor der Vorlesung
Datenwissenschaft + Industrie
Dank der Demokratisierung von KI finden Entwickler es jetzt einfacher, KI-gesteuerte Entscheidungsfindung und datengesteuerte Erkenntnisse in Benutzererfahrungen und Entwicklungsworkflows zu integrieren. Hier sind einige Beispiele dafür, wie Datenwissenschaft in der Industrie "angewendet" wird:
-
Google Flu Trends nutzte Datenwissenschaft, um Suchbegriffe mit Grippe-Trends zu korrelieren. Obwohl der Ansatz Schwächen hatte, machte er auf die Möglichkeiten (und Herausforderungen) datengesteuerter Gesundheitsvorhersagen aufmerksam.
-
UPS Routing Predictions - erklärt, wie UPS Datenwissenschaft und maschinelles Lernen nutzt, um optimale Lieferwege vorherzusagen, unter Berücksichtigung von Wetterbedingungen, Verkehrsaufkommen, Lieferfristen und mehr.
-
NYC Taxicab Route Visualization - Daten, die mithilfe von Freedom Of Information Laws gesammelt wurden, halfen dabei, einen Tag im Leben von NYC-Taxis zu visualisieren. Dies ermöglicht ein besseres Verständnis dafür, wie sie sich durch die geschäftige Stadt bewegen, wie viel Geld sie verdienen und wie lange ihre Fahrten über einen Zeitraum von 24 Stunden dauern.
-
Uber Data Science Workbench - nutzt Daten (zu Abhol- und Absetzorten, Fahrtdauer, bevorzugten Routen usw.), die täglich aus Millionen von Uber-Fahrten gesammelt werden, um ein Datenanalysetool zu entwickeln, das bei Preisgestaltung, Sicherheit, Betrugserkennung und Navigationsentscheidungen hilft.
-
Sports Analytics - konzentriert sich auf prädiktive Analysen (Team- und Spieleranalysen - denken Sie an Moneyball - und Fanmanagement) und Datenvisualisierung (Team- und Fan-Dashboards, Spiele usw.) mit Anwendungen wie Talentsuche, Sportwetten und Inventar-/Verwaltungsmanagement von Veranstaltungsorten.
-
Datenwissenschaft im Bankwesen - hebt den Wert der Datenwissenschaft in der Finanzbranche hervor, mit Anwendungen von Risikomodellierung und Betrugserkennung bis hin zu Kundensegmentierung, Echtzeitvorhersagen und Empfehlungssystemen. Prädiktive Analysen treiben auch wichtige Maßnahmen wie Kreditbewertungen voran.
-
Datenwissenschaft im Gesundheitswesen - hebt Anwendungen wie medizinische Bildgebung (z. B. MRT, Röntgen, CT-Scan), Genomik (DNA-Sequenzierung), Arzneimittelentwicklung (Risikobewertung, Erfolgsvorhersage), prädiktive Analysen (Patientenversorgung & Logistik), Krankheitsverfolgung und -prävention usw. hervor.
Bildnachweis: Data Flair: 6 Amazing Data Science Applications
Die Abbildung zeigt weitere Bereiche und Beispiele für die Anwendung von Datenwissenschaftstechniken. Möchten Sie weitere Anwendungen erkunden? Schauen Sie sich den Abschnitt Review & Self Study unten an.
Datenwissenschaft + Forschung
![]() |
---|
Datenwissenschaft & Forschung - Sketchnote von @nitya |
Während reale Anwendungen oft auf groß angelegte Anwendungsfälle in der Industrie abzielen, können Forschungsprojekte aus zwei Perspektiven nützlich sein:
- Innovationsmöglichkeiten - schnelle Prototypenentwicklung fortschrittlicher Konzepte und Tests von Benutzererfahrungen für Anwendungen der nächsten Generation.
- Herausforderungen bei der Implementierung - Untersuchung potenzieller Schäden oder unbeabsichtigter Folgen von Datenwissenschaftstechnologien in realen Kontexten.
Für Studenten können diese Forschungsprojekte sowohl Lern- als auch Kooperationsmöglichkeiten bieten, die Ihr Verständnis des Themas verbessern und Ihr Bewusstsein und Ihre Interaktion mit relevanten Personen oder Teams in Interessensgebieten erweitern. Wie sehen Forschungsprojekte aus und wie können sie einen Einfluss haben?
Schauen wir uns ein Beispiel an - die MIT Gender Shades Study von Joy Buolamwini (MIT Media Labs) mit einem signifikanten Forschungsartikel, der zusammen mit Timnit Gebru (damals bei Microsoft Research) verfasst wurde und sich auf Folgendes konzentrierte:
- Was: Ziel des Forschungsprojekts war es, Bias in automatisierten Gesichtsanalysealgorithmen und Datensätzen basierend auf Geschlecht und Hauttyp zu bewerten.
- Warum: Gesichtsanalyse wird in Bereichen wie Strafverfolgung, Flughafensicherheit, Einstellungsverfahren und mehr eingesetzt - Kontexte, in denen ungenaue Klassifikationen (z. B. aufgrund von Bias) potenzielle wirtschaftliche und soziale Schäden für betroffene Einzelpersonen oder Gruppen verursachen können. Das Verständnis (und die Beseitigung oder Minderung) von Bias ist entscheidend für Fairness in der Nutzung.
- Wie: Die Forscher erkannten, dass bestehende Benchmarks überwiegend hellhäutige Personen verwendeten, und kuratierten einen neuen Datensatz (1000+ Bilder), der ausgewogener nach Geschlecht und Hauttyp war. Der Datensatz wurde verwendet, um die Genauigkeit von drei Geschlechtsklassifikationsprodukten (von Microsoft, IBM & Face++) zu bewerten.
Die Ergebnisse zeigten, dass die Gesamtklassifikationsgenauigkeit zwar gut war, es jedoch deutliche Unterschiede in den Fehlerraten zwischen verschiedenen Untergruppen gab - mit Fehlklassifikationen häufiger bei Frauen oder Personen mit dunklerer Hautfarbe, was auf Bias hinweist.
Wichtige Ergebnisse: Es wurde deutlich, dass die Datenwissenschaft mehr repräsentative Datensätze (ausgewogene Untergruppen) und mehr inklusive Teams (diverse Hintergründe) benötigt, um solche Biases frühzeitig in KI-Lösungen zu erkennen und zu beseitigen oder zu mindern. Forschungsbemühungen wie diese sind auch entscheidend dafür, dass viele Organisationen Prinzipien und Praktiken für verantwortungsvolle KI definieren, um Fairness in ihren KI-Produkten und -Prozessen zu verbessern.
Möchten Sie mehr über relevante Forschungsbemühungen bei Microsoft erfahren?
- Schauen Sie sich Microsoft Research Projects im Bereich Künstliche Intelligenz an.
- Erkunden Sie Studentenprojekte von der Microsoft Research Data Science Summer School.
- Informieren Sie sich über das Fairlearn Projekt und die Responsible AI Initiativen.
Datenwissenschaft + Geisteswissenschaften
![]() |
---|
Datenwissenschaft & Digitale Geisteswissenschaften - Sketchnote von @nitya |
Digitale Geisteswissenschaften werden definiert als "eine Sammlung von Praktiken und Ansätzen, die computergestützte Methoden mit geisteswissenschaftlicher Forschung kombinieren". Stanford-Projekte wie "Rebooting History" und "Poetic Thinking" veranschaulichen die Verbindung zwischen Digital Humanities und Datenwissenschaft - mit Schwerpunkt auf Techniken wie Netzwerkanalyse, Informationsvisualisierung, räumliche und Textanalyse, die uns helfen können, historische und literarische Datensätze neu zu betrachten, um neue Erkenntnisse und Perspektiven zu gewinnen.
Möchten Sie ein Projekt in diesem Bereich erkunden und erweitern?
Schauen Sie sich "Emily Dickinson and the Meter of Mood" an - ein großartiges Beispiel von Jen Looper, das fragt, wie wir Datenwissenschaft nutzen können, um bekannte Poesie neu zu betrachten und ihre Bedeutung sowie die Beiträge ihrer Autorin in neuen Kontexten zu bewerten. Zum Beispiel: Können wir die Jahreszeit vorhersagen, in der ein Gedicht verfasst wurde, indem wir seinen Ton oder seine Stimmung analysieren - und was sagt uns das über den Geisteszustand der Autorin in dem relevanten Zeitraum?
Um diese Frage zu beantworten, folgen wir den Schritten des Lebenszyklus der Datenwissenschaft:
Datenerfassung
- um einen relevanten Datensatz für die Analyse zu sammeln. Optionen umfassen die Nutzung einer API (z. B. Poetry DB API) oder das Scrapen von Webseiten (z. B. Project Gutenberg) mit Tools wie Scrapy.Datenbereinigung
- erklärt, wie Text formatiert, bereinigt und vereinfacht werden kann, mit grundlegenden Tools wie Visual Studio Code und Microsoft Excel.Datenanalyse
- erklärt, wie wir den Datensatz jetzt in "Notebooks" für die Analyse importieren können, mit Python-Paketen (wie pandas, numpy und matplotlib), um die Daten zu organisieren und zu visualisieren.Stimmungsanalyse
- erklärt, wie wir Cloud-Dienste wie Text Analytics integrieren können, mit Low-Code-Tools wie Power Automate für automatisierte Datenverarbeitungs-Workflows.
Mit diesem Workflow können wir die saisonalen Auswirkungen auf die Stimmung der Gedichte untersuchen und uns eigene Perspektiven auf die Autorin schaffen. Probieren Sie es selbst aus - erweitern Sie dann das Notebook, um andere Fragen zu stellen oder die Daten auf neue Weise zu visualisieren!
Sie können einige der Tools im Digital Humanities Toolkit nutzen, um diese Forschungsansätze weiterzuverfolgen.
Datenwissenschaft + Nachhaltigkeit
![]() |
---|
Datenwissenschaft & Nachhaltigkeit - Sketchnote von @nitya |
Die Agenda 2030 für nachhaltige Entwicklung - 2015 von allen Mitgliedern der Vereinten Nationen verabschiedet - identifiziert 17 Ziele, darunter solche, die sich auf den Schutz des Planeten vor Degradierung und den Auswirkungen des Klimawandels konzentrieren. Die Microsoft Sustainability Initiative unterstützt diese Ziele, indem sie untersucht, wie technologische Lösungen nachhaltigere Zukünfte fördern und aufbauen können, mit einem Fokus auf 4 Ziele - bis 2030 kohlenstoffnegativ, wasserpositiv, abfallfrei und biodivers zu sein.
Um diese Herausforderungen skalierbar und zeitnah zu bewältigen, ist Cloud-Denken und groß angelegte Daten erforderlich. Die Planetary Computer Initiative bietet 4 Komponenten, die Datenwissenschaftler und Entwickler bei dieser Aufgabe unterstützen:
-
Datenkatalog - mit Petabytes an Erdsystemdaten (kostenlos & Azure-gehostet).
-
Planetary API - um Nutzern zu helfen, relevante Daten über Raum und Zeit hinweg zu suchen.
-
Hub - verwaltete Umgebung für Wissenschaftler zur Verarbeitung massiver geospatialer Datensätze.
-
Anwendungen - zeigen Anwendungsfälle und Tools für Nachhaltigkeitserkenntnisse. Das Planetary Computer Project befindet sich derzeit in der Vorschau (Stand: September 2021) – hier erfahren Sie, wie Sie mit Datenwissenschaft zur Entwicklung nachhaltiger Lösungen beitragen können.
-
Zugang beantragen, um mit der Erkundung zu beginnen und sich mit Gleichgesinnten zu vernetzen.
-
Dokumentation erkunden, um unterstützte Datensätze und APIs zu verstehen.
-
Anwendungen wie Ecosystem Monitoring entdecken, um Inspiration für Anwendungsideen zu erhalten.
Denken Sie darüber nach, wie Sie Datenvisualisierung nutzen können, um relevante Erkenntnisse in Bereichen wie Klimawandel und Abholzung sichtbar zu machen oder zu verstärken. Oder überlegen Sie, wie diese Erkenntnisse genutzt werden können, um neue Nutzererfahrungen zu schaffen, die Verhaltensänderungen für ein nachhaltigeres Leben fördern.
Datenwissenschaft + Studierende
Wir haben über reale Anwendungen in Industrie und Forschung gesprochen und Beispiele für Datenwissenschaftsanwendungen in den digitalen Geisteswissenschaften und der Nachhaltigkeit untersucht. Wie können Sie also als Anfänger in der Datenwissenschaft Ihre Fähigkeiten aufbauen und Ihr Wissen teilen?
Hier sind einige Beispiele für Datenwissenschaftsprojekte von Studierenden, die Sie inspirieren können:
- MSR Data Science Summer School mit GitHub-Projekten, die Themen wie folgende untersuchen:
- Digitalisierung materieller Kultur: Untersuchung sozioökonomischer Verteilungen in Sirkap – von Ornella Altunyan und ihrem Team in Claremont, unter Verwendung von ArcGIS StoryMaps.
🚀 Herausforderung
Suchen Sie nach Artikeln, die anfängerfreundliche Datenwissenschaftsprojekte empfehlen – wie diese 50 Themenbereiche, diese 21 Projektideen oder diese 16 Projekte mit Quellcode, die Sie analysieren und neu kombinieren können. Und vergessen Sie nicht, über Ihre Lernerfahrungen zu bloggen und Ihre Erkenntnisse mit uns allen zu teilen.
Quiz nach der Vorlesung
Überprüfung & Selbststudium
Möchten Sie weitere Anwendungsfälle erkunden? Hier sind einige relevante Artikel:
- 17 Anwendungen und Beispiele für Datenwissenschaft – Juli 2021
- 11 atemberaubende Anwendungen der Datenwissenschaft in der realen Welt – Mai 2021
- Datenwissenschaft in der realen Welt – Artikelsammlung
- Datenwissenschaft in: Bildung, Landwirtschaft, Finanzen, Filmen und mehr.
Aufgabe
Erkunden Sie einen Planetary Computer-Datensatz
Haftungsausschluss:
Dieses Dokument wurde mit dem KI-Übersetzungsdienst Co-op Translator übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.