You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

20 KiB

Datenwissenschaft in der realen Welt

 Sketchnote von (@sketchthedocs)
Datenwissenschaft in der realen Welt - Sketchnote von @nitya

Wir sind fast am Ende dieser Lernreise angekommen!

Wir haben mit Definitionen von Datenwissenschaft und Ethik begonnen, verschiedene Werkzeuge und Techniken für Datenanalyse und -visualisierung erkundet, den Lebenszyklus der Datenwissenschaft überprüft und uns mit der Skalierung und Automatisierung von Datenwissenschafts-Workflows mithilfe von Cloud-Computing-Diensten beschäftigt. Jetzt fragen Sie sich wahrscheinlich: "Wie genau kann ich all diese Erkenntnisse auf reale Kontexte anwenden?"

In dieser Lektion werden wir reale Anwendungen der Datenwissenschaft in verschiedenen Branchen untersuchen und spezifische Beispiele aus den Bereichen Forschung, digitale Geisteswissenschaften und Nachhaltigkeit betrachten. Wir werden Möglichkeiten für Studentenprojekte beleuchten und mit nützlichen Ressourcen abschließen, die Ihnen helfen, Ihre Lernreise fortzusetzen!

Quiz vor der Vorlesung

Quiz vor der Vorlesung

Datenwissenschaft + Industrie

Dank der Demokratisierung von KI finden Entwickler es jetzt einfacher, KI-gesteuerte Entscheidungsfindung und datengestützte Erkenntnisse in Benutzererfahrungen und Entwicklungs-Workflows zu integrieren. Hier sind einige Beispiele dafür, wie Datenwissenschaft in der Industrie "angewendet" wird:

  • Google Flu Trends nutzte Datenwissenschaft, um Suchbegriffe mit Grippe-Trends zu korrelieren. Obwohl der Ansatz Schwächen hatte, machte er auf die Möglichkeiten (und Herausforderungen) datengestützter Gesundheitsvorhersagen aufmerksam.

  • UPS Routing Predictions - erklärt, wie UPS Datenwissenschaft und maschinelles Lernen nutzt, um optimale Lieferwege vorherzusagen, unter Berücksichtigung von Wetterbedingungen, Verkehrsaufkommen, Lieferfristen und mehr.

  • NYC Taxicab Route Visualization - Daten, die mithilfe von Freedom Of Information Laws gesammelt wurden, halfen dabei, einen Tag im Leben von NYC-Taxis zu visualisieren. Dies ermöglicht ein besseres Verständnis dafür, wie sie sich durch die geschäftige Stadt bewegen, wie viel Geld sie verdienen und wie lange Fahrten über einen Zeitraum von 24 Stunden dauern.

  • Uber Data Science Workbench - nutzt Daten (zu Abhol- und Absetzorten, Fahrtdauer, bevorzugten Routen usw.), die täglich aus Millionen von Uber-Fahrten gesammelt werden, um ein Datenanalysetool zu entwickeln, das bei Preisgestaltung, Sicherheit, Betrugserkennung und Navigationsentscheidungen hilft.

  • Sportanalytik - konzentriert sich auf prädiktive Analytik (Team- und Spieleranalyse - denken Sie an Moneyball - und Fanmanagement) und Datenvisualisierung (Team- und Fan-Dashboards, Spiele usw.) mit Anwendungen wie Talentsuche, Sportwetten und Inventar-/Verwaltungsmanagement von Veranstaltungsorten.

  • Datenwissenschaft im Bankwesen - hebt den Wert der Datenwissenschaft in der Finanzbranche hervor, mit Anwendungen von Risikomodellierung und Betrugserkennung bis hin zu Kundensegmentierung, Echtzeitvorhersagen und Empfehlungssystemen. Prädiktive Analytik treibt auch wichtige Maßnahmen wie Kreditbewertungen voran.

  • Datenwissenschaft im Gesundheitswesen - hebt Anwendungen wie medizinische Bildgebung (z. B. MRT, Röntgen, CT-Scan), Genomik (DNA-Sequenzierung), Arzneimittelentwicklung (Risikobewertung, Erfolgsvorhersage), prädiktive Analytik (Patientenversorgung & Logistik), Krankheitsüberwachung und -prävention hervor.

Anwendungen der Datenwissenschaft in der realen Welt Bildnachweis: Data Flair: 6 Amazing Data Science Applications

Die Abbildung zeigt weitere Bereiche und Beispiele für die Anwendung von Datenwissenschaftstechniken. Möchten Sie weitere Anwendungen erkunden? Schauen Sie sich den Abschnitt Review & Self Study unten an.

Datenwissenschaft + Forschung

 Sketchnote von (@sketchthedocs)
Datenwissenschaft & Forschung - Sketchnote von @nitya

Während reale Anwendungen oft auf groß angelegte industrielle Anwendungsfälle abzielen, können Forschungsprojekte aus zwei Perspektiven nützlich sein:

  • Innovationsmöglichkeiten - schnelle Prototypenentwicklung fortschrittlicher Konzepte und Tests von Benutzererfahrungen für Anwendungen der nächsten Generation.
  • Herausforderungen bei der Implementierung - Untersuchung potenzieller Schäden oder unbeabsichtigter Konsequenzen von Datenwissenschaftstechnologien in realen Kontexten.

Für Studenten können diese Forschungsprojekte sowohl Lern- als auch Kooperationsmöglichkeiten bieten, die Ihr Verständnis des Themas verbessern und Ihr Bewusstsein sowie Ihre Interaktion mit relevanten Personen oder Teams in Interessensgebieten erweitern. Wie sehen Forschungsprojekte aus und welchen Einfluss können sie haben?

Schauen wir uns ein Beispiel an - die MIT Gender Shades Studie von Joy Buolamwini (MIT Media Labs) mit einem signifikanten Forschungsartikel, der zusammen mit Timnit Gebru (damals bei Microsoft Research) verfasst wurde und sich auf Folgendes konzentrierte:

  • Was: Ziel des Forschungsprojekts war es, Bias in automatisierten Gesichtsanalysealgorithmen und Datensätzen basierend auf Geschlecht und Hauttyp zu bewerten.
  • Warum: Gesichtsanalyse wird in Bereichen wie Strafverfolgung, Flughafensicherheit, Einstellungssystemen und mehr eingesetzt - Kontexte, in denen ungenaue Klassifikationen (z. B. aufgrund von Bias) potenzielle wirtschaftliche und soziale Schäden für betroffene Einzelpersonen oder Gruppen verursachen können. Das Verständnis (und die Beseitigung oder Minderung) von Bias ist entscheidend für Fairness in der Nutzung.
  • Wie: Die Forscher erkannten, dass bestehende Benchmarks überwiegend hellhäutige Probanden verwendeten, und kuratierten einen neuen Datensatz (1000+ Bilder), der ausgewogener nach Geschlecht und Hauttyp war. Der Datensatz wurde verwendet, um die Genauigkeit von drei Geschlechtsklassifikationsprodukten (von Microsoft, IBM & Face++) zu bewerten.

Die Ergebnisse zeigten, dass die Gesamtklassifikationsgenauigkeit zwar gut war, es jedoch deutliche Unterschiede in den Fehlerraten zwischen verschiedenen Untergruppen gab - mit Fehlklassifikationen häufiger bei Frauen oder Personen mit dunklerer Hautfarbe, was auf Bias hinweist.

Wichtige Ergebnisse: Es wurde deutlich, dass die Datenwissenschaft mehr repräsentative Datensätze (ausgewogene Untergruppen) und mehr inklusive Teams (diverse Hintergründe) benötigt, um solche Biases früher in KI-Lösungen zu erkennen und zu beseitigen oder zu mindern. Forschungsbemühungen wie diese sind auch entscheidend dafür, dass viele Organisationen Prinzipien und Praktiken für verantwortungsvolle KI definieren, um Fairness in ihren KI-Produkten und -Prozessen zu verbessern.

Möchten Sie mehr über relevante Forschungsbemühungen bei Microsoft erfahren?

Datenwissenschaft + Geisteswissenschaften

 Sketchnote von (@sketchthedocs)
Datenwissenschaft & Digitale Geisteswissenschaften - Sketchnote von @nitya

Digitale Geisteswissenschaften wurden definiert als "eine Sammlung von Praktiken und Ansätzen, die computergestützte Methoden mit geisteswissenschaftlicher Forschung kombinieren". Stanford-Projekte wie "Rebooting History" und "Poetic Thinking" illustrieren die Verbindung zwischen Digital Humanities und Datenwissenschaft - mit Schwerpunkt auf Techniken wie Netzwerkanalyse, Informationsvisualisierung, räumliche und Textanalyse, die uns helfen können, historische und literarische Datensätze neu zu betrachten, um neue Erkenntnisse und Perspektiven zu gewinnen.

Möchten Sie ein Projekt in diesem Bereich erkunden und erweitern?

Schauen Sie sich "Emily Dickinson and the Meter of Mood" an - ein großartiges Beispiel von Jen Looper, das fragt, wie wir Datenwissenschaft nutzen können, um vertraute Poesie neu zu betrachten und ihre Bedeutung sowie die Beiträge ihrer Autorin in neuen Kontexten zu bewerten. Zum Beispiel: Können wir die Jahreszeit vorhersagen, in der ein Gedicht verfasst wurde, indem wir seinen Ton oder seine Stimmung analysieren - und was sagt uns das über den Geisteszustand der Autorin in der relevanten Zeit?

Um diese Frage zu beantworten, folgen wir den Schritten des Lebenszyklus der Datenwissenschaft:

  • Datenerfassung - um einen relevanten Datensatz für die Analyse zu sammeln. Optionen umfassen die Nutzung einer API (z. B. Poetry DB API) oder das Scrapen von Webseiten (z. B. Project Gutenberg) mit Tools wie Scrapy.
  • Datenbereinigung - erklärt, wie Text formatiert, bereinigt und vereinfacht werden kann, mithilfe grundlegender Tools wie Visual Studio Code und Microsoft Excel.
  • Datenanalyse - erklärt, wie wir den Datensatz jetzt in "Notebooks" für die Analyse importieren können, mithilfe von Python-Paketen (wie pandas, numpy und matplotlib), um die Daten zu organisieren und zu visualisieren.
  • Stimmungsanalyse - erklärt, wie wir Cloud-Dienste wie Text Analytics integrieren können, mithilfe von Low-Code-Tools wie Power Automate für automatisierte Datenverarbeitungs-Workflows.

Mit diesem Workflow können wir die saisonalen Auswirkungen auf die Stimmung der Gedichte untersuchen und uns eigene Perspektiven auf die Autorin schaffen. Probieren Sie es selbst aus - erweitern Sie dann das Notebook, um andere Fragen zu stellen oder die Daten auf neue Weise zu visualisieren!

Sie können einige der Tools im Digital Humanities Toolkit nutzen, um diese Forschungsansätze weiterzuverfolgen.

Datenwissenschaft + Nachhaltigkeit

 Sketchnote von (@sketchthedocs)
Datenwissenschaft & Nachhaltigkeit - Sketchnote von @nitya

Die Agenda 2030 für nachhaltige Entwicklung - 2015 von allen Mitgliedern der Vereinten Nationen verabschiedet - identifiziert 17 Ziele, darunter solche, die sich auf den Schutz des Planeten vor Degradierung und den Auswirkungen des Klimawandels konzentrieren. Die Microsoft Nachhaltigkeitsinitiative unterstützt diese Ziele, indem sie untersucht, wie technologische Lösungen nachhaltigere Zukünfte fördern können, mit einem Fokus auf 4 Ziele - bis 2030 kohlenstoffnegativ, wasserpositiv, abfallfrei und biodivers zu sein.

Die Bewältigung dieser Herausforderungen auf skalierbare und zeitnahe Weise erfordert Cloud-Denken und groß angelegte Daten. Die Planetary Computer Initiative bietet 4 Komponenten, die Datenwissenschaftler und Entwickler bei dieser Aufgabe unterstützen:

  • Datenkatalog - mit Petabytes an Erd-System-Daten (kostenlos & Azure-gehostet).

  • Planetary API - um Nutzern zu helfen, relevante Daten über Raum und Zeit hinweg zu suchen.

  • Hub - verwaltete Umgebung für Wissenschaftler zur Verarbeitung massiver geospatialer Datensätze.

  • Anwendungen - zeigen Anwendungsfälle und Tools für Nachhaltigkeitserkenntnisse. Das Planetary Computer Projekt befindet sich derzeit in der Vorschau (Stand September 2021) - hier erfahren Sie, wie Sie mit Datenwissenschaft zur Entwicklung nachhaltiger Lösungen beitragen können.

  • Zugang beantragen, um mit der Erkundung zu beginnen und sich mit Gleichgesinnten zu vernetzen.

  • Dokumentation erkunden, um unterstützte Datensätze und APIs zu verstehen.

  • Anwendungen wie Ecosystem Monitoring erkunden, um Inspiration für Anwendungsideen zu erhalten.

Denken Sie darüber nach, wie Sie Datenvisualisierung nutzen können, um relevante Erkenntnisse in Bereichen wie Klimawandel und Abholzung sichtbar zu machen oder zu verstärken. Oder überlegen Sie, wie Erkenntnisse genutzt werden können, um neue Benutzererlebnisse zu schaffen, die Verhaltensänderungen für ein nachhaltigeres Leben motivieren.

Datenwissenschaft + Studierende

Wir haben über reale Anwendungen in Industrie und Forschung gesprochen und Beispiele für Datenwissenschaftsanwendungen in den digitalen Geisteswissenschaften und der Nachhaltigkeit untersucht. Wie können Sie also Ihre Fähigkeiten entwickeln und Ihr Wissen als Anfänger*innen in der Datenwissenschaft teilen?

Hier sind einige Beispiele für Datenwissenschaftsprojekte von Studierenden, die Sie inspirieren können:

🚀 Herausforderung

Suchen Sie nach Artikeln, die Datenwissenschaftsprojekte empfehlen, die für Anfänger*innen geeignet sind - wie diese 50 Themenbereiche oder diese 21 Projektideen oder diese 16 Projekte mit Quellcode, die Sie analysieren und neu kombinieren können. Und vergessen Sie nicht, über Ihre Lernreisen zu bloggen und Ihre Erkenntnisse mit uns allen zu teilen.

Quiz nach der Vorlesung

Quiz nach der Vorlesung

Überprüfung & Selbststudium

Möchten Sie weitere Anwendungsfälle erkunden? Hier sind einige relevante Artikel:

Aufgabe

Erkunden Sie einen Planetary Computer-Datensatz


Haftungsausschluss:
Dieses Dokument wurde mithilfe des KI-Übersetzungsdienstes Co-op Translator übersetzt. Obwohl wir uns um Genauigkeit bemühen, weisen wir darauf hin, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.