History

localizeflow[bot] 002600ec7c chore(i18n): sync translations with latest source changes (chunk 1/8, 1000 changes)		1 month ago
..
solution	🌐 Update translations via Co-op Translator	6 months ago
README.md	chore(i18n): sync translations with latest source changes (chunk 1/8, 1000 changes)	1 month ago
assignment.md	🌐 Update translations via Co-op Translator	6 months ago
notebook.ipynb	🌐 Update translations via Co-op Translator	6 months ago

README.md

Definition von Data Science


Definition von Data Science - Sketchnote von @nitya

Quiz vor der Vorlesung

Was ist Daten?

In unserem Alltag sind wir ständig von Daten umgeben. Der Text, den Sie gerade lesen, ist Daten. Die Liste der Telefonnummern Ihrer Freunde auf Ihrem Smartphone sind Daten, ebenso wie die aktuelle Uhrzeit auf Ihrer Uhr. Als Menschen arbeiten wir ganz natürlich mit Daten, indem wir beispielsweise unser Geld zählen oder Briefe an unsere Freunde schreiben.

Mit der Erfindung von Computern wurden Daten jedoch viel wichtiger. Die Hauptaufgabe von Computern besteht darin, Berechnungen durchzuführen, aber sie benötigen Daten, um arbeiten zu können. Daher müssen wir verstehen, wie Computer Daten speichern und verarbeiten.

Mit dem Aufkommen des Internets hat sich die Rolle von Computern als Datenverarbeitungsgeräte verstärkt. Wenn Sie darüber nachdenken, nutzen wir Computer heutzutage immer mehr für die Datenverarbeitung und Kommunikation, anstatt für tatsächliche Berechnungen. Wenn wir eine E-Mail an einen Freund schreiben oder im Internet nach Informationen suchen, erstellen, speichern, übertragen und manipulieren wir im Wesentlichen Daten.

Können Sie sich daran erinnern, wann Sie das letzte Mal einen Computer tatsächlich für Berechnungen verwendet haben?

Was ist Data Science?

Laut Wikipedia wird Data Science als ein wissenschaftliches Gebiet definiert, das wissenschaftliche Methoden verwendet, um Wissen und Erkenntnisse aus strukturierten und unstrukturierten Daten zu gewinnen und dieses Wissen und diese umsetzbaren Erkenntnisse aus Daten in einer Vielzahl von Anwendungsbereichen anzuwenden.

Diese Definition hebt die folgenden wichtigen Aspekte der Data Science hervor:

Das Hauptziel der Data Science ist es, Wissen aus Daten zu gewinnen, also Daten zu verstehen, versteckte Zusammenhänge zu finden und ein Modell zu erstellen.
Data Science verwendet wissenschaftliche Methoden, wie Wahrscheinlichkeitsrechnung und Statistik. Tatsächlich argumentierten einige Leute, als der Begriff Data Science erstmals eingeführt wurde, dass es sich nur um einen neuen, modischen Namen für Statistik handele. Heute ist jedoch klar, dass das Gebiet viel breiter ist.
Das gewonnene Wissen sollte angewendet werden, um umsetzbare Erkenntnisse zu gewinnen, d.h. praktische Einsichten, die in realen Geschäftssituationen angewendet werden können.
Wir sollten in der Lage sein, sowohl mit strukturierten als auch mit unstrukturierten Daten zu arbeiten. Später im Kurs werden wir auf die verschiedenen Datentypen zurückkommen.
Anwendungsbereich ist ein wichtiges Konzept, und Data Scientists benötigen oft zumindest ein gewisses Maß an Fachwissen im jeweiligen Problemfeld, z.B. Finanzen, Medizin, Marketing usw.

Ein weiterer wichtiger Aspekt der Data Science ist, dass sie untersucht, wie Daten mit Computern gesammelt, gespeichert und verarbeitet werden können. Während die Statistik uns die mathematischen Grundlagen liefert, wendet die Data Science mathematische Konzepte an, um tatsächlich Erkenntnisse aus Daten zu gewinnen.

Eine Möglichkeit (zugeschrieben Jim Gray), Data Science zu betrachten, besteht darin, sie als ein eigenes wissenschaftliches Paradigma zu sehen:

Empirisch, bei dem wir uns hauptsächlich auf Beobachtungen und Ergebnisse von Experimenten stützen
Theoretisch, bei dem neue Konzepte aus bestehendem wissenschaftlichem Wissen entstehen
Computergestützt, bei dem wir neue Prinzipien basierend auf computergestützten Experimenten entdecken
Datengetrieben, basierend auf der Entdeckung von Beziehungen und Mustern in den Daten

Andere verwandte Bereiche

Da Daten allgegenwärtig sind, ist Data Science selbst auch ein breites Feld, das viele andere Disziplinen berührt.

Datenbanken: Ein wichtiger Aspekt ist wie man Daten speichert, d.h. wie man sie so strukturiert, dass eine schnellere Verarbeitung möglich ist. Es gibt verschiedene Arten von Datenbanken, die strukturierte und unstrukturierte Daten speichern, die wir in unserem Kurs betrachten werden.
Big Data: Oft müssen wir sehr große Mengen an Daten mit einer relativ einfachen Struktur speichern und verarbeiten. Es gibt spezielle Ansätze und Werkzeuge, um diese Daten auf verteilte Weise in einem Computercluster zu speichern und effizient zu verarbeiten.
Maschinelles Lernen: Eine Möglichkeit, Daten zu verstehen, besteht darin, ein Modell zu erstellen, das in der Lage ist, ein gewünschtes Ergebnis vorherzusagen. Die Entwicklung von Modellen aus Daten wird als maschinelles Lernen bezeichnet. Sie können sich unser Machine Learning for Beginners Curriculum ansehen, um mehr darüber zu erfahren.
Künstliche Intelligenz: Ein Bereich des maschinellen Lernens, bekannt als Künstliche Intelligenz (KI), basiert ebenfalls auf Daten und umfasst den Aufbau hochkomplexer Modelle, die menschliche Denkprozesse nachahmen. KI-Methoden ermöglichen es oft, unstrukturierte Daten (z.B. natürliche Sprache) in strukturierte Erkenntnisse umzuwandeln.
Visualisierung: Große Datenmengen sind für einen Menschen schwer verständlich, aber wenn wir nützliche Visualisierungen mit diesen Daten erstellen, können wir die Daten besser verstehen und Schlussfolgerungen ziehen. Daher ist es wichtig, viele Möglichkeiten zur Visualisierung von Informationen zu kennen - etwas, das wir in Abschnitt 3 unseres Kurses behandeln werden. Verwandte Bereiche umfassen auch Infografiken und Mensch-Computer-Interaktion im Allgemeinen.

Arten von Daten

Wie bereits erwähnt, sind Daten überall. Wir müssen sie nur auf die richtige Weise erfassen! Es ist nützlich, zwischen strukturierten und unstrukturierten Daten zu unterscheiden. Erstere werden typischerweise in einer gut strukturierten Form dargestellt, oft als Tabelle oder mehrere Tabellen, während letztere einfach eine Sammlung von Dateien sind. Manchmal sprechen wir auch von halbstrukturierten Daten, die eine Art Struktur haben, die stark variieren kann.

Strukturiert	Halbstrukturiert	Unstrukturiert
Liste von Personen mit ihren Telefonnummern	Wikipedia-Seiten mit Links	Text der Encyclopaedia Britannica
Temperatur in allen Räumen eines Gebäudes jede Minute der letzten 20 Jahre	Sammlung wissenschaftlicher Artikel im JSON-Format mit Autoren, Veröffentlichungsdatum und Abstract	Dateifreigabe mit Unternehmensdokumenten
Daten zu Alter und Geschlecht aller Personen, die das Gebäude betreten	Internetseiten	Rohes Videomaterial von Überwachungskameras

Woher man Daten bekommt

Es gibt viele mögliche Quellen für Daten, und es wäre unmöglich, alle aufzuzählen! Lassen Sie uns jedoch einige der typischen Orte erwähnen, an denen Sie Daten finden können:

Strukturiert
- Internet der Dinge (IoT), einschließlich Daten von verschiedenen Sensoren wie Temperatur- oder Drucksensoren, liefert viele nützliche Daten. Zum Beispiel kann ein Bürogebäude, das mit IoT-Sensoren ausgestattet ist, automatisch Heizung und Beleuchtung steuern, um Kosten zu minimieren.
- Umfragen, die wir Benutzer nach einem Kauf oder nach dem Besuch einer Website ausfüllen lassen.
- Verhaltensanalysen können uns beispielsweise helfen zu verstehen, wie tief ein Benutzer in eine Website eintaucht und was der typische Grund für das Verlassen der Website ist.
Unstrukturiert
- Texte können eine reiche Quelle von Erkenntnissen sein, wie z.B. eine allgemeine Stimmungsbewertung oder das Extrahieren von Schlüsselwörtern und semantischen Bedeutungen.
- Bilder oder Videos. Ein Video von einer Überwachungskamera kann verwendet werden, um den Verkehr auf der Straße zu schätzen und Menschen über mögliche Staus zu informieren.
- Webserver-Protokolle können verwendet werden, um zu verstehen, welche Seiten unserer Website am häufigsten besucht werden und wie lange.
Halbstrukturiert
- Soziale Netzwerke können großartige Datenquellen über Persönlichkeiten von Benutzern und deren potenzielle Effektivität bei der Verbreitung von Informationen sein.
- Wenn wir eine Menge Fotos von einer Party haben, können wir versuchen, Daten zur Gruppendynamik zu extrahieren, indem wir ein Netzwerk von Personen erstellen, die miteinander fotografiert wurden.

Wenn Sie verschiedene mögliche Datenquellen kennen, können Sie über verschiedene Szenarien nachdenken, in denen Data-Science-Techniken angewendet werden können, um die Situation besser zu verstehen und Geschäftsprozesse zu verbessern.

Was man mit Daten machen kann

In der Data Science konzentrieren wir uns auf die folgenden Schritte der Datenreise:

1) Datenerfassung

Der erste Schritt besteht darin, die Daten zu sammeln. Während dies in vielen Fällen ein einfacher Prozess sein kann, wie Daten, die von einer Webanwendung in eine Datenbank gelangen, müssen wir manchmal spezielle Techniken anwenden. Beispielsweise können Daten von IoT-Sensoren überwältigend sein, und es ist eine gute Praxis, Pufferendpunkte wie IoT Hub zu verwenden, um alle Daten vor der weiteren Verarbeitung zu sammeln.

2) Datenspeicherung

Das Speichern von Daten kann eine Herausforderung sein, insbesondere wenn es um Big Data geht. Wenn Sie entscheiden, wie Daten gespeichert werden sollen, ist es sinnvoll, die Art und Weise zu antizipieren, wie Sie die Daten in Zukunft abfragen möchten. Es gibt mehrere Möglichkeiten, wie Daten gespeichert werden können:

Eine relationale Datenbank speichert eine Sammlung von Tabellen und verwendet eine spezielle Sprache namens SQL, um sie abzufragen. Typischerweise werden Tabellen in verschiedene Gruppen, sogenannte Schemas, organisiert. In vielen Fällen müssen wir die Daten aus ihrer ursprünglichen Form umwandeln, um sie an das Schema anzupassen.
Eine NoSQL-Datenbank, wie CosmosDB, erzwingt keine Schemas für Daten und ermöglicht die Speicherung komplexerer Daten, beispielsweise hierarchischer JSON-Dokumente oder Graphen. Allerdings haben NoSQL-Datenbanken nicht die umfangreichen Abfragefunktionen von SQL und können keine referenzielle Integrität durchsetzen, d.h. Regeln zur Strukturierung der Daten in Tabellen und zur Steuerung der Beziehungen zwischen Tabellen.
Data-Lake-Speicher wird für große Sammlungen von Daten in roher, unstrukturierter Form verwendet. Data Lakes werden häufig mit Big Data verwendet, bei denen alle Daten nicht auf eine Maschine passen und von einem Servercluster gespeichert und verarbeitet werden müssen. Parquet ist das Datenformat, das oft in Verbindung mit Big Data verwendet wird.

3) Datenverarbeitung

Dies ist der spannendste Teil der Datenreise, bei dem die Daten aus ihrer ursprünglichen Form in eine Form umgewandelt werden, die für Visualisierung/Modelltraining verwendet werden kann. Wenn wir mit unstrukturierten Daten wie Texten oder Bildern arbeiten, müssen wir möglicherweise einige KI-Techniken verwenden, um Merkmale aus den Daten zu extrahieren und sie so in eine strukturierte Form umzuwandeln.

4) Visualisierung / Menschliche Erkenntnisse

Um die Daten zu verstehen, müssen wir sie oft visualisieren. Mit vielen verschiedenen Visualisierungstechniken in unserem Werkzeugkasten können wir die richtige Ansicht finden, um eine Erkenntnis zu gewinnen. Oft muss ein Data Scientist "mit den Daten spielen", sie mehrfach visualisieren und nach Zusammenhängen suchen. Außerdem können wir statistische Techniken verwenden, um Hypothesen zu testen oder eine Korrelation zwischen verschiedenen Datenstücken zu beweisen.

5) Training eines Vorhersagemodells

Da das ultimative Ziel der Data Science darin besteht, Entscheidungen auf der Grundlage von Daten treffen zu können, möchten wir möglicherweise die Techniken des Maschinellen Lernens nutzen, um ein Vorhersagemodell zu erstellen. Damit können wir dann Vorhersagen mit neuen Datensätzen mit ähnlichen Strukturen treffen.

Natürlich können je nach den tatsächlichen Daten einige Schritte fehlen (z.B. wenn wir die Daten bereits in der Datenbank haben oder wenn wir kein Modelltraining benötigen), oder einige Schritte können mehrmals wiederholt werden (wie die Datenverarbeitung).

Digitalisierung und digitale Transformation

Im letzten Jahrzehnt haben viele Unternehmen begonnen, die Bedeutung von Daten bei der Entscheidungsfindung zu erkennen. Um Prinzipien der Data Science auf die Unternehmensführung anzuwenden, muss zunächst eine Datensammlung erfolgen, d.h. Geschäftsprozesse müssen in digitale Form übersetzt werden. Dies wird als Digitalisierung bezeichnet. Die Anwendung von Data-Science-Techniken auf diese Daten zur Entscheidungsfindung kann zu erheblichen Produktivitätssteigerungen (oder sogar zu einer Neuausrichtung des Unternehmens) führen, was als digitale Transformation bezeichnet wird.

Betrachten wir ein Beispiel. Angenommen, wir haben einen Data-Science-Kurs (wie diesen), den wir online für Studierende anbieten, und wir möchten Data Science nutzen, um ihn zu verbessern. Wie können wir das tun?

Wir könnten damit beginnen, uns zu fragen: "Was kann digitalisiert werden?" Der einfachste Weg wäre, die Zeit zu messen, die jeder Studierende benötigt, um jedes Modul abzuschließen, und das erworbene Wissen zu messen, indem wir am Ende jedes Moduls einen Multiple-Choice-Test durchführen. Indem wir die Abschlusszeiten aller Studierenden mitteln, können wir herausfinden, welche Module den Studierenden die meisten Schwierigkeiten bereiten, und daran arbeiten, sie zu vereinfachen.

Man könnte argumentieren, dass dieser Ansatz nicht ideal ist, da Module unterschiedlich lang sein können. Es wäre wahrscheinlich fairer, die Zeit durch die Länge des Moduls (in Anzahl der Zeichen) zu teilen und diese Werte zu vergleichen.

Wenn wir beginnen, die Ergebnisse von Multiple-Choice-Tests zu analysieren, können wir versuchen herauszufinden, welche Konzepte den Schülern Schwierigkeiten bereiten, und diese Informationen nutzen, um die Inhalte zu verbessern. Um dies zu erreichen, müssen wir Tests so gestalten, dass jede Frage einem bestimmten Konzept oder Wissensbereich zugeordnet werden kann.

Wenn wir es noch komplizierter machen wollen, können wir die für jedes Modul benötigte Zeit gegen die Alterskategorie der Schüler auftragen. Möglicherweise stellen wir fest, dass es für einige Alterskategorien unangemessen lange dauert, ein Modul abzuschließen, oder dass Schüler abbrechen, bevor sie es beenden. Dies kann uns helfen, Altersempfehlungen für das Modul zu geben und die Unzufriedenheit der Menschen aufgrund falscher Erwartungen zu minimieren.

🚀 Herausforderung

In dieser Herausforderung werden wir versuchen, Konzepte zu finden, die für den Bereich Data Science relevant sind, indem wir Texte analysieren. Wir nehmen einen Wikipedia-Artikel über Data Science, laden und verarbeiten den Text und erstellen dann eine Wortwolke wie diese:

Besuche notebook.ipynb, um den Code durchzulesen. Du kannst den Code auch ausführen und sehen, wie er alle Datenumwandlungen in Echtzeit durchführt.

Wenn du nicht weißt, wie man Code in einem Jupyter Notebook ausführt, sieh dir diesen Artikel an.

Quiz nach der Vorlesung

Aufgaben

Aufgabe 1: Ändere den obigen Code, um verwandte Konzepte für die Bereiche Big Data und Machine Learning zu finden.
Aufgabe 2: Denke über Data Science-Szenarien nach

Credits

Diese Lektion wurde mit ♥️ von Dmitry Soshnikov verfasst.

Haftungsausschluss:
Dieses Dokument wurde mit dem KI-Übersetzungsdienst Co-op Translator übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.