8.4 KiB
Arten von Daten
Wie bereits erwähnt, sind Daten überall. Wir müssen sie nur auf die richtige Weise erfassen! Es ist hilfreich, zwischen strukturierten und unstrukturierten Daten zu unterscheiden. Erstere werden typischerweise in einer gut strukturierten Form dargestellt, oft als Tabelle oder mehrere Tabellen, während letztere einfach eine Sammlung von Dateien sind. Manchmal sprechen wir auch von halbstrukturierten Daten, die eine gewisse Struktur aufweisen, die jedoch stark variieren kann.
Strukturiert | Halbstrukturiert | Unstrukturiert |
---|---|---|
Liste von Personen mit ihren Telefonnummern | Wikipedia-Seiten mit Links | Text der Encyclopedia Britannica |
Temperatur in allen Räumen eines Gebäudes jede Minute der letzten 20 Jahre | Sammlung wissenschaftlicher Artikel im JSON-Format mit Autoren, Veröffentlichungsdatum und Abstract | Dateifreigabe mit Unternehmensdokumenten |
Daten zu Alter und Geschlecht aller Personen, die das Gebäude betreten | Internetseiten | Rohes Videomaterial von Überwachungskameras |
Woher man Daten bekommt
Es gibt viele mögliche Quellen für Daten, und es wäre unmöglich, alle aufzuzählen! Dennoch wollen wir einige typische Orte erwähnen, an denen man Daten finden kann:
- Strukturiert
- Internet of Things (IoT), einschließlich Daten von verschiedenen Sensoren wie Temperatur- oder Drucksensoren, liefert viele nützliche Daten. Beispielsweise kann ein Bürogebäude mit IoT-Sensoren ausgestattet werden, um Heizung und Beleuchtung automatisch zu steuern und Kosten zu minimieren.
- Umfragen, die wir Nutzer nach einem Kauf oder nach dem Besuch einer Website ausfüllen lassen.
- Verhaltensanalysen können uns beispielsweise helfen zu verstehen, wie tief ein Nutzer in eine Website eintaucht und was der typische Grund für das Verlassen der Seite ist.
- Unstrukturiert
- Texte können eine reiche Quelle von Erkenntnissen sein, wie etwa eine allgemeine Stimmungsbewertung oder das Extrahieren von Schlüsselwörtern und semantischen Bedeutungen.
- Bilder oder Videos. Ein Video von einer Überwachungskamera kann verwendet werden, um den Verkehr auf der Straße zu schätzen und Menschen über mögliche Staus zu informieren.
- Webserver-Logs können genutzt werden, um zu verstehen, welche Seiten unserer Website am häufigsten besucht werden und wie lange.
- Halbstrukturiert
- Soziale Netzwerk-Graphen können großartige Datenquellen über Benutzerpersönlichkeiten und die potenzielle Effektivität bei der Verbreitung von Informationen sein.
- Wenn wir eine Sammlung von Fotos von einer Party haben, können wir versuchen, Daten zur Gruppendynamik zu extrahieren, indem wir einen Graphen von Personen erstellen, die miteinander fotografiert wurden.
Wenn man die verschiedenen möglichen Datenquellen kennt, kann man über verschiedene Szenarien nachdenken, in denen Datenwissenschaftstechniken angewendet werden können, um die Situation besser zu verstehen und Geschäftsprozesse zu verbessern.
Was man mit Daten machen kann
In der Datenwissenschaft konzentrieren wir uns auf die folgenden Schritte der Datenreise:
Natürlich können je nach den tatsächlichen Daten einige Schritte fehlen (z. B. wenn die Daten bereits in der Datenbank vorhanden sind oder wenn kein Modelltraining erforderlich ist), oder einige Schritte können mehrmals wiederholt werden (wie die Datenverarbeitung).
Digitalisierung und digitale Transformation
In den letzten zehn Jahren haben viele Unternehmen begonnen, die Bedeutung von Daten bei Geschäftsentscheidungen zu erkennen. Um Prinzipien der Datenwissenschaft auf ein Unternehmen anzuwenden, muss zunächst eine Datenerfassung erfolgen, d. h. Geschäftsprozesse müssen in digitale Form übersetzt werden. Dies wird als Digitalisierung bezeichnet. Die Anwendung von Datenwissenschaftstechniken auf diese Daten, um Entscheidungen zu lenken, kann zu erheblichen Produktivitätssteigerungen (oder sogar zu einer Neuausrichtung des Geschäfts) führen, was als digitale Transformation bezeichnet wird.
Betrachten wir ein Beispiel. Angenommen, wir haben einen Datenwissenschaftskurs (wie diesen hier), den wir online an Studierende vermitteln, und wir möchten Datenwissenschaft nutzen, um ihn zu verbessern. Wie können wir das tun?
Wir können damit beginnen, uns zu fragen: "Was kann digitalisiert werden?" Der einfachste Weg wäre, die Zeit zu messen, die jeder Studierende benötigt, um jedes Modul abzuschließen, und das erworbene Wissen zu messen, indem am Ende jedes Moduls ein Multiple-Choice-Test durchgeführt wird. Indem wir die Abschlusszeiten aller Studierenden mitteln, können wir herausfinden, welche Module den Studierenden die größten Schwierigkeiten bereiten, und daran arbeiten, sie zu vereinfachen. Man könnte argumentieren, dass dieser Ansatz nicht ideal ist, da Module unterschiedlich lang sein können. Es wäre wahrscheinlich gerechter, die Zeit durch die Länge des Moduls (in Anzahl der Zeichen) zu teilen und stattdessen diese Werte zu vergleichen. Wenn wir beginnen, die Ergebnisse von Multiple-Choice-Tests zu analysieren, können wir versuchen herauszufinden, welche Konzepte den Schülern Schwierigkeiten bereiten, und diese Informationen nutzen, um die Inhalte zu verbessern. Um dies zu erreichen, müssen wir Tests so gestalten, dass jede Frage einem bestimmten Konzept oder Wissensbereich zugeordnet werden kann.
Wenn wir es noch komplexer machen wollen, können wir die benötigte Zeit für jedes Modul gegen die Alterskategorie der Schüler auftragen. Dabei könnten wir herausfinden, dass es für einige Alterskategorien unangemessen lange dauert, ein Modul abzuschließen, oder dass Schüler abbrechen, bevor sie es beenden. Dies kann uns helfen, Altersempfehlungen für das Modul zu geben und die Unzufriedenheit durch falsche Erwartungen zu minimieren.
🚀 Herausforderung
In dieser Herausforderung werden wir versuchen, relevante Konzepte für den Bereich Data Science zu finden, indem wir Texte analysieren. Wir nehmen einen Wikipedia-Artikel über Data Science, laden den Text herunter, verarbeiten ihn und erstellen dann eine Wortwolke wie diese:
Besuche notebook.ipynb
, um den Code durchzulesen. Du kannst den Code auch ausführen und sehen, wie er alle Datentransformationen in Echtzeit durchführt.
Wenn du nicht weißt, wie man Code in einem Jupyter Notebook ausführt, schau dir diesen Artikel an.
Quiz nach der Vorlesung
Aufgaben
- Aufgabe 1: Ändere den oben genannten Code, um verwandte Konzepte für die Bereiche Big Data und Machine Learning zu finden.
- Aufgabe 2: Denke über Szenarien in der Data Science nach
Credits
Diese Lektion wurde mit ♥️ von Dmitry Soshnikov verfasst.
Haftungsausschluss:
Dieses Dokument wurde mithilfe des KI-Übersetzungsdienstes Co-op Translator übersetzt. Obwohl wir uns um Genauigkeit bemühen, weisen wir darauf hin, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die durch die Nutzung dieser Übersetzung entstehen.