You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/de/1-Introduction/4-techniques-of-ML
leestott e4050807fb
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 2 weeks ago

README.md

Techniken des maschinellen Lernens

Der Prozess des Erstellens, Nutzens und Wartens von Modellen des maschinellen Lernens sowie der Daten, die sie verwenden, unterscheidet sich stark von vielen anderen Entwicklungs-Workflows. In dieser Lektion werden wir den Prozess entmystifizieren und die wichtigsten Techniken skizzieren, die Sie kennen müssen. Sie werden:

  • Die grundlegenden Prozesse des maschinellen Lernens auf hoher Ebene verstehen.
  • Grundkonzepte wie "Modelle", "Vorhersagen" und "Trainingsdaten" erkunden.

Quiz vor der Vorlesung

ML für Anfänger - Techniken des maschinellen Lernens

🎥 Klicken Sie auf das Bild oben, um ein kurzes Video zu dieser Lektion anzusehen.

Einführung

Auf hoher Ebene besteht die Kunst, Prozesse des maschinellen Lernens (ML) zu erstellen, aus mehreren Schritten:

  1. Formulieren Sie die Frage. Die meisten ML-Prozesse beginnen mit einer Frage, die nicht durch ein einfaches bedingtes Programm oder eine regelbasierte Engine beantwortet werden kann. Diese Fragen drehen sich oft um Vorhersagen, die auf einer Sammlung von Daten basieren.
  2. Sammeln und vorbereiten von Daten. Um Ihre Frage beantworten zu können, benötigen Sie Daten. Die Qualität und manchmal auch die Menge Ihrer Daten bestimmen, wie gut Sie Ihre ursprüngliche Frage beantworten können. Die Visualisierung von Daten ist ein wichtiger Aspekt dieser Phase. Diese Phase umfasst auch das Aufteilen der Daten in eine Trainings- und Testgruppe, um ein Modell zu erstellen.
  3. Wählen Sie eine Trainingsmethode. Abhängig von Ihrer Frage und der Art Ihrer Daten müssen Sie entscheiden, wie Sie ein Modell trainieren möchten, um Ihre Daten bestmöglich zu repräsentieren und genaue Vorhersagen zu treffen. Dieser Teil des ML-Prozesses erfordert spezifisches Fachwissen und oft eine beträchtliche Menge an Experimenten.
  4. Trainieren Sie das Modell. Mithilfe Ihrer Trainingsdaten verwenden Sie verschiedene Algorithmen, um ein Modell zu trainieren, das Muster in den Daten erkennt. Das Modell kann interne Gewichte nutzen, die angepasst werden können, um bestimmte Teile der Daten gegenüber anderen zu bevorzugen, um ein besseres Modell zu erstellen.
  5. Bewerten Sie das Modell. Sie verwenden bisher unbekannte Daten (Ihre Testdaten) aus Ihrem gesammelten Satz, um zu sehen, wie das Modell abschneidet.
  6. Parameteranpassung. Basierend auf der Leistung Ihres Modells können Sie den Prozess mit unterschiedlichen Parametern oder Variablen, die das Verhalten der Algorithmen steuern, wiederholen.
  7. Vorhersagen. Verwenden Sie neue Eingaben, um die Genauigkeit Ihres Modells zu testen.

Welche Frage soll gestellt werden?

Computer sind besonders gut darin, versteckte Muster in Daten zu entdecken. Diese Fähigkeit ist sehr hilfreich für Forscher, die Fragen zu einem bestimmten Bereich haben, die nicht leicht durch die Erstellung einer bedingungsbasierten Regel-Engine beantwortet werden können. Bei einer versicherungsmathematischen Aufgabe könnte ein Datenwissenschaftler beispielsweise handgefertigte Regeln zur Sterblichkeit von Rauchern im Vergleich zu Nichtrauchern erstellen.

Wenn jedoch viele andere Variablen in die Gleichung einfließen, könnte sich ein ML-Modell als effizienter erweisen, um zukünftige Sterblichkeitsraten basierend auf vergangenen Gesundheitsdaten vorherzusagen. Ein fröhlicheres Beispiel könnte die Wettervorhersage für den Monat April an einem bestimmten Ort sein, basierend auf Daten wie Breitengrad, Längengrad, Klimawandel, Nähe zum Ozean, Jetstream-Mustern und mehr.

Diese Präsentation zu Wettermodellen bietet eine historische Perspektive zur Nutzung von ML in der Wetteranalyse.

Aufgaben vor dem Modellaufbau

Bevor Sie mit dem Aufbau Ihres Modells beginnen, gibt es mehrere Aufgaben, die Sie erledigen müssen. Um Ihre Frage zu testen und eine Hypothese basierend auf den Vorhersagen eines Modells zu formulieren, müssen Sie mehrere Elemente identifizieren und konfigurieren.

Daten

Um Ihre Frage mit einer gewissen Sicherheit beantworten zu können, benötigen Sie eine ausreichende Menge an Daten des richtigen Typs. Es gibt zwei Dinge, die Sie an diesem Punkt tun müssen:

  • Daten sammeln. Denken Sie an die vorherige Lektion zur Fairness in der Datenanalyse und sammeln Sie Ihre Daten sorgfältig. Achten Sie auf die Quellen dieser Daten, mögliche inhärente Verzerrungen und dokumentieren Sie deren Herkunft.
  • Daten vorbereiten. Es gibt mehrere Schritte im Datenvorbereitungsprozess. Sie müssen möglicherweise Daten zusammenstellen und normalisieren, wenn sie aus verschiedenen Quellen stammen. Sie können die Qualität und Quantität der Daten durch verschiedene Methoden verbessern, wie z. B. das Konvertieren von Zeichenfolgen in Zahlen (wie wir es in Clustering tun). Sie könnten auch neue Daten basierend auf den ursprünglichen generieren (wie wir es in Klassifikation tun). Sie können die Daten bereinigen und bearbeiten (wie wir es vor der Web-App-Lektion tun werden). Schließlich müssen Sie die Daten möglicherweise auch zufällig anordnen und mischen, je nach Ihren Trainingstechniken.

Nachdem Sie Ihre Daten gesammelt und verarbeitet haben, nehmen Sie sich einen Moment Zeit, um zu prüfen, ob deren Struktur es Ihnen ermöglicht, Ihre beabsichtigte Frage zu beantworten. Es könnte sein, dass die Daten für Ihre Aufgabe nicht gut geeignet sind, wie wir in unseren Clustering-Lektionen herausfinden!

Merkmale und Ziel

Ein Merkmal ist eine messbare Eigenschaft Ihrer Daten. In vielen Datensätzen wird es als Spaltenüberschrift wie 'Datum', 'Größe' oder 'Farbe' ausgedrückt. Ihre Merkmalsvariable, die in der Regel als X im Code dargestellt wird, repräsentiert die Eingabevariable, die verwendet wird, um das Modell zu trainieren.

Ein Ziel ist das, was Sie vorhersagen möchten. Das Ziel, in der Regel als y im Code dargestellt, repräsentiert die Antwort auf die Frage, die Sie an Ihre Daten stellen möchten: Im Dezember, welche Farbe haben die günstigsten Kürbisse? In San Francisco, welche Stadtteile haben die besten Immobilien-preise? Manchmal wird das Ziel auch als Label-Attribut bezeichnet.

Auswahl Ihrer Merkmalsvariablen

🎓 Merkmalsauswahl und Merkmalsextraktion Wie wissen Sie, welche Variable Sie beim Aufbau eines Modells auswählen sollen? Sie werden wahrscheinlich einen Prozess der Merkmalsauswahl oder Merkmalsextraktion durchlaufen, um die richtigen Variablen für das leistungsfähigste Modell auszuwählen. Sie sind jedoch nicht dasselbe: "Die Merkmalsextraktion erstellt neue Merkmale aus Funktionen der ursprünglichen Merkmale, während die Merkmalsauswahl eine Teilmenge der Merkmale zurückgibt." (Quelle)

Visualisieren Sie Ihre Daten

Ein wichtiger Aspekt im Werkzeugkasten eines Datenwissenschaftlers ist die Fähigkeit, Daten mithilfe mehrerer hervorragender Bibliotheken wie Seaborn oder MatPlotLib zu visualisieren. Die visuelle Darstellung Ihrer Daten könnte es Ihnen ermöglichen, versteckte Korrelationen zu entdecken, die Sie nutzen können. Ihre Visualisierungen könnten Ihnen auch helfen, Verzerrungen oder unausgewogene Daten aufzudecken (wie wir in Klassifikation herausfinden).

Teilen Sie Ihren Datensatz

Vor dem Training müssen Sie Ihren Datensatz in zwei oder mehr Teile ungleicher Größe aufteilen, die die Daten dennoch gut repräsentieren.

  • Training. Dieser Teil des Datensatzes wird an Ihr Modell angepasst, um es zu trainieren. Dieser Satz macht den Großteil des ursprünglichen Datensatzes aus.
  • Testen. Ein Testdatensatz ist eine unabhängige Gruppe von Daten, die oft aus den ursprünglichen Daten entnommen wird und mit der Sie die Leistung des erstellten Modells überprüfen.
  • Validieren. Ein Validierungssatz ist eine kleinere unabhängige Gruppe von Beispielen, die Sie verwenden, um die Hyperparameter oder die Architektur des Modells zu optimieren, um das Modell zu verbessern. Abhängig von der Größe Ihrer Daten und der Frage, die Sie stellen, müssen Sie diesen dritten Satz möglicherweise nicht erstellen (wie wir in Zeitreihenprognosen feststellen).

Ein Modell erstellen

Mithilfe Ihrer Trainingsdaten ist es Ihr Ziel, ein Modell oder eine statistische Darstellung Ihrer Daten zu erstellen, indem Sie verschiedene Algorithmen verwenden, um es zu trainieren. Das Training eines Modells setzt es Daten aus und ermöglicht es ihm, Annahmen über wahrgenommene Muster zu treffen, diese zu validieren und anzunehmen oder abzulehnen.

Entscheiden Sie sich für eine Trainingsmethode

Abhängig von Ihrer Frage und der Art Ihrer Daten wählen Sie eine Methode, um sie zu trainieren. Wenn Sie die Dokumentation von Scikit-learn - die wir in diesem Kurs verwenden - durchgehen, können Sie viele Möglichkeiten erkunden, ein Modell zu trainieren. Abhängig von Ihrer Erfahrung müssen Sie möglicherweise mehrere Methoden ausprobieren, um das beste Modell zu erstellen. Sie werden wahrscheinlich einen Prozess durchlaufen, bei dem Datenwissenschaftler die Leistung eines Modells bewerten, indem sie ihm unbekannte Daten zuführen, die Genauigkeit, Verzerrungen und andere qualitätsmindernde Probleme überprüfen und die am besten geeignete Trainingsmethode für die jeweilige Aufgabe auswählen.

Ein Modell trainieren

Mit Ihren Trainingsdaten sind Sie bereit, sie zu "fitten", um ein Modell zu erstellen. Sie werden feststellen, dass Sie in vielen ML-Bibliotheken den Code 'model.fit' finden - zu diesem Zeitpunkt senden Sie Ihre Merkmalsvariable als Array von Werten (in der Regel 'X') und eine Zielvariable (in der Regel 'y') ein.

Das Modell bewerten

Sobald der Trainingsprozess abgeschlossen ist (es kann viele Iterationen oder 'Epochen' dauern, um ein großes Modell zu trainieren), können Sie die Qualität des Modells bewerten, indem Sie Testdaten verwenden, um seine Leistung zu messen. Diese Daten sind ein Teil der ursprünglichen Daten, die das Modell zuvor nicht analysiert hat. Sie können eine Tabelle mit Metriken zur Qualität Ihres Modells ausgeben.

🎓 Modellanpassung

Im Kontext des maschinellen Lernens bezieht sich die Modellanpassung auf die Genauigkeit der zugrunde liegenden Funktion des Modells, während es versucht, Daten zu analysieren, mit denen es nicht vertraut ist.

🎓 Underfitting und Overfitting sind häufige Probleme, die die Qualität des Modells beeinträchtigen, da das Modell entweder nicht gut genug oder zu gut passt. Dies führt dazu, dass das Modell Vorhersagen entweder zu eng oder zu locker an seine Trainingsdaten anpasst. Ein überangepasstes Modell sagt Trainingsdaten zu gut voraus, da es die Details und das Rauschen der Daten zu gut gelernt hat. Ein unterangepasstes Modell ist nicht genau, da es weder seine Trainingsdaten noch Daten, die es noch nicht "gesehen" hat, genau analysieren kann.

überangepasstes Modell

Infografik von Jen Looper

Parameteranpassung

Sobald Ihr erstes Training abgeschlossen ist, beobachten Sie die Qualität des Modells und überlegen, wie Sie es durch Anpassung seiner 'Hyperparameter' verbessern können. Lesen Sie mehr über den Prozess in der Dokumentation.

Vorhersage

Dies ist der Moment, in dem Sie völlig neue Daten verwenden können, um die Genauigkeit Ihres Modells zu testen. In einem 'angewandten' ML-Setting, in dem Sie Webanwendungen erstellen, um das Modell in der Produktion zu verwenden, könnte dieser Prozess das Sammeln von Benutzereingaben (z. B. einen Knopfdruck) umfassen, um eine Variable festzulegen und sie an das Modell zur Inferenz oder Bewertung zu senden.

In diesen Lektionen werden Sie entdecken, wie Sie diese Schritte nutzen, um vorzubereiten, zu bauen, zu testen, zu bewerten und vorherzusagen - all die Gesten eines Datenwissenschaftlers und mehr, während Sie auf Ihrer Reise zum 'Full-Stack'-ML-Ingenieur voranschreiten.


🚀 Herausforderung

Erstellen Sie ein Flussdiagramm, das die Schritte eines ML-Praktikers darstellt. Wo sehen Sie sich derzeit im Prozess? Wo erwarten Sie Schwierigkeiten? Was erscheint Ihnen einfach?

Quiz nach der Vorlesung

Überprüfung & Selbststudium

Suchen Sie online nach Interviews mit Datenwissenschaftlern, die über ihre tägliche Arbeit sprechen. Hier ist eins.

Aufgabe

Führen Sie ein Interview mit einem Datenwissenschaftler


Haftungsausschluss:
Dieses Dokument wurde mithilfe des KI-Übersetzungsdienstes Co-op Translator übersetzt. Obwohl wir uns um Genauigkeit bemühen, weisen wir darauf hin, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.