{ "cells": [ { "cell_type": "markdown", "source": [ "# Herausforderung: Analyse von Text über Data Science\n", "\n", "> *In diesem Notebook experimentieren wir mit der Verwendung verschiedener URLs - Wikipedia-Artikel über Machine Learning. Sie können sehen, dass dieser Artikel, im Gegensatz zu Data Science, viele Fachbegriffe enthält, was die Analyse problematischer macht. Wir müssen uns eine andere Methode überlegen, um die Daten nach der Schlüsselwort-Extraktion zu bereinigen, um einige häufige, aber nicht aussagekräftige Wortkombinationen zu entfernen.*\n", "\n", "In diesem Beispiel machen wir eine einfache Übung, die alle Schritte eines traditionellen Data-Science-Prozesses abdeckt. Sie müssen keinen Code schreiben, sondern können einfach auf die untenstehenden Zellen klicken, um sie auszuführen und das Ergebnis zu beobachten. Als Herausforderung werden Sie ermutigt, diesen Code mit unterschiedlichen Daten auszuprobieren.\n", "\n", "## Ziel\n", "\n", "In dieser Lektion haben wir verschiedene Konzepte im Zusammenhang mit Data Science besprochen. Lassen Sie uns versuchen, weitere verwandte Konzepte durch **Text Mining** zu entdecken. Wir beginnen mit einem Text über Data Science, extrahieren Schlüsselwörter daraus und versuchen dann, das Ergebnis zu visualisieren.\n", "\n", "Als Text werde ich die Seite über Data Science von Wikipedia verwenden:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Schritt 1: Daten beschaffen\n", "\n", "Der erste Schritt in jedem Data-Science-Prozess ist das Beschaffen der Daten. Wir verwenden dazu die Bibliothek `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "