{ "cells": [ { "cell_type": "markdown", "source": [ "# Herausforderung: Analyse eines Textes über Data Science\n", "\n", "In diesem Beispiel machen wir eine einfache Übung, die alle Schritte eines traditionellen Data-Science-Prozesses abdeckt. Du musst keinen Code schreiben, sondern kannst einfach auf die untenstehenden Zellen klicken, um sie auszuführen und das Ergebnis zu beobachten. Als Herausforderung wirst du ermutigt, diesen Code mit unterschiedlichen Daten auszuprobieren.\n", "\n", "## Ziel\n", "\n", "In dieser Lektion haben wir verschiedene Konzepte im Zusammenhang mit Data Science besprochen. Lass uns versuchen, weitere verwandte Konzepte zu entdecken, indem wir etwas **Text Mining** durchführen. Wir beginnen mit einem Text über Data Science, extrahieren Schlüsselwörter daraus und versuchen dann, das Ergebnis zu visualisieren.\n", "\n", "Als Text verwende ich die Seite über Data Science von Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Schritt 1: Datenbeschaffung\n", "\n", "Der erste Schritt in jedem Data-Science-Prozess ist die Beschaffung der Daten. Wir verwenden die Bibliothek `requests`, um dies zu erledigen:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "