{ "cells": [ { "cell_type": "markdown", "source": [ "# Udfordring: Analyse af tekst om Data Science\n", "\n", "I dette eksempel skal vi lave en simpel øvelse, der dækker alle trin i en traditionel data science-proces. Du behøver ikke skrive nogen kode, du kan blot klikke på cellerne nedenfor for at udføre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n", "\n", "## Mål\n", "\n", "I denne lektion har vi diskuteret forskellige begreber relateret til Data Science. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstmining**. Vi starter med en tekst om Data Science, udtrækker nøgleord fra den og forsøger derefter at visualisere resultatet.\n", "\n", "Som tekst vil jeg bruge siden om Data Science fra Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Trin 1: Hente dataene\n", "\n", "Første trin i enhver datavidenskabelig proces er at hente dataene. Vi vil bruge biblioteket `requests` til dette:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "