{ "cells": [ { "cell_type": "markdown", "source": [ "# Udfordring: Analyse af tekst om Data Science\n", "\n", "> *I denne notesbog eksperimenterer vi med at bruge forskellige URL'er - Wikipedia-artiklen om Machine Learning. Du kan se, at i modsætning til Data Science indeholder denne artikel mange fagudtryk, hvilket gør analysen mere problematisk. Vi skal finde en anden måde at rense dataene på efter at have udført nøgleordsudtrækning, for at slippe af med nogle hyppige, men ikke meningsfulde ordkombinationer.*\n", "\n", "I dette eksempel laver vi en simpel øvelse, der dækker alle trin i en traditionel data science-proces. Du behøver ikke skrive nogen kode, du kan blot klikke på cellerne nedenfor for at udføre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n", "\n", "## Mål\n", "\n", "I denne lektion har vi diskuteret forskellige begreber relateret til Data Science. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstanalyse**. Vi starter med en tekst om Data Science, udtrækker nøgleord fra den og forsøger derefter at visualisere resultatet.\n", "\n", "Som tekst vil jeg bruge siden om Data Science fra Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Trin 1: Hentning af data\n", "\n", "Første trin i enhver datavidenskabelig proces er at hente dataene. Vi vil bruge biblioteket `requests` til dette:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "