{ "cells": [ { "cell_type": "markdown", "source": [ "# Utfordring: Analysere tekst om datavitenskap\n", "\n", "> *I denne notatboken eksperimenterer vi med å bruke forskjellige URL-er - Wikipedia-artikkelen om maskinlæring. Du kan se at, i motsetning til datavitenskap, inneholder denne artikkelen mange begreper, noe som gjør analysen mer problematisk. Vi må finne en annen måte å rydde opp i dataene etter å ha gjort nøkkelorduttrekk, for å bli kvitt noen hyppige, men ikke meningsfulle ordkombinasjoner.*\n", "\n", "I dette eksempelet skal vi gjøre en enkel øvelse som dekker alle trinnene i en tradisjonell datavitenskapsprosess. Du trenger ikke å skrive noen kode, du kan bare klikke på cellene nedenfor for å kjøre dem og observere resultatet. Som en utfordring oppfordres du til å prøve denne koden med forskjellige data.\n", "\n", "## Mål\n", "\n", "I denne leksjonen har vi diskutert ulike konsepter relatert til datavitenskap. La oss prøve å oppdage flere relaterte konsepter ved å gjøre litt **tekstanalyse**. Vi starter med en tekst om datavitenskap, trekker ut nøkkelord fra den, og prøver deretter å visualisere resultatet.\n", "\n", "Som tekst vil jeg bruke siden om datavitenskap fra Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Steg 1: Hente dataene\n", "\n", "Første steg i enhver datavitenskapelig prosess er å hente dataene. Vi vil bruke `requests`-biblioteket til dette:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "