{ "cells": [ { "cell_type": "markdown", "source": [ "# Utfordring: Analysere tekst om datavitenskap\n", "\n", "I dette eksemplet skal vi gjøre en enkel øvelse som dekker alle trinnene i en tradisjonell datavitenskapsprosess. Du trenger ikke å skrive noen kode, du kan bare klikke på cellene nedenfor for å kjøre dem og observere resultatet. Som en utfordring oppfordres du til å prøve denne koden med forskjellige data.\n", "\n", "## Mål\n", "\n", "I denne leksjonen har vi diskutert ulike konsepter relatert til datavitenskap. La oss prøve å oppdage flere relaterte konsepter ved å gjøre litt **tekstanalyse**. Vi starter med en tekst om datavitenskap, trekker ut nøkkelord fra den, og prøver deretter å visualisere resultatet.\n", "\n", "Som tekst vil jeg bruke siden om datavitenskap fra Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Steg 1: Hente dataene\n", "\n", "Første steg i enhver datavitenskapelig prosess er å hente dataene. Vi vil bruke `requests`-biblioteket til dette:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "