{ "cells": [ { "cell_type": "markdown", "source": [ "# Utmaning: Analysera text om datavetenskap\n", "\n", "I det här exemplet ska vi göra en enkel övning som täcker alla steg i en traditionell datavetenskapsprocess. Du behöver inte skriva någon kod, du kan bara klicka på cellerna nedan för att köra dem och observera resultatet. Som en utmaning uppmuntras du att testa koden med olika data.\n", "\n", "## Mål\n", "\n", "I den här lektionen har vi diskuterat olika koncept relaterade till datavetenskap. Låt oss försöka upptäcka fler relaterade koncept genom att göra lite **textutvinning**. Vi kommer att börja med en text om datavetenskap, extrahera nyckelord från den och sedan försöka visualisera resultatet.\n", "\n", "Som text kommer jag att använda sidan om datavetenskap från Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Steg 1: Hämta data\n", "\n", "Första steget i varje datavetenskapsprocess är att hämta data. Vi kommer att använda biblioteket `requests` för att göra detta:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "