Machine learning - Wikipedia

{ "cells": [ { "cell_type": "markdown", "source": [ "# Utmaning: Analysera text om datavetenskap\n", "\n", "> *I den här notebooken experimenterar vi med att använda olika URL:er - Wikipedia-artikeln om maskininlärning. Du kan se att, till skillnad från datavetenskap, innehåller den här artikeln många termer, vilket gör analysen mer problematisk. Vi behöver komma på ett annat sätt att städa upp data efter att ha gjort nyckelordsutvinning, för att bli av med vissa frekventa, men inte meningsfulla, ordkombinationer.*\n", "\n", "I det här exemplet ska vi göra en enkel övning som täcker alla steg i en traditionell datavetenskapsprocess. Du behöver inte skriva någon kod, du kan bara klicka på cellerna nedan för att köra dem och observera resultatet. Som en utmaning uppmuntras du att testa den här koden med olika data.\n", "\n", "## Mål\n", "\n", "I den här lektionen har vi diskuterat olika koncept relaterade till datavetenskap. Låt oss försöka upptäcka fler relaterade koncept genom att göra lite **textutvinning**. Vi börjar med en text om datavetenskap, extraherar nyckelord från den och försöker sedan visualisera resultatet.\n", "\n", "Som text kommer jag att använda sidan om datavetenskap från Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Steg 1: Hämta data\n", "\n", "Första steget i varje datavetenskaplig process är att hämta data. Vi kommer att använda biblioteket `requests` för detta:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "