{ "cells": [ { "cell_type": "markdown", "source": [ "# Haaste: Tekstin analysointi datatieteestä\n", "\n", "> *Tässä muistikirjassa kokeilemme käyttää eri URL-osoitetta - Wikipedia-artikkelia koneoppimisesta. Voit huomata, että toisin kuin datatiede, tämä artikkeli sisältää paljon termejä, mikä tekee analyysistä ongelmallisempaa. Meidän täytyy keksiä toinen tapa siivota dataa avainsanojen poiminnan jälkeen, jotta voimme päästä eroon joistakin yleisistä, mutta merkityksettömistä sanayhdistelmistä.*\n", "\n", "Tässä esimerkissä teemme yksinkertaisen harjoituksen, joka kattaa kaikki perinteisen datatieteen prosessin vaiheet. Sinun ei tarvitse kirjoittaa koodia, voit vain klikata alla olevia soluja suorittaaksesi ne ja tarkkailla tulosta. Haasteena sinua kannustetaan kokeilemaan tätä koodia eri datalla.\n", "\n", "## Tavoite\n", "\n", "Tässä oppitunnissa olemme keskustelleet eri datatieteeseen liittyvistä käsitteistä. Yritetään löytää lisää aiheeseen liittyviä käsitteitä tekemällä **tekstin louhintaa**. Aloitamme tekstillä, joka käsittelee datatiedettä, poimimme siitä avainsanoja ja yritämme sitten visualisoida tuloksen.\n", "\n", "Tekstinä käytän Wikipedia-sivua datatieteestä:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Vaihe 1: Datan hankkiminen\n", "\n", "Ensimmäinen vaihe jokaisessa datatieteen prosessissa on datan hankkiminen. Käytämme siihen `requests`-kirjastoa:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "