{ "cells": [ { "cell_type": "markdown", "source": [ "# Haaste: Tekstin analysointi datatieteestä\n", "\n", "Tässä esimerkissä teemme yksinkertaisen harjoituksen, joka kattaa kaikki perinteisen datatieteen prosessin vaiheet. Sinun ei tarvitse kirjoittaa mitään koodia, voit vain klikata alla olevia soluja suorittaaksesi ne ja tarkkailla tuloksia. Haasteena sinua kannustetaan kokeilemaan tätä koodia eri datalla.\n", "\n", "## Tavoite\n", "\n", "Tässä oppitunnissa olemme käsitelleet erilaisia datatieteeseen liittyviä käsitteitä. Yritetään löytää lisää aiheeseen liittyviä käsitteitä tekemällä **tekstin louhintaa**. Aloitamme tekstillä, joka käsittelee datatiedettä, poimimme siitä avainsanoja ja yritämme sitten visualisoida tulokset.\n", "\n", "Tekstinä käytän Wikipedia-sivua, joka käsittelee datatiedettä:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Vaihe 1: Datan hankkiminen\n", "\n", "Ensimmäinen vaihe jokaisessa data-analytiikan prosessissa on datan hankkiminen. Käytämme siihen `requests`-kirjastoa:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "