{ "cells": [ { "cell_type": "markdown", "source": [ "# Izziv: Analiza besedila o podatkovni znanosti\n", "\n", "> *V tej beležnici eksperimentiramo z uporabo različnih URL-jev - Wikipedijskega članka o strojnem učenju. Opazite lahko, da ta članek, za razliko od podatkovne znanosti, vsebuje veliko izrazov, kar analizo otežuje. Moramo najti drug način za čiščenje podatkov po ekstrakciji ključnih besed, da se znebimo nekaterih pogostih, a nepomembnih besednih zvez.*\n", "\n", "V tem primeru bomo izvedli preprosto vajo, ki zajema vse korake tradicionalnega procesa podatkovne znanosti. Ni vam treba pisati nobene kode, preprosto kliknite na spodnje celice, da jih izvedete in opazujete rezultat. Kot izziv ste spodbujeni, da to kodo preizkusite z različnimi podatki.\n", "\n", "## Cilj\n", "\n", "V tej lekciji smo razpravljali o različnih konceptih, povezanih s podatkovno znanostjo. Poskusimo odkriti več povezanih konceptov z uporabo **rudarjenja besedila**. Začeli bomo z besedilom o podatkovni znanosti, iz njega izvlekli ključne besede in nato poskusili vizualizirati rezultat.\n", "\n", "Kot besedilo bom uporabil stran o podatkovni znanosti iz Wikipedije:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Korak 1: Pridobivanje podatkov\n", "\n", "Prvi korak v vsakem procesu podatkovne znanosti je pridobivanje podatkov. Za to bomo uporabili knjižnico `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "