{ "cells": [ { "cell_type": "markdown", "source": [ "# Izziv: Analiza besedila o podatkovni znanosti\n", "\n", "V tem primeru bomo izvedli preprosto vajo, ki zajema vse korake tradicionalnega procesa podatkovne znanosti. Kode ni treba pisati, preprosto kliknite na spodnje celice, da jih izvedete, in opazujte rezultat. Kot izziv pa vas spodbujamo, da to kodo preizkusite z različnimi podatki.\n", "\n", "## Cilj\n", "\n", "V tej lekciji smo razpravljali o različnih konceptih, povezanih s podatkovno znanostjo. Poskusimo odkriti več povezanih konceptov z uporabo **rudarjenja besedila**. Začeli bomo z besedilom o podatkovni znanosti, iz njega izluščili ključne besede in nato poskusili vizualizirati rezultat.\n", "\n", "Kot besedilo bomo uporabili stran o podatkovni znanosti iz Wikipedije:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Korak 1: Pridobivanje podatkov\n", "\n", "Prvi korak v vsakem procesu podatkovne znanosti je pridobivanje podatkov. Za to bomo uporabili knjižnico `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "