{ "cells": [ { "cell_type": "markdown", "source": [ "# Izazov: Analiza teksta o podatkovnoj znanosti\n", "\n", "U ovom primjeru, napravit ćemo jednostavnu vježbu koja obuhvaća sve korake tradicionalnog procesa podatkovne znanosti. Ne morate pisati nikakav kod, samo možete kliknuti na ćelije ispod kako biste ih izvršili i promatrali rezultat. Kao izazov, potičemo vas da isprobate ovaj kod s različitim podacima.\n", "\n", "## Cilj\n", "\n", "U ovoj lekciji raspravljali smo o različitim konceptima vezanim uz podatkovnu znanost. Pokušajmo otkriti više povezanih koncepata radeći **rudarenje teksta**. Počet ćemo s tekstom o podatkovnoj znanosti, izvući ključne riječi iz njega, a zatim pokušati vizualizirati rezultat.\n", "\n", "Kao tekst koristit ćemo stranicu o podatkovnoj znanosti s Wikipedije:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Korak 1: Dobivanje podataka\n", "\n", "Prvi korak u svakom procesu obrade podataka je dobivanje podataka. Koristit ćemo biblioteku `requests` za to:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "