{ "cells": [ { "cell_type": "markdown", "source": [ "# Izazov: Analiza teksta o znanosti o podacima\n", "\n", "> *U ovom bilježniku eksperimentiramo s korištenjem različitih URL-ova - Wikipedijin članak o strojnom učenju. Možete primijetiti da, za razliku od znanosti o podacima, ovaj članak sadrži mnogo pojmova, što analizu čini problematičnijom. Moramo osmisliti drugačiji način za čišćenje podataka nakon izdvajanja ključnih riječi, kako bismo se riješili nekih čestih, ali nebitnih kombinacija riječi.*\n", "\n", "U ovom primjeru, napravimo jednostavnu vježbu koja pokriva sve korake tradicionalnog procesa znanosti o podacima. Ne morate pisati nikakav kod, samo kliknite na ćelije ispod kako biste ih izvršili i promatrali rezultat. Kao izazov, potičemo vas da isprobate ovaj kod s različitim podacima.\n", "\n", "## Cilj\n", "\n", "U ovoj lekciji raspravljali smo o različitim konceptima vezanim za znanost o podacima. Pokušajmo otkriti više povezanih pojmova radeći **rudarenje teksta**. Počet ćemo s tekstom o znanosti o podacima, izvući ključne riječi iz njega, a zatim pokušati vizualizirati rezultat.\n", "\n", "Kao tekst koristit ćemo stranicu o znanosti o podacima s Wikipedije:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Korak 1: Dobivanje podataka\n", "\n", "Prvi korak u svakom procesu obrade podataka je dobivanje podataka. Koristit ćemo biblioteku `requests` za to:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "