{ "cells": [ { "cell_type": "markdown", "source": [ "# Výzva: Analýza textu o dátovej vede\n", "\n", "> *V tomto notebooku experimentujeme s použitím rôznych URL - článok na Wikipédii o strojovom učení. Môžete si všimnúť, že na rozdiel od dátovej vedy tento článok obsahuje veľa odborných výrazov, čo robí analýzu problematickejšou. Musíme vymyslieť iný spôsob, ako vyčistiť dáta po extrakcii kľúčových slov, aby sme sa zbavili niektorých častých, ale bezvýznamných kombinácií slov.*\n", "\n", "V tomto príklade si urobíme jednoduché cvičenie, ktoré pokrýva všetky kroky tradičného procesu dátovej vedy. Nemusíte písať žiadny kód, stačí kliknúť na bunky nižšie, aby ste ich spustili a pozorovali výsledok. Ako výzvu vás povzbudzujeme, aby ste tento kód vyskúšali s rôznymi dátami.\n", "\n", "## Cieľ\n", "\n", "V tejto lekcii sme diskutovali o rôznych konceptoch súvisiacich s dátovou vedou. Skúsme objaviť viac súvisiacich konceptov pomocou **ťažby textu**. Začneme s textom o dátovej vede, extrahujeme z neho kľúčové slová a potom sa pokúsime vizualizovať výsledok.\n", "\n", "Ako text použijem stránku o dátovej vede z Wikipédie:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Krok 1: Získanie údajov\n", "\n", "Prvým krokom v každom procese dátovej vedy je získanie údajov. Na tento účel použijeme knižnicu `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "