{ "cells": [ { "cell_type": "markdown", "source": [ "# Výzva: Analyzovanie textu o dátovej vede\n", "\n", "V tomto príklade si urobíme jednoduché cvičenie, ktoré pokrýva všetky kroky tradičného procesu dátovej vedy. Nemusíte písať žiadny kód, stačí kliknúť na bunky nižšie, aby ste ich vykonali, a pozorovať výsledok. Ako výzvu vás povzbudzujeme, aby ste tento kód vyskúšali s rôznymi údajmi.\n", "\n", "## Cieľ\n", "\n", "V tejto lekcii sme diskutovali o rôznych konceptoch súvisiacich s dátovou vedou. Skúsme objaviť ďalšie súvisiace koncepty pomocou **textovej analýzy**. Začneme s textom o dátovej vede, extrahujeme z neho kľúčové slová a potom sa pokúsime vizualizovať výsledok.\n", "\n", "Ako text použijeme stránku o dátovej vede z Wikipédie:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Krok 1: Získanie údajov\n", "\n", "Prvým krokom v každom procese dátovej vedy je získanie údajov. Na tento účel použijeme knižnicu `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "