{ "cells": [ { "cell_type": "markdown", "source": [ "# Výzva: Analýza textu o datové vědě\n", "\n", "V tomto příkladu si vyzkoušíme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, stačí kliknout na buňky níže, abyste je spustili a pozorovali výsledek. Jako výzvu vás povzbuzujeme, abyste tento kód vyzkoušeli s různými daty.\n", "\n", "## Cíl\n", "\n", "V této lekci jsme diskutovali různé koncepty související s datovou vědou. Pojďme se pokusit objevit další související koncepty pomocí **těžby textu**. Začneme textem o datové vědě, z něj extrahujeme klíčová slova a poté se pokusíme vizualizovat výsledek.\n", "\n", "Jako text použiji stránku o datové vědě z Wikipedie:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Krok 1: Získání dat\n", "\n", "Prvním krokem v každém procesu datové vědy je získání dat. K tomu použijeme knihovnu `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "