{ "cells": [ { "cell_type": "markdown", "source": [ "# Výzva: Analýza textu o datové vědě\n", "\n", "> *V tomto notebooku experimentujeme s použitím různých URL - článku na Wikipedii o strojovém učení. Můžete si všimnout, že na rozdíl od datové vědy tento článek obsahuje mnoho odborných termínů, což analýzu činí problematičtější. Musíme přijít na jiný způsob, jak vyčistit data po extrakci klíčových slov, abychom se zbavili některých častých, ale nevýznamných slovních spojení.*\n", "\n", "V tomto příkladu si uděláme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, stačí kliknout na buňky níže, abyste je spustili a pozorovali výsledek. Jako výzvu vás povzbuzujeme, abyste tento kód vyzkoušeli s různými daty.\n", "\n", "## Cíl\n", "\n", "V této lekci jsme diskutovali o různých konceptech souvisejících s datovou vědou. Zkusme objevit další související koncepty pomocí **těžby textu**. Začneme textem o datové vědě, extrahujeme z něj klíčová slova a poté se pokusíme vizualizovat výsledek.\n", "\n", "Jako text použiji stránku o datové vědě z Wikipedie:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Krok 1: Získání dat\n", "\n", "Prvním krokem v každém procesu datové vědy je získání dat. K tomu použijeme knihovnu `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "