{ "cells": [ { "cell_type": "markdown", "source": [ "# Wyzwanie: Analiza tekstu o Data Science\n", "\n", "> *W tym notatniku eksperymentujemy z użyciem różnych URL - artykułu z Wikipedii o Machine Learning. Możesz zauważyć, że w przeciwieństwie do Data Science, ten artykuł zawiera wiele terminów, co sprawia, że analiza staje się bardziej problematyczna. Musimy wymyślić inny sposób na oczyszczenie danych po ekstrakcji słów kluczowych, aby pozbyć się niektórych częstych, ale mało znaczących kombinacji słów.*\n", "\n", "W tym przykładzie wykonamy proste ćwiczenie, które obejmuje wszystkie kroki tradycyjnego procesu Data Science. Nie musisz pisać żadnego kodu, możesz po prostu kliknąć na poniższe komórki, aby je uruchomić i zaobserwować wynik. Jako wyzwanie, zachęcamy Cię do wypróbowania tego kodu z różnymi danymi.\n", "\n", "## Cel\n", "\n", "W tej lekcji omawialiśmy różne koncepcje związane z Data Science. Spróbujmy odkryć więcej powiązanych koncepcji, wykonując **eksplorację tekstu**. Zaczniemy od tekstu o Data Science, wyodrębnimy z niego słowa kluczowe, a następnie spróbujemy zwizualizować wynik.\n", "\n", "Jako tekst użyjemy strony o Data Science z Wikipedii:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Krok 1: Pobieranie danych\n", "\n", "Pierwszym krokiem w każdym procesie analizy danych jest pobranie danych. Użyjemy do tego biblioteki `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "