{ "cells": [ { "cell_type": "markdown", "source": [ "# Задача: Анализ текста о науке о данных\n", "\n", "В этом примере мы выполним простое упражнение, охватывающее все этапы традиционного процесса работы с данными. Вам не нужно писать код, достаточно просто нажимать на ячейки ниже, чтобы выполнить их и наблюдать за результатом. В качестве задания вам предлагается попробовать этот код с другими данными.\n", "\n", "## Цель\n", "\n", "На этом уроке мы обсуждали различные концепции, связанные с наукой о данных. Давайте попробуем обнаружить больше связанных концепций, выполнив **текстовый анализ**. Мы начнем с текста о науке о данных, извлечем из него ключевые слова, а затем попробуем визуализировать результат.\n", "\n", "В качестве текста я использую страницу о науке о данных из Википедии:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Шаг 1: Получение данных\n", "\n", "Первый шаг в любом процессе работы с данными — это получение данных. Для этого мы будем использовать библиотеку `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "