{ "cells": [ { "cell_type": "markdown", "source": [ "# Задача: Анализ текста о науке о данных\n", "\n", "> *В этом блокноте мы экспериментируем с использованием разных URL - статьи из Википедии о машинном обучении. Вы можете заметить, что, в отличие от науки о данных, эта статья содержит множество терминов, что делает анализ более сложным. Нам нужно придумать другой способ очистки данных после извлечения ключевых слов, чтобы избавиться от некоторых частых, но незначимых словосочетаний.*\n", "\n", "В этом примере давайте проведем простое упражнение, охватывающее все этапы традиционного процесса науки о данных. Вам не нужно писать код, вы можете просто нажимать на ячейки ниже, чтобы выполнить их и наблюдать за результатом. В качестве задания вам предлагается попробовать этот код с другими данными.\n", "\n", "## Цель\n", "\n", "На этом уроке мы обсуждали различные концепции, связанные с наукой о данных. Давайте попробуем обнаружить больше связанных концепций, выполняя **текстовый анализ**. Мы начнем с текста о науке о данных, извлечем из него ключевые слова, а затем попробуем визуализировать результат.\n", "\n", "В качестве текста я буду использовать страницу о науке о данных из Википедии:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Шаг 1: Получение данных\n", "\n", "Первый шаг в любом процессе работы с данными — это получение данных. Для этого мы будем использовать библиотеку `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "