{ "cells": [ { "cell_type": "markdown", "source": [ "# Виклик: Аналіз тексту про науку про дані\n", "\n", "> *У цьому блокноті ми експериментуємо з використанням різних URL - статті з Вікіпедії про машинне навчання. Ви можете побачити, що, на відміну від науки про дані, ця стаття містить багато термінів, що ускладнює аналіз. Нам потрібно придумати інший спосіб очищення даних після вилучення ключових слів, щоб позбутися деяких частих, але незначущих словосполучень.*\n", "\n", "У цьому прикладі давайте виконаємо просту вправу, яка охоплює всі етапи традиційного процесу науки про дані. Вам не потрібно писати жодного коду, ви можете просто натиснути на комірки нижче, щоб виконати їх і спостерігати за результатом. Як виклик, вам пропонується спробувати цей код із різними даними.\n", "\n", "## Мета\n", "\n", "На цьому уроці ми обговорювали різні концепції, пов’язані з наукою про дані. Давайте спробуємо відкрити більше пов’язаних концепцій, виконуючи **текстовий аналіз**. Ми почнемо з тексту про науку про дані, вилучимо ключові слова з нього, а потім спробуємо візуалізувати результат.\n", "\n", "Як текст я використаю сторінку про науку про дані з Вікіпедії:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Крок 1: Отримання даних\n", "\n", "Перший крок у будь-якому процесі роботи з даними — це отримання даних. Ми будемо використовувати бібліотеку `requests` для цього:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "