{ "cells": [ { "cell_type": "markdown", "source": [ "# Виклик: Аналіз тексту про науку про дані\n", "\n", "У цьому прикладі ми виконаємо просту вправу, яка охоплює всі етапи традиційного процесу науки про дані. Вам не потрібно писати код, ви можете просто натиснути на комірки нижче, щоб виконати їх і спостерігати за результатом. Як виклик, вам пропонується спробувати цей код із різними даними.\n", "\n", "## Мета\n", "\n", "У цьому уроці ми обговорювали різні концепції, пов'язані з наукою про дані. Давайте спробуємо відкрити більше пов'язаних концепцій, виконуючи **текстовий аналіз**. Ми почнемо з тексту про науку про дані, витягнемо ключові слова з нього, а потім спробуємо візуалізувати результат.\n", "\n", "Як текст, я використаю сторінку про науку про дані з Вікіпедії:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Крок 1: Отримання даних\n", "\n", "Перший крок у будь-якому процесі аналізу даних — це отримання даних. Ми будемо використовувати бібліотеку `requests` для цього:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "