{ "cells": [ { "cell_type": "markdown", "source": [ "# Предизвикателство: Анализ на текст за наука за данни\n", "\n", "В този пример ще направим просто упражнение, което обхваща всички стъпки на традиционния процес в науката за данни. Не е необходимо да пишете код, просто можете да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, се насърчавате да изпробвате този код с различни данни.\n", "\n", "## Цел\n", "\n", "В този урок обсъждахме различни концепции, свързани с науката за данни. Нека се опитаме да открием още свързани концепции, като направим **текстов анализ**. Ще започнем с текст за науката за данни, ще извлечем ключови думи от него и след това ще се опитаме да визуализираме резултата.\n", "\n", "Като текст ще използвам страницата за науката за данни от Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Стъпка 1: Получаване на данните\n", "\n", "Първата стъпка във всеки процес на анализ на данни е получаването на данните. Ще използваме библиотеката `requests`, за да направим това:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "