{ "cells": [ { "cell_type": "markdown", "source": [ "# Предизвикателство: Анализ на текст за наука за данни\n", "\n", "> *В тази тетрадка експериментираме с използването на различни URL адреси - статия от Уикипедия за машинно обучение. Можете да видите, че за разлика от науката за данни, тази статия съдържа много термини, което прави анализа по-проблематичен. Трябва да измислим друг начин за почистване на данните след извличането на ключови думи, за да се отървем от някои често срещани, но незначителни словосъчетания.*\n", "\n", "В този пример ще направим просто упражнение, което обхваща всички стъпки на традиционния процес в науката за данни. Не е необходимо да пишете код, просто можете да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, ви насърчаваме да изпробвате този код с различни данни.\n", "\n", "## Цел\n", "\n", "В този урок обсъждахме различни концепции, свързани с науката за данни. Нека се опитаме да открием повече свързани концепции, като направим **текстов анализ**. Ще започнем с текст за науката за данни, ще извлечем ключови думи от него и след това ще се опитаме да визуализираме резултата.\n", "\n", "Като текст ще използвам страницата за науката за данни от Уикипедия:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Стъпка 1: Получаване на данните\n", "\n", "Първата стъпка във всеки процес на анализ на данни е получаването на данните. Ще използваме библиотеката `requests`, за да направим това:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "