{ "cells": [ { "cell_type": "markdown", "source": [ "# Изазов: Анализа текста о науци о подацима\n", "\n", "> *У овом нотебуку експериментишемо са коришћењем различитих URL-ова - Википедијски чланак о машинском учењу. Можете видети да, за разлику од науке о подацима, овај чланак садржи много термина, што анализу чини проблематичнијом. Морамо смислити други начин за чишћење података након екстракције кључних речи, како бисмо се ослободили неких честих, али не значајних комбинација речи.*\n", "\n", "У овом примеру, урадићемо једноставну вежбу која покрива све кораке традиционалног процеса науке о подацима. Не морате писати никакав код, можете само кликнути на ћелије испод да их извршите и посматрате резултат. Као изазов, охрабрујемо вас да испробате овај код са различитим подацима.\n", "\n", "## Циљ\n", "\n", "У овој лекцији разговарали смо о различитим концептима везаним за науку о подацима. Покушајмо да откријемо више повезаних концепата кроз **рударење текста**. Почећемо са текстом о науци о подацима, извући кључне речи из њега, а затим покушати да визуализујемо резултат.\n", "\n", "Као текст, користићу страницу о науци о подацима са Википедије:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Корак 1: Преузимање података\n", "\n", "Први корак у сваком процесу обраде података је преузимање података. Користићемо библиотеку `requests` за то:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "