{ "cells": [ { "cell_type": "markdown", "source": [ "# Изазов: Анализа текста о науци о подацима\n", "\n", "У овом примеру, урадићемо једноставну вежбу која обухвата све кораке традиционалног процеса науке о подацима. Не морате писати никакав код, можете само кликнути на ћелије испод да их извршите и посматрате резултат. Као изазов, охрабрујемо вас да испробате овај код са различитим подацима.\n", "\n", "## Циљ\n", "\n", "У овом часу, разговарали смо о различитим концептима везаним за науку о подацима. Хајде да покушамо да откријемо више повезаних концепата кроз **рударење текста**. Почећемо са текстом о науци о подацима, извући кључне речи из њега, а затим покушати да визуализујемо резултат.\n", "\n", "Као текст, користићемо страницу о науци о подацима са Википедије:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Корак 1: Преузимање података\n", "\n", "Први корак у сваком процесу обраде података је преузимање података. Користићемо библиотеку `requests` за то:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "