{ "cells": [ { "cell_type": "markdown", "source": [ "# Provocare: Analiza textului despre Știința Datelor\n", "\n", "În acest exemplu, vom face un exercițiu simplu care acoperă toate etapele unui proces tradițional de știința datelor. Nu trebuie să scrii niciun cod, poți doar să dai clic pe celulele de mai jos pentru a le executa și a observa rezultatul. Ca provocare, ești încurajat să încerci acest cod cu date diferite.\n", "\n", "## Scop\n", "\n", "În această lecție, am discutat diferite concepte legate de Știința Datelor. Haideți să încercăm să descoperim mai multe concepte conexe prin **analiza textului**. Vom începe cu un text despre Știința Datelor, vom extrage cuvinte-cheie din acesta și apoi vom încerca să vizualizăm rezultatul.\n", "\n", "Ca text, voi folosi pagina despre Știința Datelor de pe Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Pasul 1: Obținerea datelor\n", "\n", "Primul pas în orice proces de știința datelor este obținerea datelor. Vom folosi biblioteca `requests` pentru a face acest lucru:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "