{ "cells": [ { "cell_type": "markdown", "source": [ "# Provocare: Analiza textului despre Știința Datelor\n", "\n", "> *În acest notebook, experimentăm cu utilizarea unui URL diferit - articolul Wikipedia despre Învățarea Automată. Puteți observa că, spre deosebire de Știința Datelor, acest articol conține o mulțime de termeni, ceea ce face analiza mai problematică. Trebuie să găsim o altă metodă pentru a curăța datele după extragerea cuvintelor cheie, pentru a elimina unele combinații de cuvinte frecvente, dar lipsite de semnificație.*\n", "\n", "În acest exemplu, să facem un exercițiu simplu care acoperă toți pașii unui proces tradițional de știința datelor. Nu trebuie să scrieți niciun cod, puteți doar să faceți clic pe celulele de mai jos pentru a le executa și a observa rezultatul. Ca provocare, sunteți încurajați să încercați acest cod cu date diferite.\n", "\n", "## Obiectiv\n", "\n", "În această lecție, am discutat diferite concepte legate de Știința Datelor. Să încercăm să descoperim mai multe concepte conexe prin **minarea textului**. Vom începe cu un text despre Știința Datelor, vom extrage cuvinte cheie din acesta și apoi vom încerca să vizualizăm rezultatul.\n", "\n", "Ca text, voi folosi pagina despre Știința Datelor de pe Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Pasul 1: Obținerea datelor\n", "\n", "Primul pas în orice proces de știința datelor este obținerea datelor. Vom folosi biblioteca `requests` pentru a face acest lucru:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "