{ "cells": [ { "cell_type": "markdown", "source": [ "# Sfida: Analizzare un Testo su Data Science\n", "\n", "> *In questo notebook, sperimentiamo l'uso di un URL diverso - articolo di Wikipedia su Machine Learning. Si può notare che, a differenza di Data Science, questo articolo contiene molti termini, rendendo l'analisi più problematica. Dobbiamo trovare un altro modo per ripulire i dati dopo l'estrazione delle parole chiave, per eliminare alcune combinazioni di parole frequenti ma poco significative.*\n", "\n", "In questo esempio, facciamo un semplice esercizio che copre tutti i passaggi di un tradizionale processo di data science. Non è necessario scrivere alcun codice, puoi semplicemente cliccare sulle celle qui sotto per eseguirle e osservare il risultato. Come sfida, ti invitiamo a provare questo codice con dati diversi.\n", "\n", "## Obiettivo\n", "\n", "In questa lezione, abbiamo discusso diversi concetti relativi alla Data Science. Proviamo a scoprire altri concetti correlati facendo un po' di **text mining**. Inizieremo con un testo sulla Data Science, estrarremo parole chiave da esso e poi cercheremo di visualizzare il risultato.\n", "\n", "Come testo, utilizzerò la pagina su Data Science da Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Passaggio 1: Ottenere i dati\n", "\n", "Il primo passo in ogni processo di data science è ottenere i dati. Utilizzeremo la libreria `requests` per farlo:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "