{ "cells": [ { "cell_type": "markdown", "source": [ "# Défi : Analyser un texte sur la science des données\n", "\n", "> *Dans ce notebook, nous expérimentons avec l'utilisation d'une URL différente - un article Wikipédia sur l'apprentissage automatique. Vous pouvez constater que, contrairement à la science des données, cet article contient de nombreux termes, rendant ainsi l'analyse plus problématique. Nous devons trouver une autre méthode pour nettoyer les données après l'extraction des mots-clés, afin d'éliminer certaines combinaisons de mots fréquentes mais peu significatives.*\n", "\n", "Dans cet exemple, faisons un exercice simple qui couvre toutes les étapes d'un processus traditionnel de science des données. Vous n'avez pas besoin d'écrire de code, il vous suffit de cliquer sur les cellules ci-dessous pour les exécuter et observer le résultat. En guise de défi, vous êtes encouragé à essayer ce code avec des données différentes.\n", "\n", "## Objectif\n", "\n", "Dans cette leçon, nous avons discuté de différents concepts liés à la science des données. Essayons de découvrir d'autres concepts connexes en faisant un peu de **text mining**. Nous commencerons par un texte sur la science des données, en extrairons des mots-clés, puis tenterons de visualiser le résultat.\n", "\n", "Comme texte, j'utiliserai la page sur la science des données de Wikipédia :\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Étape 1 : Obtenir les données\n", "\n", "La première étape de tout processus de science des données consiste à obtenir les données. Nous utiliserons la bibliothèque `requests` pour cela :\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "