{ "cells": [ { "cell_type": "markdown", "source": [ "# Défi : Analyser un texte sur la science des données\n", "\n", "Dans cet exemple, faisons un exercice simple qui couvre toutes les étapes d'un processus traditionnel de science des données. Vous n'avez pas besoin d'écrire de code, vous pouvez simplement cliquer sur les cellules ci-dessous pour les exécuter et observer le résultat. En guise de défi, vous êtes encouragé à essayer ce code avec des données différentes.\n", "\n", "## Objectif\n", "\n", "Dans cette leçon, nous avons discuté de différents concepts liés à la science des données. Essayons de découvrir d'autres concepts connexes en faisant un peu de **text mining**. Nous commencerons par un texte sur la science des données, en extrairons des mots-clés, puis tenterons de visualiser le résultat.\n", "\n", "Comme texte, j'utiliserai la page sur la science des données de Wikipedia :\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Étape 1 : Obtenir les données\n", "\n", "La première étape de tout processus de science des données consiste à obtenir les données. Nous utiliserons la bibliothèque `requests` pour cela :\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "