{ "cells": [ { "cell_type": "markdown", "source": [ "# Uitdaging: Tekst analyseren over Data Science\n", "\n", "In dit voorbeeld doen we een eenvoudige oefening die alle stappen van een traditioneel data science-proces omvat. Je hoeft geen code te schrijven, je kunt gewoon op de cellen hieronder klikken om ze uit te voeren en het resultaat te bekijken. Als uitdaging word je aangemoedigd om deze code met verschillende gegevens uit te proberen.\n", "\n", "## Doel\n", "\n", "In deze les hebben we verschillende concepten besproken die te maken hebben met Data Science. Laten we proberen meer gerelateerde concepten te ontdekken door middel van **tekstmining**. We beginnen met een tekst over Data Science, halen daar trefwoorden uit en proberen vervolgens het resultaat te visualiseren.\n", "\n", "Als tekst gebruik ik de pagina over Data Science van Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Stap 1: De gegevens ophalen\n", "\n", "De eerste stap in elk data science-proces is het verkrijgen van de gegevens. We gebruiken de bibliotheek `requests` om dit te doen:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "