{ "cells": [ { "cell_type": "markdown", "source": [ "# Uitdaging: Tekst analyseren over Data Science\n", "\n", "> *In deze notebook experimenteren we met het gebruik van verschillende URL's - Wikipedia-artikel over Machine Learning. Je zult zien dat, in tegenstelling tot Data Science, dit artikel veel termen bevat, wat de analyse problematischer maakt. We moeten een andere manier bedenken om de data op te schonen na het uitvoeren van keyword-extractie, om van enkele veelvoorkomende, maar nietszeggende woordcombinaties af te komen.*\n", "\n", "In dit voorbeeld doen we een eenvoudige oefening die alle stappen van een traditioneel data science-proces omvat. Je hoeft geen code te schrijven, je kunt gewoon op de cellen hieronder klikken om ze uit te voeren en het resultaat te bekijken. Als uitdaging word je aangemoedigd om deze code met andere data uit te proberen.\n", "\n", "## Doel\n", "\n", "In deze les hebben we verschillende concepten besproken die te maken hebben met Data Science. Laten we proberen meer gerelateerde concepten te ontdekken door middel van **tekstmining**. We beginnen met een tekst over Data Science, halen daaruit sleutelwoorden, en proberen vervolgens het resultaat te visualiseren.\n", "\n", "Als tekst gebruik ik de pagina over Data Science van Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Stap 1: De gegevens ophalen\n", "\n", "De eerste stap in elk datawetenschapsproces is het ophalen van de gegevens. We gebruiken de bibliotheek `requests` om dit te doen:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "