{ "cells": [ { "cell_type": "markdown", "source": [ "# Kihívás: Szövegelemzés az Adattudományról\n", "\n", "Ebben a példában végezzünk el egy egyszerű gyakorlatot, amely lefedi az adattudomány hagyományos folyamatának minden lépését. Nem kell kódot írnod, egyszerűen kattints az alábbi cellákra, hogy végrehajtsd őket, és figyeld meg az eredményt. Kihívásként bátorítunk, hogy próbáld ki ezt a kódot különböző adatokkal is.\n", "\n", "## Cél\n", "\n", "Ebben a leckében különböző, az adattudományhoz kapcsolódó fogalmakról beszéltünk. Próbáljunk meg további kapcsolódó fogalmakat felfedezni egy kis **szövegbányászat** segítségével. Egy adattudományról szóló szöveggel kezdünk, kulcsszavakat vonunk ki belőle, majd megpróbáljuk vizualizálni az eredményt.\n", "\n", "A szöveghez a Wikipédia Adattudományról szóló oldalát fogom használni:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 1. lépés: Az adatok beszerzése\n", "\n", "Az adatkutatási folyamat első lépése az adatok beszerzése. Ehhez a `requests` könyvtárat fogjuk használni:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "