{ "cells": [ { "cell_type": "markdown", "source": [ "# Kihívás: Szövegelemzés az Adattudományról\n", "\n", "> *Ebben a jegyzetfüzetben különböző URL-ekkel kísérletezünk - a Wikipédia gépi tanulásról szóló cikkével. Látható, hogy az Adattudománnyal ellentétben ez a cikk rengeteg szakkifejezést tartalmaz, ami megnehezíti az elemzést. Ki kell találnunk egy másik módszert az adatok tisztítására a kulcsszavak kinyerése után, hogy megszabaduljunk néhány gyakori, de nem jelentős szókapcsolattól.*\n", "\n", "Ebben a példában végezzünk el egy egyszerű gyakorlatot, amely lefedi az adattudomány hagyományos folyamatának minden lépését. Nem kell kódot írnod, egyszerűen kattints az alábbi cellákra, hogy végrehajtsd őket, és figyeld meg az eredményt. Kihívásként arra bátorítunk, hogy próbáld ki ezt a kódot különböző adatokkal.\n", "\n", "## Cél\n", "\n", "Ebben a leckében különböző, az Adattudományhoz kapcsolódó fogalmakról beszéltünk. Próbáljunk meg további kapcsolódó fogalmakat felfedezni **szövegbányászat** segítségével. Egy Adattudományról szóló szöveggel kezdünk, kulcsszavakat nyerünk ki belőle, majd megpróbáljuk vizualizálni az eredményt.\n", "\n", "A szöveghez a Wikipédia Adattudományról szóló oldalát fogom használni:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 1. lépés: Az adatok beszerzése\n", "\n", "Az adatelemzési folyamat első lépése az adatok beszerzése. Ehhez a `requests` könyvtárat fogjuk használni:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "