{ "cells": [ { "cell_type": "markdown", "source": [ "# Iššūkis: Teksto analizė apie duomenų mokslą\n", "\n", "> *Šiame užrašų knygelėje eksperimentuojame su skirtingais URL - Vikipedijos straipsniu apie Mašininį Mokymąsi. Galite pastebėti, kad, skirtingai nei Duomenų Mokslas, šiame straipsnyje yra daug terminų, todėl analizė tampa sudėtingesnė. Turime sugalvoti kitą būdą, kaip išvalyti duomenis po raktažodžių ištraukimo, kad atsikratytume kai kurių dažnų, bet nereikšmingų žodžių junginių.*\n", "\n", "Šiame pavyzdyje atliksime paprastą pratimą, apimantį visus tradicinio duomenų mokslo proceso etapus. Jums nereikia rašyti jokio kodo, tiesiog spustelėkite žemiau esančias langelius, kad juos vykdytumėte ir stebėtumėte rezultatą. Kaip iššūkį, skatiname išbandyti šį kodą su skirtingais duomenimis.\n", "\n", "## Tikslas\n", "\n", "Šioje pamokoje aptarėme įvairias su Duomenų Mokslu susijusias sąvokas. Pabandykime atrasti daugiau susijusių sąvokų atlikdami **teksto gavybą**. Pradėsime nuo teksto apie Duomenų Mokslą, ištrauksime raktažodžius ir tada bandysime vizualizuoti rezultatą.\n", "\n", "Kaip tekstą naudosime Vikipedijos puslapį apie Duomenų Mokslą:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 1 žingsnis: Duomenų gavimas\n", "\n", "Pirmasis žingsnis kiekviename duomenų mokslo procese yra duomenų gavimas. Tam naudosime `requests` biblioteką:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "