{ "cells": [ { "cell_type": "markdown", "source": [ "# Iššūkis: Teksto analizė apie duomenų mokslą\n", "\n", "Šiame pavyzdyje atliksime paprastą pratimą, apimantį visus tradicinio duomenų mokslo proceso etapus. Jums nereikia rašyti jokio kodo, galite tiesiog spustelėti žemiau esančias langelius, kad juos vykdytumėte ir stebėtumėte rezultatą. Kaip iššūkį, skatiname išbandyti šį kodą su skirtingais duomenimis.\n", "\n", "## Tikslas\n", "\n", "Šioje pamokoje aptarėme įvairias su duomenų mokslu susijusias sąvokas. Pabandykime atrasti daugiau susijusių sąvokų atlikdami **teksto gavybą**. Pradėsime nuo teksto apie duomenų mokslą, ištrauksime iš jo raktažodžius ir tada pabandysime vizualizuoti rezultatą.\n", "\n", "Kaip tekstą naudosime Vikipedijos puslapį apie duomenų mokslą:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 1 žingsnis: Duomenų gavimas\n", "\n", "Pirmasis žingsnis kiekviename duomenų mokslo procese yra duomenų gavimas. Tam naudosime biblioteką `requests`:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "