{ "cells": [ { "cell_type": "markdown", "source": [ "# Hamon: Pagsusuri ng Teksto tungkol sa Data Science\n", "\n", "> *Sa notebook na ito, sinusubukan natin ang paggamit ng iba't ibang URL - artikulo sa Wikipedia tungkol sa Machine Learning. Makikita mo na, hindi tulad ng Data Science, ang artikulong ito ay naglalaman ng maraming termino, na nagiging mas mahirap ang pagsusuri. Kailangan nating mag-isip ng ibang paraan upang linisin ang data pagkatapos ng keyword extraction, upang maalis ang ilang madalas ngunit hindi makabuluhang kombinasyon ng mga salita.*\n", "\n", "Sa halimbawang ito, gawin natin ang isang simpleng ehersisyo na sumasaklaw sa lahat ng hakbang ng tradisyunal na proseso ng data science. Hindi mo kailangang magsulat ng anumang code, maaari mo lamang i-click ang mga cell sa ibaba upang maisagawa ang mga ito at obserbahan ang resulta. Bilang hamon, hinihikayat kang subukan ang code na ito gamit ang iba't ibang data.\n", "\n", "## Layunin\n", "\n", "Sa araling ito, tinalakay natin ang iba't ibang konsepto na may kaugnayan sa Data Science. Subukan nating tuklasin ang mas maraming kaugnay na konsepto sa pamamagitan ng **text mining**. Magsisimula tayo sa isang teksto tungkol sa Data Science, mag-eextract ng mga keyword mula rito, at pagkatapos ay susubukan nating i-visualize ang resulta.\n", "\n", "Bilang teksto, gagamitin ko ang pahina tungkol sa Data Science mula sa Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Hakbang 1: Pagkuha ng Datos\n", "\n", "Ang unang hakbang sa bawat proseso ng data science ay ang pagkuha ng datos. Gagamitin natin ang `requests` library para dito:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "