{ "cells": [ { "cell_type": "markdown", "source": [ "# Hamon: Pagsusuri ng Teksto tungkol sa Data Science\n", "\n", "Sa halimbawang ito, gagawin natin ang isang simpleng ehersisyo na sumasaklaw sa lahat ng hakbang ng tradisyunal na proseso ng data science. Hindi mo kailangang magsulat ng anumang code, maaari mo lamang i-click ang mga cell sa ibaba upang maisagawa ang mga ito at obserbahan ang resulta. Bilang hamon, hinihikayat kang subukan ang code na ito gamit ang iba't ibang datos.\n", "\n", "## Layunin\n", "\n", "Sa araling ito, tinalakay natin ang iba't ibang konsepto na may kaugnayan sa Data Science. Subukan nating tuklasin ang higit pang mga kaugnay na konsepto sa pamamagitan ng paggawa ng **text mining**. Magsisimula tayo sa isang teksto tungkol sa Data Science, kukunin ang mga keyword mula rito, at pagkatapos ay susubukan nating i-visualize ang resulta.\n", "\n", "Bilang teksto, gagamitin ko ang pahina tungkol sa Data Science mula sa Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Hakbang 1: Pagkuha ng Datos\n", "\n", "Ang unang hakbang sa bawat proseso ng data science ay ang pagkuha ng datos. Gagamitin natin ang `requests` library para dito:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "