{ "cells": [ { "cell_type": "markdown", "source": [ "# Cabaran: Menganalisis Teks tentang Sains Data\n", "\n", "Dalam contoh ini, mari kita lakukan satu latihan mudah yang merangkumi semua langkah dalam proses tradisional sains data. Anda tidak perlu menulis sebarang kod, anda hanya perlu klik pada sel di bawah untuk melaksanakannya dan memerhatikan hasilnya. Sebagai cabaran, anda digalakkan untuk mencuba kod ini dengan data yang berbeza.\n", "\n", "## Matlamat\n", "\n", "Dalam pelajaran ini, kita telah membincangkan pelbagai konsep berkaitan dengan Sains Data. Mari kita cuba menemui lebih banyak konsep berkaitan dengan melakukan **perlombongan teks**. Kita akan bermula dengan teks tentang Sains Data, mengekstrak kata kunci daripadanya, dan kemudian cuba memvisualisasikan hasilnya.\n", "\n", "Sebagai teks, saya akan menggunakan halaman tentang Sains Data dari Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Langkah 1: Mendapatkan Data\n", "\n", "Langkah pertama dalam setiap proses sains data adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukannya:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "