{ "cells": [ { "cell_type": "markdown", "source": [ "# Cabaran: Menganalisis Teks tentang Sains Data\n", "\n", "> *Dalam buku nota ini, kita bereksperimen menggunakan URL yang berbeza - artikel Wikipedia tentang Pembelajaran Mesin. Anda boleh lihat bahawa, tidak seperti Sains Data, artikel ini mengandungi banyak istilah, yang menjadikan analisis lebih bermasalah. Kita perlu mencari cara lain untuk membersihkan data selepas melakukan pengekstrakan kata kunci, untuk menyingkirkan beberapa gabungan kata yang kerap tetapi tidak bermakna.*\n", "\n", "Dalam contoh ini, mari kita lakukan latihan mudah yang merangkumi semua langkah dalam proses sains data tradisional. Anda tidak perlu menulis sebarang kod, anda hanya perlu klik pada sel di bawah untuk melaksanakannya dan memerhatikan hasilnya. Sebagai cabaran, anda digalakkan untuk mencuba kod ini dengan data yang berbeza.\n", "\n", "## Matlamat\n", "\n", "Dalam pelajaran ini, kita telah membincangkan pelbagai konsep berkaitan dengan Sains Data. Mari kita cuba menemui lebih banyak konsep berkaitan dengan melakukan **perlombongan teks**. Kita akan bermula dengan teks tentang Sains Data, mengekstrak kata kunci daripadanya, dan kemudian cuba memvisualisasikan hasilnya.\n", "\n", "Sebagai teks, saya akan menggunakan halaman tentang Sains Data dari Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Langkah 1: Mendapatkan Data\n", "\n", "Langkah pertama dalam setiap proses sains data adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukannya:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "