{ "cells": [ { "cell_type": "markdown", "source": [ "# Tantangan: Menganalisis Teks tentang Ilmu Data\n", "\n", "> *Dalam notebook ini, kita bereksperimen menggunakan URL berbeda - artikel Wikipedia tentang Pembelajaran Mesin. Anda dapat melihat bahwa, tidak seperti Ilmu Data, artikel ini mengandung banyak istilah, sehingga membuat analisis menjadi lebih rumit. Kita perlu menemukan cara lain untuk membersihkan data setelah melakukan ekstraksi kata kunci, untuk menghilangkan beberapa kombinasi kata yang sering muncul tetapi tidak bermakna.*\n", "\n", "Dalam contoh ini, mari kita lakukan latihan sederhana yang mencakup semua langkah dalam proses tradisional ilmu data. Anda tidak perlu menulis kode apa pun, cukup klik pada sel di bawah untuk menjalankannya dan amati hasilnya. Sebagai tantangan, Anda didorong untuk mencoba kode ini dengan data yang berbeda.\n", "\n", "## Tujuan\n", "\n", "Dalam pelajaran ini, kita telah membahas berbagai konsep yang terkait dengan Ilmu Data. Mari kita coba menemukan lebih banyak konsep terkait dengan melakukan **penambangan teks**. Kita akan mulai dengan teks tentang Ilmu Data, mengekstraksi kata kunci darinya, dan kemudian mencoba memvisualisasikan hasilnya.\n", "\n", "Sebagai teks, saya akan menggunakan halaman tentang Ilmu Data dari Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Langkah 1: Mendapatkan Data\n", "\n", "Langkah pertama dalam setiap proses ilmu data adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukannya:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "