{ "cells": [ { "cell_type": "markdown", "source": [ "# 挑戰:分析有關數據科學的文本\n", "\n", "> *在這份筆記中,我們嘗試使用不同的 URL - 關於機器學習的維基百科文章。你會發現,與數據科學不同,這篇文章包含了許多術語,這使得分析更加困難。我們需要在進行關鍵字提取後,想出另一種方法來清理數據,以去除一些頻繁但無意義的詞組。*\n", "\n", "在這個例子中,我們將進行一個簡單的練習,涵蓋傳統數據科學流程的所有步驟。你不需要撰寫任何程式碼,只需點擊下面的單元格執行它們並觀察結果。作為挑戰,我們鼓勵你使用不同的數據來嘗試這段程式碼。\n", "\n", "## 目標\n", "\n", "在這節課中,我們討論了與數據科學相關的不同概念。讓我們嘗試通過**文本挖掘**來發現更多相關概念。我們將從一段有關數據科學的文本開始,從中提取關鍵字,然後嘗試將結果可視化。\n", "\n", "作為文本,我將使用維基百科上關於數據科學的頁面:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## 第一步:獲取資料\n", "\n", "每個資料科學流程的第一步就是獲取資料。我們將使用 `requests` 函式庫來完成這個步驟:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "