{ "cells": [ { "cell_type": "markdown", "source": [ "# ความท้าทาย: วิเคราะห์ข้อความเกี่ยวกับวิทยาศาสตร์ข้อมูล\n", "\n", "> *ในโน้ตบุ๊กนี้ เราจะทดลองใช้ URL ต่าง ๆ - บทความในวิกิพีเดียเกี่ยวกับการเรียนรู้ของเครื่อง คุณจะเห็นว่า บทความนี้มีคำศัพท์เฉพาะจำนวนมาก ซึ่งแตกต่างจากวิทยาศาสตร์ข้อมูล ทำให้การวิเคราะห์มีความยุ่งยากมากขึ้น เราจำเป็นต้องหาวิธีใหม่ในการทำความสะอาดข้อมูลหลังจากการดึงคำสำคัญ เพื่อกำจัดคำหรือวลีที่ปรากฏบ่อยแต่ไม่มีความหมายออกไป*\n", "\n", "ในตัวอย่างนี้ เรามาลองทำแบบฝึกหัดง่าย ๆ ที่ครอบคลุมทุกขั้นตอนของกระบวนการวิทยาศาสตร์ข้อมูลแบบดั้งเดิม คุณไม่จำเป็นต้องเขียนโค้ดใด ๆ เพียงแค่คลิกที่เซลล์ด้านล่างเพื่อรันและสังเกตผลลัพธ์ ในฐานะความท้าทาย คุณได้รับการสนับสนุนให้ลองใช้โค้ดนี้กับข้อมูลที่แตกต่างกัน\n", "\n", "## เป้าหมาย\n", "\n", "ในบทเรียนนี้ เราได้พูดคุยเกี่ยวกับแนวคิดต่าง ๆ ที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูล ลองค้นหาแนวคิดที่เกี่ยวข้องเพิ่มเติมโดยการทำ **การทำเหมืองข้อความ** เราจะเริ่มต้นด้วยข้อความเกี่ยวกับวิทยาศาสตร์ข้อมูล ดึงคำสำคัญออกมา และลองแสดงผลลัพธ์ในรูปแบบภาพ\n", "\n", "สำหรับข้อความ เราจะใช้หน้าบทความเกี่ยวกับวิทยาศาสตร์ข้อมูลจากวิกิพีเดีย:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## ขั้นตอนที่ 1: การดึงข้อมูล\n", "\n", "ขั้นตอนแรกในกระบวนการวิทยาศาสตร์ข้อมูลคือการดึงข้อมูล เราจะใช้ไลบรารี `requests` เพื่อทำสิ่งนี้:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "