{ "cells": [ { "cell_type": "markdown", "source": [ "# ความท้าทาย: วิเคราะห์ข้อความเกี่ยวกับวิทยาศาสตร์ข้อมูล\n", "\n", "ในตัวอย่างนี้ เราจะทำแบบฝึกหัดง่ายๆ ที่ครอบคลุมทุกขั้นตอนของกระบวนการวิทยาศาสตร์ข้อมูลแบบดั้งเดิม คุณไม่จำเป็นต้องเขียนโค้ดใดๆ เพียงแค่คลิกที่เซลล์ด้านล่างเพื่อรันและสังเกตผลลัพธ์ ในฐานะความท้าทาย คุณสามารถลองใช้โค้ดนี้กับข้อมูลที่แตกต่างกันได้\n", "\n", "## เป้าหมาย\n", "\n", "ในบทเรียนนี้ เราได้พูดคุยเกี่ยวกับแนวคิดต่างๆ ที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูล ลองมาค้นหาแนวคิดที่เกี่ยวข้องเพิ่มเติมโดยการทำ **การขุดข้อความ** กัน เราจะเริ่มต้นด้วยข้อความเกี่ยวกับวิทยาศาสตร์ข้อมูล ดึงคำสำคัญออกมา และพยายามแสดงผลลัพธ์ในรูปแบบภาพ\n", "\n", "สำหรับข้อความ เราจะใช้หน้าที่เกี่ยวกับวิทยาศาสตร์ข้อมูลจาก Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## ขั้นตอนที่ 1: การดึงข้อมูล\n", "\n", "ขั้นตอนแรกในกระบวนการวิทยาศาสตร์ข้อมูลคือการดึงข้อมูล เราจะใช้ไลบรารี `requests` เพื่อทำสิ่งนี้:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "