{ "cells": [ { "cell_type": "markdown", "source": [ "# စိန်ခေါ်မှု - ဒေတာသိပ္ပံအကြောင်း စာသားကို ခွဲခြမ်းစိတ်ဖြာခြင်း\n", "\n", "> *ဒီ notebook မှာတော့ Machine Learning အကြောင်း Wikipedia ဆောင်းပါးကို အသုံးပြုပြီး URL မျိုးစုံကို စမ်းသပ်ကြည့်မှာ ဖြစ်ပါတယ်။ Data Science ဆောင်းပါးနဲ့ မတူဘဲ၊ ဒီဆောင်းပါးမှာ အခက်အခဲဖြစ်စေတဲ့ အကြောင်းအရာများစွာ ပါဝင်နေပါတယ်။ ဒါကြောင့် keyword extraction ပြီးရင် အဓိပ္ပါယ်မရှိတဲ့ စကားစုတွေကို ဖယ်ရှားဖို့ အခြားနည်းလမ်းတစ်ခုကို ရှာဖွေရမှာ ဖြစ်ပါတယ်။*\n", "\n", "ဒီဥပမာမှာတော့ ဒေတာသိပ္ပံရဲ့ ရိုးရာလုပ်ငန်းစဉ်အားလုံးကို ဖော်ပြထားတဲ့ လေ့ကျင့်ခန်းလေးတစ်ခုကို လုပ်ကြည့်ပါမယ်။ သင်က code ရေးဖို့ မလိုအပ်ပါဘူး၊ အောက်မှာရှိတဲ့ cell တွေကို နှိပ်ပြီး အလုပ်လုပ်တာကို ကြည့်ရှုနိုင်ပါတယ်။ စိန်ခေါ်မှုအနေနဲ့ သင့်အနေနဲ့ အခြားသော ဒေတာတွေနဲ့ ဒီ code ကို စမ်းသပ်ကြည့်ဖို့ အားပေးလိုက်ပါတယ်။\n", "\n", "## ရည်မှန်းချက်\n", "\n", "ဒီသင်ခန်းစာမှာတော့ ဒေတာသိပ္ပံနဲ့ ပတ်သက်တဲ့ အကြောင်းအရာအမျိုးမျိုးကို ဆွေးနွေးခဲ့ကြပါတယ်။ **စာသားသိပ္ပံ (text mining)** လုပ်ပြီး ပိုမိုဆက်စပ်တဲ့ အကြောင်းအရာတွေကို ရှာဖွေကြည့်ရအောင်။ \n", "\n", "Data Science အကြောင်း စာသားတစ်ခုကို စတင်ပြီး၊ အဲဒီထဲကနေ keyword တွေကို ထုတ်ယူပြီး၊ ရလဒ်ကို ရှုထောင်ကြည့်ပါမယ်။\n", "\n", "ဒီစာသားအတွက်တော့ Wikipedia မှာရှိတဲ့ Data Science အကြောင်း စာမျက်နှာကို အသုံးပြုပါမယ် - \n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## အဆင့် ၁: ဒေတာရယူခြင်း\n", "\n", "ဒေတာသိပ္ပံလုပ်ငန်းစဉ်တိုင်း၏ ပထမဆုံးအဆင့်မှာ ဒေတာရယူခြင်းဖြစ်ပါတယ်။ ဒါကိုလုပ်ရန် `requests` လိုက်ဘရေးရီကို အသုံးပြုမယ်:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "