{ "cells": [ { "cell_type": "markdown", "source": [ "# စိန်ခေါ်မှု - ဒေတာသိပ္ပံအကြောင်း စာသားကို ခွဲခြမ်းစိတ်ဖြာခြင်း\n", "\n", "ဤဥပမာတွင်၊ ဒေတာသိပ္ပံလုပ်ငန်းစဉ်၏ ရိုးရာအဆင့်ဆင့်အားလုံးကို အကျုံးဝင်သော ရိုးရှင်းသော လေ့ကျင့်ခန်းတစ်ခု ပြုလုပ်ကြမည်။ သင်သည် အောက်တွင်ရှိသော ဆဲလ်များကို နှိပ်၍ အလုပ်လုပ်စေပြီး ရလဒ်ကို ကြည့်ရှုနိုင်သည်။ စိန်ခေါ်မှုအနေနှင့်၊ သင်သည် အခြားဒေတာများဖြင့် ဤကုဒ်ကို စမ်းသပ်ကြည့်ရန် အားပေးလိုက်ပါသည်။\n", "\n", "## ရည်မှန်းချက်\n", "\n", "ဤသင်ခန်းစာတွင်၊ ဒေတာသိပ္ပံနှင့်ဆိုင်သော အမျိုးမျိုးသော အယူအဆများကို ဆွေးနွေးခဲ့ပါသည်။ **စာသားသိပ္ပံ** ပြုလုပ်ခြင်းအားဖြင့် ပိုမိုဆက်စပ်သော အယူအဆများကို ရှာဖွေကြည့်ရအောင်။ ဒေတာသိပ္ပံအကြောင်း စာသားတစ်ခုကို စတင်၍၊ ထိုမှ အဓိကသော စကားလုံးများကို ထုတ်ယူပြီး၊ ရလဒ်ကို ရှုထောင့်တစ်ခုမှ ကြည့်ရှုကြည့်မည်။\n", "\n", "စာသားအဖြစ်၊ ငါသည် Wikipedia တွင်ရှိသော ဒေတာသိပ္ပံအကြောင်း စာမျက်နှာကို အသုံးပြုမည် - \n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## အဆင့် ၁: ဒေတာရယူခြင်း\n", "\n", "ဒေတာသိပ္ပံလုပ်ငန်းစဉ်တိုင်း၏ ပထမဆုံးအဆင့်မှာ ဒေတာရယူခြင်းဖြစ်ပါတယ်။ ဒါကိုလုပ်ရန် `requests` လိုက်ဘရေးရီကို အသုံးပြုမယ်:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "