You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/my/1-Introduction/03-defining-data/README.md

15 KiB

ဒေတာကို သတ်မှတ်ခြင်း

 Sketchnote by (@sketchthedocs)
ဒေတာကို သတ်မှတ်ခြင်း - Sketchnote by @nitya

ဒေတာဆိုတာ အချက်အလက်များ၊ သတင်းအချက်အလက်များ၊ ကြည့်ရှုချက်များနှင့် တိုင်းတာချက်များဖြစ်ပြီး ရှာဖွေတွေ့ရှိမှုများနှင့် သတိပြုထားသော ဆုံးဖြတ်ချက်များကို ပံ့ပိုးရန် အသုံးပြုသည်။ ဒေတာအချက်အလက်တစ်ခုသည် ဒေတာအချက်အလက်စုစည်းမှုတစ်ခုအတွင်းရှိ ဒေတာ၏ တစ်ခုတည်းသောယူနစ်ဖြစ်ပြီး ဒေတာအချက်အလက်များ၏ စုစည်းမှုတစ်ခုဖြစ်သည်။ ဒေတာအချက်အလက်စုစည်းမှုများသည် အမျိုးအစားနှင့် ဖွဲ့စည်းပုံများကွဲပြားနိုင်ပြီး ဒေတာရရှိသော အရင်းအမြစ်ပေါ်မူတည်၍ ဖြစ်လေ့ရှိသည်။ ဥပမာအားဖြင့် ကုမ္ပဏီ၏ လစဉ်ဝင်ငွေများသည် စာရင်းဇယားတွင်ရှိနိုင်သော်လည်း smartwatch မှ နာရီနှုန်းနှင့် နှလုံးခုန်နှုန်းဒေတာသည် JSON ဖော်မတ်တွင်ရှိနိုင်သည်။ ဒေတာသိပ္ပံပညာရှင်များသည် ဒေတာအမျိုးအစားများစွာနှင့် အလုပ်လုပ်လေ့ရှိသည်။

ဒီသင်ခန်းစာမှာ ဒေတာ၏ လက္ခဏာများနှင့် အရင်းအမြစ်များအပေါ်မူတည်၍ ဒေတာကို သတ်မှတ်ခြင်းနှင့် အမျိုးအစားခွဲခြင်းကို အဓိကထားသည်။

Pre-Lecture Quiz

ဒေတာကို ဘယ်လို ဖော်ပြထားသလဲ

Raw Data

Raw data ဆိုတာ ဒေတာရရှိသော အရင်းအမြစ်မှ မူလအခြေအနေတွင်ရှိပြီး မသုံးသပ်ထားသော ဒေတာဖြစ်သည်။ ဒေတာအချက်အလက်စုစည်းမှုတစ်ခုတွင် ဖြစ်နေသောအရာကို နားလည်နိုင်ရန် လူသားများနှင့် နောက်ထပ်သုံးသပ်ရန် အသုံးပြုနိုင်သော နည်းပညာများအတွက် နားလည်နိုင်သော ဖော်မတ်တစ်ခုအဖြစ် စီစဉ်ရန် လိုအပ်သည်။ ဒေတာအချက်အလက်စုစည်းမှု၏ ဖွဲ့စည်းပုံသည် ဒေတာကို ဘယ်လို စီစဉ်ထားသည်ကို ဖော်ပြပြီး structured, unstructured နှင့် semi-structured အဖြစ် အမျိုးအစားခွဲနိုင်သည်။ ဒီအမျိုးအစားများသည် အရင်းအမြစ်ပေါ်မူတည်၍ ကွဲပြားနိုင်သော်လည်း အဓိကအားဖြင့် ဒီသုံးမျိုးအတွင်းသို့ အဆင့်သတ်မှတ်နိုင်သည်။

Quantitative Data

Quantitative data ဆိုတာ ဒေတာအချက်အလက်စုစည်းမှုတစ်ခုအတွင်းရှိ ကိန်းဂဏန်းဆိုင်ရာ ကြည့်ရှုချက်များဖြစ်ပြီး သုံးသပ်နိုင်သည်၊ တိုင်းတာနိုင်သည်၊ သို့မဟုတ် သင်္ချာဆိုင်ရာအနေနှင့် အသုံးပြုနိုင်သည်။ Quantitative data ၏ ဥပမာများမှာ - တစ်နိုင်ငံ၏ လူဦးရေ၊ တစ်ဦး၏ အရပ်အမြင့်၊ သို့မဟုတ် ကုမ္ပဏီ၏ သုံးလပတ်ဝင်ငွေများဖြစ်သည်။ နောက်ထပ်သုံးသပ်မှုများဖြင့် Quantitative data ကို Air Quality Index (AQI) ၏ ရာသီဥတုဆိုင်ရာ လမ်းကြောင်းများကို ရှာဖွေခြင်း သို့မဟုတ် အလုပ်လုပ်ရက်များတွင် Rush Hour Traffic ဖြစ်နိုင်ခြေကို ခန့်မှန်းခြင်းအတွက် အသုံးပြုနိုင်သည်။

Qualitative Data

Qualitative data (categorical data ဟုလည်းခေါ်သည်) ဆိုတာ Quantitative data ကဲ့သို့ တိုင်းတာနိုင်သော ဒေတာမဟုတ်ဘဲ အရည်အသွေးဆိုင်ရာကို ဖမ်းယူထားသော ဒေတာဖြစ်သည်။ Qualitative data သည် အမျိုးမျိုးသော subjective data ဖော်မတ်များဖြစ်ပြီး အရာဝတ္ထု သို့မဟုတ် လုပ်ငန်းစဉ်၏ အရည်အသွေးကို ဖော်ပြသည်။ တစ်ခါတစ်ရံ Qualitative data သည် ကိန်းဂဏန်းဖြစ်နိုင်သော်လည်း သင်္ချာဆိုင်ရာအနေနှင့် မသုံးလေ့ရှိပါ။ ဥပမာအားဖြင့် ဖုန်းနံပါတ်များ သို့မဟုတ် အချိန်မှတ်တိုင်များ။ Qualitative data ၏ ဥပမာများမှာ - ဗီဒီယိုမှတ်ချက်များ၊ ကား၏ အမျိုးအစားနှင့် မော်ဒယ်၊ သို့မဟုတ် သင့်အနီးဆုံးသူငယ်ချင်းများ၏ အကြိုက်ဆုံးအရောင်များဖြစ်သည်။ Qualitative data ကို စားသုံးသူများအကြိုက်ဆုံးထုတ်ကုန်များကို နားလည်ရန် သို့မဟုတ် အလုပ်လျှောက်လွှာများတွင် လူကြိုက်များသော keyword များကို ရှာဖွေရန် အသုံးပြုနိုင်သည်။

Structured Data

Structured data ဆိုတာ အတန်းနှင့် ကော်လံများအဖြစ် စီစဉ်ထားသော ဒေတာဖြစ်ပြီး အတန်းတစ်ခုစီတွင် အတန်းတစ်ခုစီ၏ ကော်လံများတူညီသည်။ ကော်လံများသည် တစ်ခုတည်းသော အမျိုးအစားတန်ဖိုးကို ကိုယ်စားပြုပြီး အတန်းတန်ဖိုးကို ဖော်ပြသော နာမည်ဖြင့် ဖော်ပြထားသည်။ Structured data ၏ အကျိုးကျေးဇူးမှာ ဒေတာကို အခြား structured data နှင့် ဆက်စပ်စီစဉ်နိုင်သည်။ သို့သော် ဒေတာကို အတိအကျစီစဉ်ထားသောကြောင့် ဖွဲ့စည်းပုံကို ပြောင်းလဲရန် အချိန်နှင့် အင်အားများလိုအပ်သည်။

ဥပမာများ - စာရင်းဇယားများ၊ relational databases၊ ဖုန်းနံပါတ်များ၊ ဘဏ်စာရင်းများ

Unstructured Data

Unstructured data သည် အတန်းနှင့် ကော်လံများအဖြစ် စီစဉ်ထားနိုင်သော ဒေတာမဟုတ်ဘဲ ဖော်မတ် သို့မဟုတ် စည်းမျဉ်းများမပါသော ဒေတာဖြစ်သည်။ Unstructured data ၏ အကျိုးကျေးဇူးမှာ ဒေတာကို ပိုမိုလွယ်ကူစွာ ထည့်သွင်းနိုင်သည်။ သို့သော် ဒေတာကို သုံးသပ်ရန် ပိုမိုအချိန်ယူနိုင်သည်။

ဥပမာများ - စာသားဖိုင်များ၊ စာသားမက်ဆေ့များ၊ ဗီဒီယိုဖိုင်များ

Semi-structured

Semi-structured data သည် structured နှင့် unstructured data ၏ အရည်အသွေးများပေါင်းစပ်ထားသော ဒေတာဖြစ်သည်။ ဒေတာကို စီစဉ်ထားသော ဖွဲ့စည်းပုံရှိသော်လည်း အတန်းနှင့် ကော်လံများအဖြစ် မသတ်မှတ်ထားပါ။ Metadata သည် ဒေတာကို ဘယ်လို စီစဉ်ထားသည်ကို ဆုံးဖြတ်ရန် အညွှန်းများဖြစ်ပြီး tags, elements, entities, attributes စသည်ဖြင့် ခေါ်နိုင်သည်။

ဥပမာများ - HTML, CSV ဖိုင်များ, JavaScript Object Notation (JSON)

ဒေတာရင်းမြစ်များ

ဒေတာရင်းမြစ်ဆိုတာ ဒေတာကို စတင်ဖန်တီးသောနေရာ သို့မဟုတ် "နေထိုင်ရာ" ဖြစ်ပြီး ဒေတာကို ဘယ်လိုနှင့် ဘယ်အချိန်တွင် စုဆောင်းခဲ့သည်ပေါ်မူတည်၍ ကွဲပြားနိုင်သည်။ အသုံးပြုသူများမှ ဖန်တီးသော ဒေတာကို primary data ဟုခေါ်ပြီး အခြားသူများကို မျှဝေသော ဒေတာကို secondary data ဟုခေါ်သည်။

ဥပမာ - database, ဖိုင်များ, အင်တာနက်ရင်းမြစ်များ, APIs, web scraping

နိဂုံး

ဒီသင်ခန်းစာမှာ ကျွန်ုပ်တို့ သင်ယူခဲ့သည် -

  • ဒေတာဆိုတာ ဘာလဲ
  • ဒေတာကို ဘယ်လို ဖော်ပြထားသလဲ
  • ဒေတာကို ဘယ်လို အမျိုးအစားခွဲထားသလဲ
  • ဒေတာကို ဘယ်နေရာမှာ ရှာဖွေနိုင်သလဲ

🚀 စိန်ခေါ်မှု

Kaggle သည် ဖွင့်လွှင့်ထားသော ဒေတာအချက်အလက်စုစည်းမှုများရရှိနိုင်သော အရင်းအမြစ်ကောင်းတစ်ခုဖြစ်သည်။ dataset search tool ကို အသုံးပြု၍ စိတ်ဝင်စားဖွယ် ဒေတာအချက်အလက်စုစည်းမှုများကို ရှာဖွေပြီး အောက်ပါအတိုင်း အမျိုးအစားခွဲပါ -

  • ဒေတာသည် Quantitative သို့မဟုတ် Qualitative ဖြစ်ပါသလား။
  • ဒေတာသည် Structured, Unstructured သို့မဟုတ် Semi-structured ဖြစ်ပါသလား။

Post-Lecture Quiz

ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း

  • Microsoft Learn ၏ Classify your Data ဟုခေါ်သော unit သည် structured, semi-structured, နှင့် unstructured data အကြောင်းကို အသေးစိတ်ဖော်ပြထားသည်။

အိမ်စာ

Classifying Datasets


ဝက်ဘ်ဆိုက်မှတ်ချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်ကြောင်း သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသောအချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပာယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။