15 KiB
ဒေတာကို သတ်မှတ်ခြင်း
![]() |
---|
ဒေတာကို သတ်မှတ်ခြင်း - Sketchnote by @nitya |
ဒေတာဆိုတာ အချက်အလက်များ၊ သတင်းအချက်အလက်များ၊ ကြည့်ရှုချက်များနှင့် တိုင်းတာချက်များဖြစ်ပြီး ရှာဖွေတွေ့ရှိမှုများနှင့် သတိပြုထားသော ဆုံးဖြတ်ချက်များကို ပံ့ပိုးရန် အသုံးပြုသည်။ ဒေတာအချက်အလက်တစ်ခုသည် ဒေတာအချက်အလက်စုစည်းမှုတစ်ခုအတွင်းရှိ ဒေတာ၏ တစ်ခုတည်းသောယူနစ်ဖြစ်ပြီး ဒေတာအချက်အလက်များ၏ စုစည်းမှုတစ်ခုဖြစ်သည်။ ဒေတာအချက်အလက်စုစည်းမှုများသည် အမျိုးအစားနှင့် ဖွဲ့စည်းပုံများကွဲပြားနိုင်ပြီး ဒေတာရရှိသော အရင်းအမြစ်ပေါ်မူတည်၍ ဖြစ်လေ့ရှိသည်။ ဥပမာအားဖြင့် ကုမ္ပဏီ၏ လစဉ်ဝင်ငွေများသည် စာရင်းဇယားတွင်ရှိနိုင်သော်လည်း smartwatch မှ နာရီနှုန်းနှင့် နှလုံးခုန်နှုန်းဒေတာသည် JSON ဖော်မတ်တွင်ရှိနိုင်သည်။ ဒေတာသိပ္ပံပညာရှင်များသည် ဒေတာအမျိုးအစားများစွာနှင့် အလုပ်လုပ်လေ့ရှိသည်။
ဒီသင်ခန်းစာမှာ ဒေတာ၏ လက္ခဏာများနှင့် အရင်းအမြစ်များအပေါ်မူတည်၍ ဒေတာကို သတ်မှတ်ခြင်းနှင့် အမျိုးအစားခွဲခြင်းကို အဓိကထားသည်။
Pre-Lecture Quiz
ဒေတာကို ဘယ်လို ဖော်ပြထားသလဲ
Raw Data
Raw data ဆိုတာ ဒေတာရရှိသော အရင်းအမြစ်မှ မူလအခြေအနေတွင်ရှိပြီး မသုံးသပ်ထားသော ဒေတာဖြစ်သည်။ ဒေတာအချက်အလက်စုစည်းမှုတစ်ခုတွင် ဖြစ်နေသောအရာကို နားလည်နိုင်ရန် လူသားများနှင့် နောက်ထပ်သုံးသပ်ရန် အသုံးပြုနိုင်သော နည်းပညာများအတွက် နားလည်နိုင်သော ဖော်မတ်တစ်ခုအဖြစ် စီစဉ်ရန် လိုအပ်သည်။ ဒေတာအချက်အလက်စုစည်းမှု၏ ဖွဲ့စည်းပုံသည် ဒေတာကို ဘယ်လို စီစဉ်ထားသည်ကို ဖော်ပြပြီး structured, unstructured နှင့် semi-structured အဖြစ် အမျိုးအစားခွဲနိုင်သည်။ ဒီအမျိုးအစားများသည် အရင်းအမြစ်ပေါ်မူတည်၍ ကွဲပြားနိုင်သော်လည်း အဓိကအားဖြင့် ဒီသုံးမျိုးအတွင်းသို့ အဆင့်သတ်မှတ်နိုင်သည်။
Quantitative Data
Quantitative data ဆိုတာ ဒေတာအချက်အလက်စုစည်းမှုတစ်ခုအတွင်းရှိ ကိန်းဂဏန်းဆိုင်ရာ ကြည့်ရှုချက်များဖြစ်ပြီး သုံးသပ်နိုင်သည်၊ တိုင်းတာနိုင်သည်၊ သို့မဟုတ် သင်္ချာဆိုင်ရာအနေနှင့် အသုံးပြုနိုင်သည်။ Quantitative data ၏ ဥပမာများမှာ - တစ်နိုင်ငံ၏ လူဦးရေ၊ တစ်ဦး၏ အရပ်အမြင့်၊ သို့မဟုတ် ကုမ္ပဏီ၏ သုံးလပတ်ဝင်ငွေများဖြစ်သည်။ နောက်ထပ်သုံးသပ်မှုများဖြင့် Quantitative data ကို Air Quality Index (AQI) ၏ ရာသီဥတုဆိုင်ရာ လမ်းကြောင်းများကို ရှာဖွေခြင်း သို့မဟုတ် အလုပ်လုပ်ရက်များတွင် Rush Hour Traffic ဖြစ်နိုင်ခြေကို ခန့်မှန်းခြင်းအတွက် အသုံးပြုနိုင်သည်။
Qualitative Data
Qualitative data (categorical data ဟုလည်းခေါ်သည်) ဆိုတာ Quantitative data ကဲ့သို့ တိုင်းတာနိုင်သော ဒေတာမဟုတ်ဘဲ အရည်အသွေးဆိုင်ရာကို ဖမ်းယူထားသော ဒေတာဖြစ်သည်။ Qualitative data သည် အမျိုးမျိုးသော subjective data ဖော်မတ်များဖြစ်ပြီး အရာဝတ္ထု သို့မဟုတ် လုပ်ငန်းစဉ်၏ အရည်အသွေးကို ဖော်ပြသည်။ တစ်ခါတစ်ရံ Qualitative data သည် ကိန်းဂဏန်းဖြစ်နိုင်သော်လည်း သင်္ချာဆိုင်ရာအနေနှင့် မသုံးလေ့ရှိပါ။ ဥပမာအားဖြင့် ဖုန်းနံပါတ်များ သို့မဟုတ် အချိန်မှတ်တိုင်များ။ Qualitative data ၏ ဥပမာများမှာ - ဗီဒီယိုမှတ်ချက်များ၊ ကား၏ အမျိုးအစားနှင့် မော်ဒယ်၊ သို့မဟုတ် သင့်အနီးဆုံးသူငယ်ချင်းများ၏ အကြိုက်ဆုံးအရောင်များဖြစ်သည်။ Qualitative data ကို စားသုံးသူများအကြိုက်ဆုံးထုတ်ကုန်များကို နားလည်ရန် သို့မဟုတ် အလုပ်လျှောက်လွှာများတွင် လူကြိုက်များသော keyword များကို ရှာဖွေရန် အသုံးပြုနိုင်သည်။
Structured Data
Structured data ဆိုတာ အတန်းနှင့် ကော်လံများအဖြစ် စီစဉ်ထားသော ဒေတာဖြစ်ပြီး အတန်းတစ်ခုစီတွင် အတန်းတစ်ခုစီ၏ ကော်လံများတူညီသည်။ ကော်လံများသည် တစ်ခုတည်းသော အမျိုးအစားတန်ဖိုးကို ကိုယ်စားပြုပြီး အတန်းတန်ဖိုးကို ဖော်ပြသော နာမည်ဖြင့် ဖော်ပြထားသည်။ Structured data ၏ အကျိုးကျေးဇူးမှာ ဒေတာကို အခြား structured data နှင့် ဆက်စပ်စီစဉ်နိုင်သည်။ သို့သော် ဒေတာကို အတိအကျစီစဉ်ထားသောကြောင့် ဖွဲ့စည်းပုံကို ပြောင်းလဲရန် အချိန်နှင့် အင်အားများလိုအပ်သည်။
ဥပမာများ - စာရင်းဇယားများ၊ relational databases၊ ဖုန်းနံပါတ်များ၊ ဘဏ်စာရင်းများ
Unstructured Data
Unstructured data သည် အတန်းနှင့် ကော်လံများအဖြစ် စီစဉ်ထားနိုင်သော ဒေတာမဟုတ်ဘဲ ဖော်မတ် သို့မဟုတ် စည်းမျဉ်းများမပါသော ဒေတာဖြစ်သည်။ Unstructured data ၏ အကျိုးကျေးဇူးမှာ ဒေတာကို ပိုမိုလွယ်ကူစွာ ထည့်သွင်းနိုင်သည်။ သို့သော် ဒေတာကို သုံးသပ်ရန် ပိုမိုအချိန်ယူနိုင်သည်။
ဥပမာများ - စာသားဖိုင်များ၊ စာသားမက်ဆေ့များ၊ ဗီဒီယိုဖိုင်များ
Semi-structured
Semi-structured data သည် structured နှင့် unstructured data ၏ အရည်အသွေးများပေါင်းစပ်ထားသော ဒေတာဖြစ်သည်။ ဒေတာကို စီစဉ်ထားသော ဖွဲ့စည်းပုံရှိသော်လည်း အတန်းနှင့် ကော်လံများအဖြစ် မသတ်မှတ်ထားပါ။ Metadata သည် ဒေတာကို ဘယ်လို စီစဉ်ထားသည်ကို ဆုံးဖြတ်ရန် အညွှန်းများဖြစ်ပြီး tags, elements, entities, attributes စသည်ဖြင့် ခေါ်နိုင်သည်။
ဥပမာများ - HTML, CSV ဖိုင်များ, JavaScript Object Notation (JSON)
ဒေတာရင်းမြစ်များ
ဒေတာရင်းမြစ်ဆိုတာ ဒေတာကို စတင်ဖန်တီးသောနေရာ သို့မဟုတ် "နေထိုင်ရာ" ဖြစ်ပြီး ဒေတာကို ဘယ်လိုနှင့် ဘယ်အချိန်တွင် စုဆောင်းခဲ့သည်ပေါ်မူတည်၍ ကွဲပြားနိုင်သည်။ အသုံးပြုသူများမှ ဖန်တီးသော ဒေတာကို primary data ဟုခေါ်ပြီး အခြားသူများကို မျှဝေသော ဒေတာကို secondary data ဟုခေါ်သည်။
ဥပမာ - database, ဖိုင်များ, အင်တာနက်ရင်းမြစ်များ, APIs, web scraping
နိဂုံး
ဒီသင်ခန်းစာမှာ ကျွန်ုပ်တို့ သင်ယူခဲ့သည် -
- ဒေတာဆိုတာ ဘာလဲ
- ဒေတာကို ဘယ်လို ဖော်ပြထားသလဲ
- ဒေတာကို ဘယ်လို အမျိုးအစားခွဲထားသလဲ
- ဒေတာကို ဘယ်နေရာမှာ ရှာဖွေနိုင်သလဲ
🚀 စိန်ခေါ်မှု
Kaggle သည် ဖွင့်လွှင့်ထားသော ဒေတာအချက်အလက်စုစည်းမှုများရရှိနိုင်သော အရင်းအမြစ်ကောင်းတစ်ခုဖြစ်သည်။ dataset search tool ကို အသုံးပြု၍ စိတ်ဝင်စားဖွယ် ဒေတာအချက်အလက်စုစည်းမှုများကို ရှာဖွေပြီး အောက်ပါအတိုင်း အမျိုးအစားခွဲပါ -
- ဒေတာသည် Quantitative သို့မဟုတ် Qualitative ဖြစ်ပါသလား။
- ဒေတာသည် Structured, Unstructured သို့မဟုတ် Semi-structured ဖြစ်ပါသလား။
Post-Lecture Quiz
ပြန်လည်သုံးသပ်ခြင်းနှင့် ကိုယ်တိုင်လေ့လာခြင်း
- Microsoft Learn ၏ Classify your Data ဟုခေါ်သော unit သည် structured, semi-structured, နှင့် unstructured data အကြောင်းကို အသေးစိတ်ဖော်ပြထားသည်။
အိမ်စာ
ဝက်ဘ်ဆိုက်မှတ်ချက်:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု Co-op Translator ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်ကြောင်း သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသောအချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပာယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။