{ "nbformat": 4, "nbformat_minor": 2, "metadata": { "colab": { "name": "lesson_2-R.ipynb", "provenance": [], "collapsed_sections": [], "toc_visible": true }, "kernelspec": { "name": "ir", "display_name": "R" }, "language_info": { "name": "R" }, "coopTranslator": { "original_hash": "f3c335f9940cfd76528b3ef918b9b342", "translation_date": "2025-09-06T11:56:07+00:00", "source_file": "2-Regression/2-Data/solution/R/lesson_2-R.ipynb", "language_code": "my" } }, "cells": [ { "cell_type": "markdown", "source": [ "# ရှုထောင့်မော်ဒယ်တည်ဆောက်ခြင်း - ဒေတာကို ပြင်ဆင်ပြီး ရှုထောင့်ဖော်ပြခြင်း\n", "\n", "## **Linear Regression for Pumpkins - အတန်း ၂**\n", "#### မိတ်ဆက်\n", "\n", "Tidymodels နဲ့ Tidyverse ကို သုံးပြီး machine learning မော်ဒယ်တည်ဆောက်ခြင်းကို စတင်လုပ်ဆောင်ဖို့ လိုအပ်တဲ့ tools တွေကို သင်ပြင်ဆင်ပြီးသားဖြစ်တဲ့အခါ၊ သင့်ဒေတာကို အကောင်းဆုံးအသုံးချနိုင်ဖို့ အရေးကြီးတဲ့မေးခွန်းတွေကို မေးဖို့ အဆင်သင့်ဖြစ်နေပါပြီ။ ဒေတာနဲ့အလုပ်လုပ်ပြီး ML ဖြေရှင်းနည်းတွေကို အသုံးချတဲ့အခါ၊ သင့်ဒေတာရဲ့ potentials ကို အကောင်းဆုံးဖွင့်လှစ်နိုင်ဖို့ မေးခွန်းကို မှန်မှန်မေးနိုင်ဖို့ အရေးကြီးပါတယ်။\n", "\n", "ဒီအတန်းမှာ သင်လေ့လာရမယ့်အရာတွေကတော့ -\n", "\n", "- မော်ဒယ်တည်ဆောက်ဖို့ ဒေတာကို ပြင်ဆင်နည်း။\n", "\n", "- `ggplot2` ကို သုံးပြီး ဒေတာကို ရှုထောင့်ဖော်ပြနည်း။\n", "\n", "သင်လိုချင်တဲ့အဖြေကို ရရှိဖို့ မေးခွန်းက အရေးကြီးပါတယ်။ ML algorithm အမျိုးအစားကို သင်ရွေးချယ်ရမယ့်အခါ၊ အဖြေရဲ့အရည်အသွေးက သင့်ဒေတာရဲ့ သဘာဝပေါ်မူတည်ပါတယ်။\n", "\n", "ဒီအရာတွေကို လက်တွေ့လေ့ကျင့်မှုနဲ့အတူ လေ့လာကြည့်ရအောင်။\n", "\n", "
\n",
" \n",
"
\n",
"\n",
"> အမှတ်ရစေချင်တာ: pipe operator (`%>%`) က object ကို function သို့မဟုတ် call expression ထဲကို ရှေ့ဆက်ပေးပြီး logical sequence အတိုင်း လုပ်ဆောင်ပေးပါတယ်။ pipe operator ကို သင့် code မှာ \"ပြီးတော့\" လို့ ပြောနည်းနဲ့ တူတယ်လို့ စဉ်းစားနိုင်ပါတယ်။\n"
],
"metadata": {
"id": "REWcIv9yX29v"
}
},
{
"cell_type": "markdown",
"source": [
"## 2. မရှိသည့် ဒေတာများကို စစ်ဆေးပါ\n",
"\n",
"ဒေတာသိပ္ပံပညာရှင်များအနေဖြင့် အများဆုံး ကြုံရသော ပြဿနာတစ်ခုမှာ မပြီးစီးသည့် ဒေတာများ သို့မဟုတ် မရှိသည့် ဒေတာများကို ကိုင်တွယ်ရခြင်းဖြစ်သည်။ R မှာ မရှိသည့် ဒေတာများ သို့မဟုတ် မသိသေးသော အချက်အလက်များကို `NA` (Not Available) ဆိုသော အထူးတန်ဖိုးဖြင့် ကိုယ်စားပြုထားသည်။\n",
"\n",
"ဒါဆိုရင် ဒေတာဖရိမ်မှာ မရှိသည့် ဒေတာများ ပါဝင်နေသည်ကို ဘယ်လို သိနိုင်မလဲ?\n",
"
\n",
"- တိုက်ရိုက်နည်းလမ်းတစ်ခုကတော့ `anyNA` ဆိုသော base R function ကို အသုံးပြုခြင်းဖြစ်ပြီး၊ ဒါဟာ `TRUE` သို့မဟုတ် `FALSE` ဆိုသော logical objects ကို ပြန်ပေးသည်။\n"
],
"metadata": {
"id": "Zxfb3AM5YbUe"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"pumpkins %>% \n",
" anyNA()"
],
"outputs": [],
"metadata": {
"id": "G--DQutAYltj"
}
},
{
"cell_type": "markdown",
"source": [
"အိုကေ၊ ဒေတာတစ်ချို့ပျောက်နေသလိုပဲ! ဒါကစတင်ဖို့ကောင်းတဲ့နေရာတစ်ခုပါပဲ။\n",
"\n",
"- နောက်ထပ်နည်းလမ်းတစ်ခုကတော့ `is.na()` function ကိုသုံးတာဖြစ်ပြီး၊ ဒါကတစ်ခုချင်းစီသော column element တွေထဲမှာ ဘယ်ဟာတွေမရှိဘူးဆိုတာကို logical `TRUE` နဲ့ပြသပေးနိုင်ပါတယ်။\n"
],
"metadata": {
"id": "mU-7-SB6YokF"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"pumpkins %>% \n",
" is.na() %>% \n",
" head(n = 7)"
],
"outputs": [],
"metadata": {
"id": "W-DxDOR4YxSW"
}
},
{
"cell_type": "markdown",
"source": [
"အကြီးမားတဲ့ data frame တစ်ခုကို handle လုပ်ရတဲ့အခါမှာ၊ အတန်းတွေ၊ ကော်လံတွေကို တစ်ခုချင်းစီ individually ပြန်လည်သုံးသပ်ဖို့က အချိန်ကုန်ပြီး အလွန်မထိရောက်နိုင်ပါဘူး😴။\n",
"\n",
"- ပိုမိုလွယ်ကူပြီး အဓိကကျတဲ့နည်းလမ်းတစ်ခုကတော့ ကော်လံတစ်ခုချင်းစီအတွက် မရှိသေးတဲ့တန်ဖိုးတွေ (missing values) ရဲ့ စုစုပေါင်းကိုတွက်ချက်ဖို့ဖြစ်ပါတယ်:\n"
],
"metadata": {
"id": "xUWxipKYY0o7"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"pumpkins %>% \n",
" is.na() %>% \n",
" colSums()"
],
"outputs": [],
"metadata": {
"id": "ZRBWV6P9ZArL"
}
},
{
"cell_type": "markdown",
"source": [
"အရမ်းကောင်းတဲ့ package တွေ၊ function တွေကိုပေါင်းစပ်ထားတဲ့အပြင် R မှာ documentation ကလည်းအရမ်းကောင်းပါတယ်။ ဥပမာအားဖြင့် `help(colSums)` သို့မဟုတ် `?colSums` ကိုသုံးပြီး function အကြောင်းပိုမိုသိရှိနိုင်ပါတယ်။\n"
],
"metadata": {
"id": "9gv-crB6ZD1Y"
}
},
{
"cell_type": "markdown",
"source": [
"## 3. Dplyr: ဒေတာကို စီမံခန့်ခွဲရန် အဘိဓာန်\n",
"\n",
"
\n",
" \n",
"
\n"
],
"metadata": {
"id": "i5o33MQBZWWw"
}
},
{
"cell_type": "markdown",
"source": [
"#### dplyr::select()\n",
"\n",
"`select()` ဟာ `dplyr` package ထဲမှာရှိတဲ့ function တစ်ခုဖြစ်ပြီး သင့်အတွက်လိုအပ်တဲ့ column တွေကို ရွေးချယ်ထားရန် (သို့မဟုတ်) ဖယ်ရှားရန် ကူညီပေးပါတယ်။\n",
"\n",
"သင့် data frame ကို ပိုမိုလွယ်ကူစွာ အသုံးပြုနိုင်အောင် လိုအပ်တဲ့ column တွေကိုသာ ထားရှိပြီး မလိုအပ်တဲ့ column တွေကို ဖယ်ရှားရန် `select()` ကို အသုံးပြုနိုင်ပါတယ်။\n",
"\n",
"ဥပမာအားဖြင့် ဒီလေ့ကျင့်မှုမှာ ကျွန်တော်တို့ရဲ့ analysis အတွက် `Package`, `Low Price`, `High Price` နဲ့ `Date` column တွေကိုသာ အသုံးပြုမယ်။ အဲ့ဒီ column တွေကို ရွေးချယ်ကြည့်ရအောင်။\n"
],
"metadata": {
"id": "x3VGMAGBZiUr"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Select desired columns\n",
"pumpkins <- pumpkins %>% \n",
" select(Package, `Low Price`, `High Price`, Date)\n",
"\n",
"\n",
"# Print data set\n",
"pumpkins %>% \n",
" slice_head(n = 5)"
],
"outputs": [],
"metadata": {
"id": "F_FgxQnVZnM0"
}
},
{
"cell_type": "markdown",
"source": [
"#### dplyr::mutate()\n",
"\n",
"`mutate()` ဟာ `dplyr` package ထဲမှာရှိတဲ့ function တစ်ခုဖြစ်ပြီး၊ အသစ်သော column များကို ဖန်တီးရန် သို့မဟုတ် ရှိပြီးသား column များကို ပြင်ဆင်ရန် အသုံးပြုနိုင်ပါတယ်၊ အဲဒီအချိန်မှာ ရှိပြီးသား column များကိုလည်း ထိန်းသိမ်းထားနိုင်ပါတယ်။\n",
"\n",
"`mutate` ရဲ့ အခြေခံဖွဲ့စည်းပုံကတော့ -\n",
"\n",
"`data %>% mutate(new_column_name = what_it_contains)`\n",
"\n",
"အခု `mutate` ကို `Date` column ကို အသုံးပြုပြီး လေ့ကျင့်ကြည့်ရအောင်။ အောက်ပါအဆင့်များကို လုပ်ဆောင်ပါမယ် -\n",
"\n",
"1. ရက်စွဲများ (လက်ရှိမှာ character အမျိုးအစားဖြစ်နေတဲ့) ကို လ (month) ပုံစံအဖြစ် ပြောင်းလဲပါ (ဒါတွေက အမေရိကန်ရက်စွဲပုံစံဖြစ်ပြီး၊ ပုံစံက `MM/DD/YYYY` ဖြစ်ပါတယ်)။\n",
"\n",
"2. ရက်စွဲများထဲက လ (month) ကို အသစ်သော column တစ်ခုထဲမှာ ထုတ်ယူထည့်သွင်းပါ။\n",
"\n",
"R မှာ [lubridate](https://lubridate.tidyverse.org/) package က Date-time data တွေနဲ့ အလုပ်လုပ်ဖို့ ပိုမိုလွယ်ကူစေပါတယ်။ ဒါကြောင့် `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` တို့ကို အသုံးပြုပြီး အထက်ပါ ရည်မှန်းချက်များကို ပြည့်မှီအောင် လုပ်ဆောင်ကြည့်ရအောင်။ Date column ကို နောက်ထပ်လုပ်ဆောင်မှုများမှာ မလိုအပ်တော့တဲ့အတွက် ဖယ်ရှားပစ်နိုင်ပါတယ်။\n"
],
"metadata": {
"id": "2KKo0Ed9Z1VB"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Load lubridate\n",
"library(lubridate)\n",
"\n",
"pumpkins <- pumpkins %>% \n",
" # Convert the Date column to a date object\n",
" mutate(Date = mdy(Date)) %>% \n",
" # Extract month from Date\n",
" mutate(Month = month(Date)) %>% \n",
" # Drop Date column\n",
" select(-Date)\n",
"\n",
"# View the first few rows\n",
"pumpkins %>% \n",
" slice_head(n = 7)"
],
"outputs": [],
"metadata": {
"id": "5joszIVSZ6xe"
}
},
{
"cell_type": "markdown",
"source": [
"ဝူးဟူး! 🤩\n",
"\n",
"အခုတော့ `Price` ဆိုတဲ့ column အသစ်တစ်ခုဖန်တီးကြမယ်၊ ဒါဟာဖရုံသီးရဲ့ပျမ်းမျှဈေးနှုန်းကိုဖော်ပြပေးမှာဖြစ်ပါတယ်။ အခုတော့ `Low Price` နဲ့ `High Price` column တွေရဲ့ပျမ်းမျှကိုယူပြီး Price column အသစ်ကိုဖြည့်စွက်လိုက်ပါ။ \n"
],
"metadata": {
"id": "nIgLjNMCZ-6Y"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Create a new column Price\n",
"pumpkins <- pumpkins %>% \n",
" mutate(Price = (`Low Price` + `High Price`)/2)\n",
"\n",
"# View the first few rows of the data\n",
"pumpkins %>% \n",
" slice_head(n = 5)"
],
"outputs": [],
"metadata": {
"id": "Zo0BsqqtaJw2"
}
},
{
"cell_type": "markdown",
"source": [
"ဟုတ်ကဲ့!💪\n",
"\n",
"\"ဒါပေမယ့် ခဏစောင့်ပါ!\" `View(pumpkins)` နဲ့ အချက်အလက်အစုံကို လျှောက်ကြည့်ပြီးရင် သင်ပြောမယ်၊ \"ဒီမှာ တစ်ခုခု ထူးထူးဆန်းဆန်းရှိတယ်နော်!\"🤔\n",
"\n",
"`Package` ကော်လံကို ကြည့်မယ်ဆိုရင်၊ ဖရုံသီးတွေကို အမျိုးမျိုးသော ပုံစံတွေနဲ့ ရောင်းချထားတာကို တွေ့ရမယ်။ တချို့ကို `1 1/9 bushel` အတိုင်းအတာနဲ့ ရောင်းထားပြီး၊ တချို့ကို `1/2 bushel` အတိုင်းအတာနဲ့ ရောင်းထားတယ်၊ တချို့ကို ဖရုံသီးတစ်လုံးစီအလိုက်၊ တချို့ကို ပေါင်အလိုက်၊ တချို့ကိုတော့ အကျယ်အဝန်း မတူညီတဲ့ သေတ္တာကြီးတွေထဲမှာ ရောင်းထားတယ်။\n",
"\n",
"ဒါကို အတည်ပြုကြည့်ရအောင်:\n"
],
"metadata": {
"id": "p77WZr-9aQAR"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Verify the distinct observations in Package column\n",
"pumpkins %>% \n",
" distinct(Package)"
],
"outputs": [],
"metadata": {
"id": "XISGfh0IaUy6"
}
},
{
"cell_type": "markdown",
"source": [
"အံ့သြဖွယ်!👏\n",
"\n",
"ဖရုံသီးတွေကို အမြဲတမ်းတိကျစွာ အလေးချိန်တိုင်းတာဖို့ ခက်ခဲနေသလိုပဲ၊ အဲဒါကြောင့် `Package` ကော်လံထဲမှာ *bushel* စာကြောင်းပါဝင်တဲ့ ဖရုံသီးတွေကိုသာ ရွေးချယ်ပြီး၊ ဒါကို `new_pumpkins` လို့ခေါ်တဲ့ data frame အသစ်တစ်ခုထဲမှာ ထည့်ကြည့်ရအောင်။ \n",
"
\n"
],
"metadata": {
"id": "7sMjiVujaZxY"
}
},
{
"cell_type": "markdown",
"source": [
"#### dplyr::filter() နှင့် stringr::str_detect()\n",
"\n",
"[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): သင့်ရဲ့အခြေအနေများကိုဖြည့်ဆည်းတဲ့ **အတန်းများ** ကိုသာပါဝင်တဲ့ ဒေတာအစုကို ဖန်တီးပေးသည်။ ဤကိစ္စတွင် `Package` ကော်လံထဲမှာ *bushel* စာသားပါဝင်တဲ့ pumpkins များကို ရွေးချယ်ပေးသည်။\n",
"\n",
"[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): စာသားတစ်ခုထဲမှာ ပုံစံတစ်ခုရှိမရှိကို ရှာဖွေသည်။\n",
"\n",
"[`stringr`](https://github.com/tidyverse/stringr) ပက်ကေ့ချ်သည် စာသားနှင့်ဆိုင်သော လုပ်ဆောင်မှုများအတွက် ရိုးရှင်းသော function များကို ပေးသည်။\n"
],
"metadata": {
"id": "L8Qfcs92ageF"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Retain only pumpkins with \"bushel\"\n",
"new_pumpkins <- pumpkins %>% \n",
" filter(str_detect(Package, \"bushel\"))\n",
"\n",
"# Get the dimensions of the new data\n",
"dim(new_pumpkins)\n",
"\n",
"# View a few rows of the new data\n",
"new_pumpkins %>% \n",
" slice_head(n = 5)"
],
"outputs": [],
"metadata": {
"id": "hy_SGYREampd"
}
},
{
"cell_type": "markdown",
"source": [
"သင်မြင်နိုင်သည့်အတိုင်း၊ ကျွန်ုပ်တို့သည် သစ်ဖရုံသီးများကို တစ်လှည်းချင်းစီအလိုက် ၄၁၅ စာရင်းခန့်အထိ ကျဉ်းမြောင်းစွာ ရှာဖွေပြီးဖြစ်ပါသည်။🤩 \n",
"
\n"
],
"metadata": {
"id": "VrDwF031avlR"
}
},
{
"cell_type": "markdown",
"source": [
"#### dplyr::case_when()\n",
"\n",
"**ဒါပေမယ့်! တစ်ခုထပ်လုပ်ရမယ့်အရာရှိနေသေးတယ်**\n",
"\n",
"သင်သတိထားမိပါသလား၊ တစ်တန်းစီမှာ bushel အရေအတွက်က မတူညီတာကို။ သင် bushel တစ်ခုအလိုက် စျေးနှုန်းကို ပြသနိုင်ဖို့၊ 1 1/9 သို့မဟုတ် 1/2 bushel အလိုက်မဟုတ်ဘဲ စျေးနှုန်းကို သင့်တင်ဖို့လိုပါတယ်။ စံပြုဖို့ သင့်တင်တွက်ချက်မှုအချို့လုပ်ရမယ်။\n",
"\n",
"[`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) function ကို သုံးပြီး Price column ကို အခြေအနေတစ်ချို့အပေါ် မူတည်ပြီး *ပြောင်းလဲ* သွားမယ်။ `case_when` က `if_else()` statement အများအပြားကို vectorise လုပ်နိုင်စေပါတယ်။\n"
],
"metadata": {
"id": "mLpw2jH4a0tx"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Convert the price if the Package contains fractional bushel values\n",
"new_pumpkins <- new_pumpkins %>% \n",
" mutate(Price = case_when(\n",
" str_detect(Package, \"1 1/9\") ~ Price/(1 + 1/9),\n",
" str_detect(Package, \"1/2\") ~ Price/(1/2),\n",
" TRUE ~ Price))\n",
"\n",
"# View the first few rows of the data\n",
"new_pumpkins %>% \n",
" slice_head(n = 30)"
],
"outputs": [],
"metadata": {
"id": "P68kLVQmbM6I"
}
},
{
"cell_type": "markdown",
"source": [
"ယခုတွင် ကျွန်ုပ်တို့သည် တစ်ယူနစ်စီ၏ စျေးနှုန်းကို ၎င်းတို့၏ bushel အတိုင်းအတာအပေါ် အခြေခံ၍ ခွဲခြမ်းစိတ်ဖြာနိုင်ပါသည်။ သို့သော်လည်း သံပုရာ bushel များကို လေ့လာခြင်းသည် `သင့်ဒေတာ၏ သဘာဝကို နားလည်ရန်` အလွန် `အရေးကြီး` သည်ကို ပြသပေးပါသည်။\n",
"\n",
"> ✅ [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308) အဆိုအရ bushel ၏ အလေးချိန်သည် ထုတ်ကုန်အမျိုးအစားပေါ် မူတည်သည်၊ အကြောင်းမူမိ volume အတိုင်းအတာဖြစ်သည်။ \"ဥပမာအားဖြင့် ခရမ်းချဉ်သီး bushel တစ်ခုသည် ၅၆ ပေါင်အလေးချိန်ရှိရမည်... အရွက်များနှင့် အပင်များသည် နေရာများယူပြီး အလေးချိန်နည်းပါသည်၊ ထို့ကြောင့် spinach bushel တစ်ခုသည် ၂၀ ပေါင်သာရှိသည်။\" ၎င်းသည် အတော်လေး ရှုပ်ထွေးသည်! Bushel-to-pound ပြောင်းလဲမှုကို မလုပ်တော့ဘဲ bushel အတိုင်း စျေးနှုန်းထားကြစို့။ သို့သော်လည်း သံပုရာ bushel များကို လေ့လာခြင်းသည် သင့်ဒေတာ၏ သဘာဝကို နားလည်ရန် အလွန်အရေးကြီးသည်ကို ပြသပေးပါသည်။\n",
">\n",
"> ✅ သင်သတိထားမိပါသလား၊ တစ်ဝက် bushel ဖြင့် ရောင်းချသော သံပုရာများသည် အလွန်စျေးကြီးသည်။ အဘယ်ကြောင့်ဆိုသည်ကို သင်ရှာဖွေနိုင်ပါသလား။ အကြံပြုချက် - သေးငယ်သော သံပုရာများသည် ကြီးမားသော သံပုရာများထက် စျေးကြီးသည်၊ အဓိကအားဖြင့် bushel တစ်ခုတွင် သံပုရာသေးများ အများကြီးပါဝင်နိုင်သည့်အတွက်၊ ကြီးမားသော hollow pie သံပုရာတစ်ခုကြောင့် အသုံးမကျသော နေရာများယူထားသည်။\n"
],
"metadata": {
"id": "pS2GNPagbSdb"
}
},
{
"cell_type": "markdown",
"source": [
"ယခုနောက်ဆုံးအနေနဲ့၊ စိတ်လှုပ်ရှားစရာအတွက် 💁♀️၊ Month ကော်လံကို Package ကော်လံမတိုင်မီ `ပထမ` အနေအထားသို့ ရွှေ့လိုက်ကြစို့။\n",
"\n",
"ကော်လံအနေအထားများကို ပြောင်းလဲရန် `dplyr::relocate()` ကို အသုံးပြုနိုင်ပါတယ်။\n"
],
"metadata": {
"id": "qql1SowfbdnP"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Create a new data frame new_pumpkins\n",
"new_pumpkins <- new_pumpkins %>% \n",
" relocate(Month, .before = Package)\n",
"\n",
"new_pumpkins %>% \n",
" slice_head(n = 7)"
],
"outputs": [],
"metadata": {
"id": "JJ1x6kw8bixF"
}
},
{
"cell_type": "markdown",
"source": [
"အလုပ်ကောင်းပါတယ်!👌 အခုတော့ သင့်မှာ သန့်ရှင်းပြီး တစ်ပြင်လုံးကျေတဲ့ ဒေတာစနစ်ရှိပြီး၊ သင့်ရဲ့ အသစ်သော regression မော်ဒယ်ကို တည်ဆောက်နိုင်ပါပြီ!\n"
],
"metadata": {
"id": "y8TJ0Za_bn5Y"
}
},
{
"cell_type": "markdown",
"source": [
"## 4. ggplot2 ဖြင့် ဒေတာကို ရှင်းလင်းဖော်ပြခြင်း\n",
"\n",
"
\n",
" \n",
"
\n"
],
"metadata": {
"id": "Ml7SDCLQcPvE"
}
},
{
"cell_type": "markdown",
"source": [
"### **ဘယ်လိုအသုံးဝင်အောင်လုပ်မလဲ?**\n",
"\n",
"အချက်အလက်တွေကို အသုံးဝင်တဲ့အချက်အလက်အဖြစ် ပြသနိုင်ဖို့အတွက် အချက်အလက်တွေကို တစ်နည်းနည်းနဲ့ အုပ်စုဖွဲ့ဖို့လိုပါတယ်။ ဥပမာအားဖြင့် ကျွန်တော်တို့ရဲ့ အချက်အလက်မှာ တစ်လစီအတွက် ဖရုံသီးရဲ့ ပျမ်းမျှဈေးနှုန်းကို ရှာဖွေမယ်ဆိုရင် အချက်အလက်ရဲ့ အခြေခံပုံစံတွေကို ပိုမိုနားလည်နိုင်စေမှာဖြစ်ပါတယ်။ ဒီအရာက **dplyr** ရဲ့ အခြေခံအချက်တစ်ခုဆီကို ဦးတည်စေပါတယ်။\n",
"\n",
"#### `dplyr::group_by() %>% summarize()`\n",
"\n",
"R မှာ အုပ်စုဖွဲ့ပြီး စုစုပေါင်းတွက်ချက်မှုတွေကို လွယ်ကူစွာတွက်ချက်နိုင်ပါတယ်။\n",
"\n",
"`dplyr::group_by() %>% summarize()`\n",
"\n",
"- `dplyr::group_by()` က အချက်အလက်ရဲ့ အနုပညာအထောက်အထားကို အပြည့်အစုံ dataset ကနေ တစ်ခုချင်းစီအုပ်စု (ဥပမာ - တစ်လစီ) အဖြစ် ပြောင်းလဲပေးပါတယ်။\n",
"\n",
"- `dplyr::summarize()` က သင့်ရဲ့ အုပ်စုဖွဲ့မူအပြောင်းအလဲအတွက် တစ်ခုချင်းစီအတွက် အချက်အလက်တစ်ခုနှင့် သင်ဖော်ပြလိုတဲ့ စုစုပေါင်းတွက်ချက်မှုအချက်အလက်တစ်ခုကို အသစ်တစ်ခု data frame အဖြစ် ဖန်တီးပေးပါတယ်။\n",
"\n",
"ဥပမာအားဖြင့် `dplyr::group_by() %>% summarize()` ကို အသုံးပြုပြီး **Month** ကော်လံအပေါ် အခြေခံပြီး ဖရုံသီးတွေကို အုပ်စုဖွဲ့ပြီး **mean price** ကို တစ်လစီအတွက် ရှာဖွေနိုင်ပါတယ်။\n"
],
"metadata": {
"id": "jMakvJZIcVkh"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Find the average price of pumpkins per month\r\n",
"new_pumpkins %>%\r\n",
" group_by(Month) %>% \r\n",
" summarise(mean_price = mean(Price))"
],
"outputs": [],
"metadata": {
"id": "6kVSUa2Bcilf"
}
},
{
"cell_type": "markdown",
"source": [
"တိုတောင်းပြီး ရှင်းလင်းပါ!✨\n",
"\n",
"လများလိုမျိုး အမျိုးအစားအလိုက် အချက်အလက်များကို ဘားပုံစံဖြင့် ဖော်ပြခြင်းက ပိုမိုသင့်တော်ပါသည် 📊။ ဘားချတ်များဖော်ဆောင်ရန် `geom_bar()` နှင့် `geom_col()` ဟာ အရေးပါသော အလွှာများဖြစ်ပါတယ်။ `?geom_bar` ကို ကြည့်ပြီး အသေးစိတ်ကို သိရှိနိုင်ပါတယ်။\n",
"\n",
"အခုတစ်ခါ လုပ်ကြည့်ရအောင်!\n"
],
"metadata": {
"id": "Kds48GUBcj3W"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Find the average price of pumpkins per month then plot a bar chart\r\n",
"new_pumpkins %>%\r\n",
" group_by(Month) %>% \r\n",
" summarise(mean_price = mean(Price)) %>% \r\n",
" ggplot(aes(x = Month, y = mean_price)) +\r\n",
" geom_col(fill = \"midnightblue\", alpha = 0.7) +\r\n",
" ylab(\"Pumpkin Price\")"
],
"outputs": [],
"metadata": {
"id": "VNbU1S3BcrxO"
}
},
{
"cell_type": "markdown",
"source": [
"🤩🤩 ဒါက ပိုပြီး အသုံးဝင်တဲ့ ဒေတာမြင်ကွင်းဖော်ပြမှုပါ! ဒီအချက်အလက်က ဖော်ပြနေသလို သကြားဖရုံရဲ့ အမြင့်ဆုံးစျေးနှုန်းက စက်တင်ဘာနဲ့ အောက်တိုဘာလတွေမှာ ဖြစ်တတ်ပါတယ်။ ဒါဟာ သင့်မျှော်မှန်းချက်နဲ့ ကိုက်ညီပါသလား? ဘာကြောင့် ကိုက်ညီသလဲ၊ ဘာကြောင့် မကိုက်ညီသလဲ?\n",
"\n",
"ဒုတိယသင်ခန်းစာကို ပြီးမြောက်အောင် လုပ်ဆောင်နိုင်ခဲ့တဲ့အတွက် ဂုဏ်ယူပါတယ် 👏! သင့်ဒေတာကို မော်ဒယ်တည်ဆောက်ဖို့ ပြင်ဆင်ပြီး၊ မြင်ကွင်းဖော်ပြမှုတွေကို အသုံးပြုပြီး ထပ်မံသော အချက်အလက်တွေကို ရှာဖွေတွေ့ရှိနိုင်ခဲ့ပါတယ်!\n"
],
"metadata": {
"id": "zDm0VOzzcuzR"
}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ဝက်ဘ်ဆိုက်မှတ်ချက်**: \nဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပြန်ဆိုမှုကို အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။\n"
]
}
]
}