{
 "nbformat": 4,
 "nbformat_minor": 2,
 "metadata": {
  "colab": {
   "name": "lesson_2-R.ipynb",
   "provenance": [],
   "collapsed_sections": [],
   "toc_visible": true
  },
  "kernelspec": {
   "name": "ir",
   "display_name": "R"
  },
  "language_info": {
   "name": "R"
  },
  "coopTranslator": {
   "original_hash": "f3c335f9940cfd76528b3ef918b9b342",
   "translation_date": "2025-08-29T23:12:22+00:00",
   "source_file": "2-Regression/2-Data/solution/R/lesson_2-R.ipynb",
   "language_code": "bn"
  }
 },
 "cells": [
  {
   "cell_type": "markdown",
   "source": [
    "# একটি রিগ্রেশন মডেল তৈরি করুন: ডেটা প্রস্তুত এবং ভিজ্যুয়ালাইজ করুন\n",
    "\n",
    "## **কুমড়ার জন্য লিনিয়ার রিগ্রেশন - পাঠ ২**\n",
    "#### ভূমিকা\n",
    "\n",
    "এখন যেহেতু আপনি Tidymodels এবং Tidyverse ব্যবহার করে মেশিন লার্নিং মডেল তৈরির জন্য প্রয়োজনীয় সরঞ্জামগুলি সেটআপ করেছেন, আপনি আপনার ডেটা থেকে প্রশ্ন করতে প্রস্তুত। ডেটার সাথে কাজ করার সময় এবং মেশিন লার্নিং সমাধান প্রয়োগ করার সময়, সঠিক প্রশ্ন করা অত্যন্ত গুরুত্বপূর্ণ যাতে আপনার ডেটাসেটের সম্ভাবনাগুলি সঠিকভাবে উন্মোচিত হয়।\n",
    "\n",
    "এই পাঠে আপনি শিখবেন:\n",
    "\n",
    "-   কীভাবে আপনার ডেটা মডেল তৈরির জন্য প্রস্তুত করবেন।\n",
    "\n",
    "-   কীভাবে `ggplot2` ব্যবহার করে ডেটা ভিজ্যুয়ালাইজ করবেন।\n",
    "\n",
    "আপনার উত্তর খুঁজে পাওয়ার জন্য যে প্রশ্নটি করা হবে তা নির্ধারণ করবে আপনি কোন ধরনের মেশিন লার্নিং অ্যালগরিদম ব্যবহার করবেন। এবং আপনি যে উত্তরটি ফিরে পাবেন তার গুণমান অনেকাংশে আপনার ডেটার প্রকৃতির উপর নির্ভর করবে।\n",
    "\n",
    "চলুন একটি বাস্তব অনুশীলনের মাধ্যমে এটি দেখি।\n",
    "\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/unruly_data.jpg\"\n",
    "   width=\"700\"/>\n",
    "   <figcaption>চিত্রকর্ম: @allison_horst</figcaption>\n",
    "\n",
    "\n",
    "<!--![চিত্রকর্ম: \\@allison_horst](../../../../../../translated_images/unruly_data.0eedc7ced92d2d919cf5ea197bfe0fe9a30780c4bf7cdcf14ff4e9dc5a4c7267.bn.jpg)<br>চিত্রকর্ম: \\@allison_horst-->\n"
   ],
   "metadata": {
    "id": "Pg5aexcOPqAZ"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## ১. কুমড়ার ডেটা আমদানি এবং Tidyverse ব্যবহার\n",
    "\n",
    "এই পাঠটি বিশ্লেষণ এবং সাজানোর জন্য আমাদের নিম্নলিখিত প্যাকেজগুলো প্রয়োজন হবে:\n",
    "\n",
    "-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) হলো একটি [R প্যাকেজের সংগ্রহ](https://www.tidyverse.org/packages), যা ডেটা সায়েন্সকে দ্রুত, সহজ এবং আরও মজাদার করে তোলে!\n",
    "\n",
    "আপনি এটি নিম্নলিখিতভাবে ইনস্টল করতে পারেন:\n",
    "\n",
    "`install.packages(c(\"tidyverse\"))`\n",
    "\n",
    "নিচের স্ক্রিপ্টটি পরীক্ষা করে দেখবে যে আপনার এই মডিউল সম্পন্ন করার জন্য প্রয়োজনীয় প্যাকেজগুলো আছে কিনা এবং যদি কিছু অনুপস্থিত থাকে তবে সেগুলো ইনস্টল করে দেবে।\n"
   ],
   "metadata": {
    "id": "dc5WhyVdXAjR"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "suppressWarnings(if(!require(\"pacman\")) install.packages(\"pacman\"))\n",
    "pacman::p_load(tidyverse)"
   ],
   "outputs": [],
   "metadata": {
    "id": "GqPYUZgfXOBt"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "এখন, চলুন কিছু প্যাকেজ চালু করি এবং এই পাঠের জন্য প্রদত্ত [ডেটা](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) লোড করি!\n"
   ],
   "metadata": {
    "id": "kvjDTPDSXRr2"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Load the core Tidyverse packages\n",
    "library(tidyverse)\n",
    "\n",
    "# Import the pumpkins data\n",
    "pumpkins <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv\")\n",
    "\n",
    "\n",
    "# Get a glimpse and dimensions of the data\n",
    "glimpse(pumpkins)\n",
    "\n",
    "\n",
    "# Print the first 50 rows of the data set\n",
    "pumpkins %>% \n",
    "  slice_head(n =50)"
   ],
   "outputs": [],
   "metadata": {
    "id": "VMri-t2zXqgD"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "একটি দ্রুত `glimpse()` দেখায় যে ডেটাসেটে ফাঁকা জায়গা রয়েছে এবং স্ট্রিং (`chr`) এবং সংখ্যাসূচক ডেটা (`dbl`) এর মিশ্রণ রয়েছে। `Date` চরিত্র টাইপের এবং একটি অদ্ভুত কলাম রয়েছে যার নাম `Package`, যেখানে ডেটা `sacks`, `bins` এবং অন্যান্য মানগুলির মিশ্রণ। আসলে, ডেটাটি একটু বিশৃঙ্খল 😤।\n",
    "\n",
    "প্রকৃতপক্ষে, এমন একটি ডেটাসেট পাওয়া খুবই বিরল যা সম্পূর্ণ প্রস্তুত অবস্থায় থাকে এবং সরাসরি একটি ML মডেল তৈরির জন্য ব্যবহার করা যায়। তবে চিন্তা করবেন না, এই পাঠে আপনি শিখবেন কীভাবে একটি কাঁচা ডেটাসেট প্রস্তুত করতে হয় স্ট্যান্ডার্ড R লাইব্রেরি ব্যবহার করে 🧑‍🔧। এছাড়াও, আপনি ডেটা ভিজ্যুয়ালাইজ করার বিভিন্ন কৌশল শিখবেন।📈📊\n",
    "<br>\n",
    "\n",
    "> একটি পুনঃস্মরণ: পাইপ অপারেটর (`%>%`) লজিক্যাল ক্রমে অপারেশন সম্পাদন করে একটি অবজেক্টকে একটি ফাংশন বা কল এক্সপ্রেশনে এগিয়ে পাঠিয়ে। আপনি পাইপ অপারেটরকে আপনার কোডে \"এবং তারপর\" বলার মতো ভাবতে পারেন।\n"
   ],
   "metadata": {
    "id": "REWcIv9yX29v"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## ২. অনুপস্থিত ডেটা পরীক্ষা করুন\n",
    "\n",
    "ডেটা বিজ্ঞানীদের জন্য সবচেয়ে সাধারণ সমস্যাগুলোর একটি হলো অসম্পূর্ণ বা অনুপস্থিত ডেটা নিয়ে কাজ করা। R-এ অনুপস্থিত বা অজানা মানগুলোকে একটি বিশেষ সংকেত মান দিয়ে প্রকাশ করা হয়: `NA` (Not Available)।\n",
    "\n",
    "তাহলে আমরা কীভাবে জানব যে ডেটা ফ্রেমে অনুপস্থিত মান রয়েছে?  \n",
    "<br>\n",
    "-   একটি সরল উপায় হলো বেস R ফাংশন `anyNA` ব্যবহার করা, যা যৌক্তিক মান `TRUE` বা `FALSE` প্রদান করে।\n"
   ],
   "metadata": {
    "id": "Zxfb3AM5YbUe"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "pumpkins %>% \n",
    "  anyNA()"
   ],
   "outputs": [],
   "metadata": {
    "id": "G--DQutAYltj"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "দারুণ, মনে হচ্ছে কিছু ডেটা অনুপস্থিত! এটি শুরু করার জন্য একটি ভালো জায়গা।\n",
    "\n",
    "-   আরেকটি উপায় হতে পারে `is.na()` ফাংশন ব্যবহার করা, যা একটি লজিক্যাল `TRUE` দিয়ে দেখায় কোন কোন কলামের উপাদান অনুপস্থিত।\n"
   ],
   "metadata": {
    "id": "mU-7-SB6YokF"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "pumpkins %>% \n",
    "  is.na() %>% \n",
    "  head(n = 7)"
   ],
   "outputs": [],
   "metadata": {
    "id": "W-DxDOR4YxSW"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ঠিক আছে, কাজটি সম্পন্ন হয়েছে, তবে এমন একটি বড় ডেটা ফ্রেমের ক্ষেত্রে প্রতিটি সারি এবং কলাম আলাদাভাবে পর্যালোচনা করা অকার্যকর এবং বাস্তবিকভাবে অসম্ভব হবে😴।\n",
    "\n",
    "-   একটি আরও সহজবোধ্য পদ্ধতি হতে পারে প্রতিটি কলামের জন্য অনুপস্থিত মানগুলোর যোগফল গণনা করা:\n"
   ],
   "metadata": {
    "id": "xUWxipKYY0o7"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "pumpkins %>% \n",
    "  is.na() %>% \n",
    "  colSums()"
   ],
   "outputs": [],
   "metadata": {
    "id": "ZRBWV6P9ZArL"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "অনেক ভালো! কিছু ডেটা অনুপস্থিত, তবে সম্ভবত এটি বর্তমান কাজের জন্য তেমন গুরুত্বপূর্ণ নয়। চলুন দেখি আরও বিশ্লেষণ কী নিয়ে আসে।\n",
    "\n",
    "> অসাধারণ প্যাকেজ এবং ফাংশনের সেটগুলোর পাশাপাশি, R-এ খুব ভালো ডকুমেন্টেশন রয়েছে। উদাহরণস্বরূপ, `help(colSums)` বা `?colSums` ব্যবহার করে ফাংশন সম্পর্কে আরও জানতে পারেন।\n"
   ],
   "metadata": {
    "id": "9gv-crB6ZD1Y"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## 3. Dplyr: ডেটা ম্যানিপুলেশনের একটি ব্যাকরণ\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/dplyr_wrangling.png\"\n",
    "   width=\"569\"/>\n",
    "   <figcaption>চিত্রকর্ম: @allison_horst</figcaption>\n",
    "\n",
    "\n",
    "<!--![চিত্রকর্ম: \\@allison_horst](../../../../../../translated_images/dplyr_wrangling.f5f99c64fd4580f1377fee3ea428b6f8fd073845ec0f8409d483cfe148f0984e.bn.png)<br/>চিত্রকর্ম: \\@allison_horst-->\n"
   ],
   "metadata": {
    "id": "o4jLY5-VZO2C"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "[`dplyr`](https://dplyr.tidyverse.org/), যা Tidyverse-এর একটি প্যাকেজ, এটি ডেটা ম্যানিপুলেশনের একটি ব্যাকরণ যা একটি সঙ্গতিপূর্ণ ক্রিয়াপদের সেট সরবরাহ করে যা আপনাকে সবচেয়ে সাধারণ ডেটা ম্যানিপুলেশনের চ্যালেঞ্জগুলি সমাধান করতে সহায়তা করে। এই অংশে, আমরা dplyr-এর কিছু ক্রিয়াপদ অন্বেষণ করব!  \n",
    "<br>\n"
   ],
   "metadata": {
    "id": "i5o33MQBZWWw"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "#### dplyr::select()\n",
    "\n",
    "`select()` হলো `dplyr` প্যাকেজের একটি ফাংশন যা আপনাকে নির্দিষ্ট কলামগুলো বাছাই করতে বা বাদ দিতে সাহায্য করে।\n",
    "\n",
    "আপনার ডেটা ফ্রেমকে আরও সহজে ব্যবহারের উপযোগী করতে, `select()` ব্যবহার করে প্রয়োজনীয় কলামগুলো রেখে বাকিগুলো বাদ দিন।\n",
    "\n",
    "উদাহরণস্বরূপ, এই অনুশীলনে আমাদের বিশ্লেষণে `Package`, `Low Price`, `High Price` এবং `Date` কলামগুলো অন্তর্ভুক্ত থাকবে। চলুন এই কলামগুলো বাছাই করি।\n"
   ],
   "metadata": {
    "id": "x3VGMAGBZiUr"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Select desired columns\n",
    "pumpkins <- pumpkins %>% \n",
    "  select(Package, `Low Price`, `High Price`, Date)\n",
    "\n",
    "\n",
    "# Print data set\n",
    "pumpkins %>% \n",
    "  slice_head(n = 5)"
   ],
   "outputs": [],
   "metadata": {
    "id": "F_FgxQnVZnM0"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "#### dplyr::mutate()\n",
    "\n",
    "`mutate()` হল `dplyr` প্যাকেজের একটি ফাংশন, যা আপনাকে নতুন কলাম তৈরি করতে বা বিদ্যমান কলাম পরিবর্তন করতে সাহায্য করে, এবং একই সাথে আগের কলামগুলো অক্ষত রাখে।\n",
    "\n",
    "`mutate`-এর সাধারণ কাঠামো হলো:\n",
    "\n",
    "`data %>%   mutate(new_column_name = what_it_contains)`\n",
    "\n",
    "চলুন, `Date` কলাম ব্যবহার করে `mutate`-এর কার্যকারিতা পরীক্ষা করি এবং নিচের কাজগুলো সম্পন্ন করি:\n",
    "\n",
    "1. তারিখগুলো (যা বর্তমানে character টাইপে আছে) মাসের ফরম্যাটে রূপান্তর করি (এগুলো US তারিখ, তাই ফরম্যাট হলো `MM/DD/YYYY`)।\n",
    "\n",
    "2. তারিখ থেকে মাস বের করে একটি নতুন কলামে সংরক্ষণ করি।\n",
    "\n",
    "R-এ, [lubridate](https://lubridate.tidyverse.org/) প্যাকেজটি Date-time ডেটা নিয়ে কাজ করা সহজ করে তোলে। সুতরাং, চলুন `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` ব্যবহার করে উপরের লক্ষ্যগুলো অর্জন করি। যেহেতু পরবর্তী কাজগুলোতে Date কলাম আর প্রয়োজন হবে না, তাই আমরা এটি বাদ দিতে পারি।\n"
   ],
   "metadata": {
    "id": "2KKo0Ed9Z1VB"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Load lubridate\n",
    "library(lubridate)\n",
    "\n",
    "pumpkins <- pumpkins %>% \n",
    "  # Convert the Date column to a date object\n",
    "  mutate(Date = mdy(Date)) %>% \n",
    "  # Extract month from Date\n",
    "  mutate(Month = month(Date)) %>% \n",
    "  # Drop Date column\n",
    "  select(-Date)\n",
    "\n",
    "# View the first few rows\n",
    "pumpkins %>% \n",
    "  slice_head(n = 7)"
   ],
   "outputs": [],
   "metadata": {
    "id": "5joszIVSZ6xe"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "উফফ! 🤩\n",
    "\n",
    "এবার, চলুন একটি নতুন কলাম `Price` তৈরি করি, যা একটি কুমড়ার গড় মূল্যকে উপস্থাপন করে। এখন, `Low Price` এবং `High Price` কলামের গড় নিয়ে নতুন Price কলামটি পূরণ করি।  \n"
   ],
   "metadata": {
    "id": "nIgLjNMCZ-6Y"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Create a new column Price\n",
    "pumpkins <- pumpkins %>% \n",
    "  mutate(Price = (`Low Price` + `High Price`)/2)\n",
    "\n",
    "# View the first few rows of the data\n",
    "pumpkins %>% \n",
    "  slice_head(n = 5)"
   ],
   "outputs": [],
   "metadata": {
    "id": "Zo0BsqqtaJw2"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "হ্যাঁ!💪\n",
    "\n",
    "\"কিন্তু থামো!\", তুমি বলবে পুরো ডেটা সেটটি `View(pumpkins)` দিয়ে স্কিম করার পর, \"এখানে কিছু অদ্ভুত ব্যাপার আছে!\"🤔\n",
    "\n",
    "যদি তুমি `Package` কলামটি দেখো, তাহলে দেখবে কুমড়ো বিভিন্ন কনফিগারেশনে বিক্রি হচ্ছে। কিছু বিক্রি হচ্ছে `1 1/9 bushel` পরিমাপে, কিছু `1/2 bushel` পরিমাপে, কিছু প্রতি কুমড়ো হিসেবে, কিছু প্রতি পাউন্ড হিসেবে, এবং কিছু বড় বাক্সে যার প্রস্থ বিভিন্ন রকম। \n",
    "\n",
    "চল এটা যাচাই করি:\n"
   ],
   "metadata": {
    "id": "p77WZr-9aQAR"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Verify the distinct observations in Package column\n",
    "pumpkins %>% \n",
    "  distinct(Package)"
   ],
   "outputs": [],
   "metadata": {
    "id": "XISGfh0IaUy6"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "অসাধারণ!👏\n",
    "\n",
    "কুমড়াগুলোকে ধারাবাহিকভাবে ওজন করা বেশ কঠিন বলে মনে হচ্ছে, তাই চলুন আমরা সেগুলো ফিল্টার করি যেগুলোর `Package` কলামে *bushel* স্ট্রিং রয়েছে এবং এগুলোকে একটি নতুন ডেটা ফ্রেম `new_pumpkins`-এ রাখি।\n"
   ],
   "metadata": {
    "id": "7sMjiVujaZxY"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "#### dplyr::filter() এবং stringr::str_detect()\n",
    "\n",
    "[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): ডেটার একটি উপসেট তৈরি করে যা শুধুমাত্র সেই **সারি** গুলো রাখে যা আপনার শর্ত পূরণ করে, এই ক্ষেত্রে, `Package` কলামে *bushel* স্ট্রিং থাকা কুমড়াগুলো।\n",
    "\n",
    "[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): একটি স্ট্রিং-এ কোনো প্যাটার্নের উপস্থিতি বা অনুপস্থিতি সনাক্ত করে।\n",
    "\n",
    "[`stringr`](https://github.com/tidyverse/stringr) প্যাকেজটি সাধারণ স্ট্রিং অপারেশনের জন্য সহজ ফাংশন সরবরাহ করে।\n"
   ],
   "metadata": {
    "id": "L8Qfcs92ageF"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Retain only pumpkins with \"bushel\"\n",
    "new_pumpkins <- pumpkins %>% \n",
    "       filter(str_detect(Package, \"bushel\"))\n",
    "\n",
    "# Get the dimensions of the new data\n",
    "dim(new_pumpkins)\n",
    "\n",
    "# View a few rows of the new data\n",
    "new_pumpkins %>% \n",
    "  slice_head(n = 5)"
   ],
   "outputs": [],
   "metadata": {
    "id": "hy_SGYREampd"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "আপনি দেখতে পাচ্ছেন যে আমরা প্রায় ৪১৫টি সারি ডেটা সীমিত করেছি, যেখানে কুমড়া বাসেল হিসেবে রয়েছে।🤩  \n",
    "<br>\n"
   ],
   "metadata": {
    "id": "VrDwF031avlR"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "#### dplyr::case_when()\n",
    "\n",
    "**কিন্তু অপেক্ষা করুন! আরও একটি কাজ বাকি আছে**\n",
    "\n",
    "আপনি কি লক্ষ্য করেছেন যে প্রতি সারিতে বাসেলের পরিমাণ ভিন্ন? আপনাকে মূল্য নির্ধারণকে স্বাভাবিক করতে হবে যাতে আপনি প্রতি বাসেলের মূল্য দেখান, ১ ১/৯ বা ১/২ বাসেলের নয়। এটি মানক করার জন্য কিছু গণিত করার সময়।\n",
    "\n",
    "আমরা [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) ফাংশন ব্যবহার করব *Price* কলামটি পরিবর্তন করতে কিছু শর্তের উপর ভিত্তি করে। `case_when` আপনাকে একাধিক `if_else()` বিবৃতি ভেক্টরাইজ করতে দেয়।\n"
   ],
   "metadata": {
    "id": "mLpw2jH4a0tx"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Convert the price if the Package contains fractional bushel values\n",
    "new_pumpkins <- new_pumpkins %>% \n",
    "  mutate(Price = case_when(\n",
    "    str_detect(Package, \"1 1/9\") ~ Price/(1 + 1/9),\n",
    "    str_detect(Package, \"1/2\") ~ Price/(1/2),\n",
    "    TRUE ~ Price))\n",
    "\n",
    "# View the first few rows of the data\n",
    "new_pumpkins %>% \n",
    "  slice_head(n = 30)"
   ],
   "outputs": [],
   "metadata": {
    "id": "P68kLVQmbM6I"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "এখন আমরা তাদের বাসেল পরিমাপের উপর ভিত্তি করে প্রতি ইউনিটের মূল্য বিশ্লেষণ করতে পারি। তবে, কুমড়ার বাসেল নিয়ে এই সমস্ত অধ্যয়ন দেখায় যে `আপনার ডেটার প্রকৃতি বুঝতে` কতটা `গুরুত্বপূর্ণ`!\n",
    "\n",
    "> ✅ [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308) অনুযায়ী, বাসেলের ওজন উৎপাদনের ধরণের উপর নির্ভর করে, কারণ এটি একটি আয়তনের পরিমাপ। \"উদাহরণস্বরূপ, টমেটোর একটি বাসেল ৫৬ পাউন্ড ওজনের হওয়া উচিত... পাতা এবং শাকসবজি বেশি জায়গা নেয় কিন্তু কম ওজনের হয়, তাই পালং শাকের একটি বাসেল মাত্র ২০ পাউন্ড।\" এটি বেশ জটিল! চলুন বাসেল থেকে পাউন্ডে রূপান্তর করার ঝামেলা না করি এবং বাসেল অনুযায়ী মূল্য নির্ধারণ করি। তবে, কুমড়ার বাসেল নিয়ে এই সমস্ত অধ্যয়ন দেখায় যে আপনার ডেটার প্রকৃতি বুঝতে কতটা গুরুত্বপূর্ণ!\n",
    ">\n",
    "> ✅ আপনি কি লক্ষ্য করেছেন যে অর্ধ-বাসেল কুমড়া বিক্রি খুবই ব্যয়বহুল? আপনি কি এর কারণ বের করতে পারেন? ইঙ্গিত: ছোট কুমড়াগুলো বড়গুলোর তুলনায় অনেক বেশি দামী, সম্ভবত কারণ একটি বড় ফাঁপা পাই কুমড়া যে জায়গা নেয়, তার তুলনায় ছোট কুমড়াগুলো বাসেলে অনেক বেশি থাকে।\n"
   ],
   "metadata": {
    "id": "pS2GNPagbSdb"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "এখন শেষ পর্যন্ত, শুধুমাত্র মজার জন্য 💁‍♀️, চলুন `Month` কলামটি প্রথম অবস্থানে সরিয়ে নিই অর্থাৎ `Package` কলামের আগে।\n",
    "\n",
    "`dplyr::relocate()` ব্যবহার করা হয় কলামের অবস্থান পরিবর্তন করতে।\n"
   ],
   "metadata": {
    "id": "qql1SowfbdnP"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Create a new data frame new_pumpkins\n",
    "new_pumpkins <- new_pumpkins %>% \n",
    "  relocate(Month, .before = Package)\n",
    "\n",
    "new_pumpkins %>% \n",
    "  slice_head(n = 7)"
   ],
   "outputs": [],
   "metadata": {
    "id": "JJ1x6kw8bixF"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ভালো কাজ!👌 এখন আপনার কাছে একটি পরিষ্কার, সুশৃঙ্খল ডেটাসেট রয়েছে যার উপর আপনি আপনার নতুন রিগ্রেশন মডেল তৈরি করতে পারেন!\n"
   ],
   "metadata": {
    "id": "y8TJ0Za_bn5Y"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## 4. ggplot2 দিয়ে ডেটা ভিজ্যুয়ালাইজেশন\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/data-visualization.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>ইনফোগ্রাফিক: দাসানি মাদিপল্লি</figcaption>\n",
    "\n",
    "\n",
    "<!--![ইনফোগ্রাফিক: দাসানি মাদিপল্লি](../../../../../../translated_images/data-visualization.54e56dded7c1a804d00d027543f2881cb32da73aeadda2d4a4f10f3497526114.bn.png){width=\"600\"}-->\n",
    "\n",
    "একটি *জ্ঞানী* কথা আছে যা এভাবে বলা হয়:\n",
    "\n",
    "> \"একটি সাধারণ গ্রাফ ডেটা বিশ্লেষকের মনে অন্য যেকোনো পদ্ধতির চেয়ে বেশি তথ্য এনেছে।\" --- জন টুকি\n",
    "\n",
    "ডেটা সায়েন্টিস্টের কাজের একটি অংশ হলো তারা যে ডেটা নিয়ে কাজ করছেন তার গুণমান এবং প্রকৃতি প্রদর্শন করা। এটি করতে তারা প্রায়ই আকর্ষণীয় ভিজ্যুয়ালাইজেশন, বা প্লট, গ্রাফ এবং চার্ট তৈরি করেন, যা ডেটার বিভিন্ন দিক দেখায়। এইভাবে, তারা চাক্ষুষভাবে সম্পর্ক এবং ফাঁকগুলো দেখাতে সক্ষম হন যা অন্যথায় খুঁজে বের করা কঠিন।\n",
    "\n",
    "ভিজ্যুয়ালাইজেশন মেশিন লার্নিংয়ের জন্য উপযুক্ত পদ্ধতি নির্ধারণ করতেও সাহায্য করতে পারে। উদাহরণস্বরূপ, একটি স্ক্যাটারপ্লট যা একটি সরল রেখা অনুসরণ করে বলে মনে হয়, তা নির্দেশ করে যে ডেটা একটি লিনিয়ার রিগ্রেশন অনুশীলনের জন্য ভালো প্রার্থী।\n",
    "\n",
    "R-এ গ্রাফ তৈরির জন্য বেশ কয়েকটি সিস্টেম রয়েছে, তবে [`ggplot2`](https://ggplot2.tidyverse.org/index.html) সবচেয়ে মার্জিত এবং বহুমুখী। `ggplot2` আপনাকে **স্বতন্ত্র উপাদানগুলো একত্রিত করে** গ্রাফ তৈরি করতে দেয়।\n",
    "\n",
    "চলুন Price এবং Month কলামের জন্য একটি সাধারণ স্ক্যাটারপ্লট দিয়ে শুরু করি।\n",
    "\n",
    "এই ক্ষেত্রে, আমরা [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html) দিয়ে শুরু করব, একটি ডেটাসেট এবং অ্যাসথেটিক ম্যাপিং সরবরাহ করব (যা [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html) ব্যবহার করে) এবং তারপর স্ক্যাটারপ্লটের জন্য লেয়ার যোগ করব (যেমন [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html))।\n"
   ],
   "metadata": {
    "id": "mYSH6-EtbvNa"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Set a theme for the plots\n",
    "theme_set(theme_light())\n",
    "\n",
    "# Create a scatter plot\n",
    "p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))\n",
    "p + geom_point()"
   ],
   "outputs": [],
   "metadata": {
    "id": "g2YjnGeOcLo4"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "এই প্লটটি কি উপকারী 🤷? এটি কি আপনাকে কোনোভাবে অবাক করে?\n",
    "\n",
    "এটি বিশেষভাবে উপকারী নয় কারণ এটি শুধুমাত্র আপনার ডেটাকে একটি নির্দিষ্ট মাসে পয়েন্টগুলোর ছড়িয়ে থাকা হিসেবে প্রদর্শন করে।  \n"
   ],
   "metadata": {
    "id": "Ml7SDCLQcPvE"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### **আমরা কীভাবে এটি উপযোগী করে তুলব?**\n",
    "\n",
    "ডেটা থেকে কার্যকর তথ্য প্রদর্শনের জন্য, সাধারণত ডেটাকে কোনোভাবে গোষ্ঠীবদ্ধ করতে হয়। উদাহরণস্বরূপ, আমাদের ক্ষেত্রে, প্রতিটি মাসের জন্য কুমড়ার গড় দাম খুঁজে বের করা আমাদের ডেটার অন্তর্নিহিত ধরণগুলো সম্পর্কে আরও অন্তর্দৃষ্টি প্রদান করবে। এটি আমাদেরকে আরেকটি **dplyr** ফ্লাইবাইয়ের দিকে নিয়ে যায়:\n",
    "\n",
    "#### `dplyr::group_by() %>% summarize()`\n",
    "\n",
    "R-এ গোষ্ঠীবদ্ধ সমষ্টি সহজেই গণনা করা যায়\n",
    "\n",
    "`dplyr::group_by() %>% summarize()` ব্যবহার করে।\n",
    "\n",
    "-   `dplyr::group_by()` সম্পূর্ণ ডেটাসেটের পরিবর্তে পৃথক গোষ্ঠীগুলোর (যেমন প্রতি মাসের) উপর বিশ্লেষণের একক পরিবর্তন করে।\n",
    "\n",
    "-   `dplyr::summarize()` একটি নতুন ডেটাফ্রেম তৈরি করে, যেখানে প্রতিটি গোষ্ঠীবদ্ধ ভেরিয়েবলের জন্য একটি কলাম এবং আপনার নির্দিষ্ট করা প্রতিটি সারাংশ পরিসংখ্যানের জন্য একটি কলাম থাকে।\n",
    "\n",
    "উদাহরণস্বরূপ, আমরা `dplyr::group_by() %>% summarize()` ব্যবহার করে **Month** কলামের উপর ভিত্তি করে কুমড়াগুলোকে গোষ্ঠীবদ্ধ করতে পারি এবং তারপর প্রতিটি মাসের জন্য **গড় দাম** বের করতে পারি।\n"
   ],
   "metadata": {
    "id": "jMakvJZIcVkh"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Find the average price of pumpkins per month\r\n",
    "new_pumpkins %>%\r\n",
    "  group_by(Month) %>% \r\n",
    "  summarise(mean_price = mean(Price))"
   ],
   "outputs": [],
   "metadata": {
    "id": "6kVSUa2Bcilf"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "সংক্ষিপ্ত!✨\n",
    "\n",
    "মাসের মতো শ্রেণীবদ্ধ বৈশিষ্ট্যগুলো বার প্লট 📊 ব্যবহার করে ভালোভাবে উপস্থাপন করা যায়। বার চার্টের জন্য ব্যবহৃত স্তরগুলো হলো `geom_bar()` এবং `geom_col()`। `?geom_bar` দেখুন আরও জানতে।\n",
    "\n",
    "চলুন একটি তৈরি করি!\n"
   ],
   "metadata": {
    "id": "Kds48GUBcj3W"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Find the average price of pumpkins per month then plot a bar chart\r\n",
    "new_pumpkins %>%\r\n",
    "  group_by(Month) %>% \r\n",
    "  summarise(mean_price = mean(Price)) %>% \r\n",
    "  ggplot(aes(x = Month, y = mean_price)) +\r\n",
    "  geom_col(fill = \"midnightblue\", alpha = 0.7) +\r\n",
    "  ylab(\"Pumpkin Price\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "VNbU1S3BcrxO"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "🤩🤩এটি একটি আরও কার্যকর ডেটা ভিজ্যুয়ালাইজেশন! এটি মনে হচ্ছে যে কুমড়ার সর্বোচ্চ মূল্য সেপ্টেম্বর এবং অক্টোবর মাসে ঘটে। এটি কি আপনার প্রত্যাশার সাথে মিলে যায়? কেন বা কেন নয়?\n",
    "\n",
    "দ্বিতীয় পাঠ শেষ করার জন্য অভিনন্দন 👏! আপনি মডেল তৈরির জন্য আপনার ডেটা প্রস্তুত করেছেন, তারপর ভিজ্যুয়ালাইজেশন ব্যবহার করে আরও অন্তর্দৃষ্টি আবিষ্কার করেছেন!\n"
   ],
   "metadata": {
    "id": "zDm0VOzzcuzR"
   }
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n---\n\n**অস্বীকৃতি**:  \nএই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।\n"
   ]
  }
 ]
}