ML-For-Beginners/translations/hi/4-Classification/1-Introduction/solution/R/lesson_10-R.ipynb

{
 "nbformat": 4,
 "nbformat_minor": 2,
 "metadata": {
  "colab": {
   "name": "lesson_10-R.ipynb",
   "provenance": [],
   "collapsed_sections": []
  },
  "kernelspec": {
   "name": "ir",
   "display_name": "R"
  },
  "language_info": {
   "name": "R"
  },
  "coopTranslator": {
   "original_hash": "2621e24705e8100893c9bf84e0fc8aef",
   "translation_date": "2025-09-04T02:51:22+00:00",
   "source_file": "4-Classification/1-Introduction/solution/R/lesson_10-R.ipynb",
   "language_code": "hi"
  }
 },
 "cells": [
  {
   "cell_type": "markdown",
   "source": [],
   "metadata": {
    "id": "ItETB4tSFprR"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## वर्गीकरण का परिचय: अपने डेटा को साफ़ करें, तैयार करें, और विज़ुअलाइज़ करें\n",
    "\n",
    "इन चार पाठों में, आप क्लासिक मशीन लर्निंग के एक महत्वपूर्ण पहलू - *वर्गीकरण* - का अन्वेषण करेंगे। हम एशिया और भारत के सभी शानदार व्यंजनों के बारे में एक डेटासेट का उपयोग करके विभिन्न वर्गीकरण एल्गोरिदम का उपयोग करना सीखेंगे। उम्मीद है कि आप भूखे हैं!\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/pinch.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>इन पाठों में पैन-एशियाई व्यंजनों का जश्न मनाएं! छवि: जेन लूपर</figcaption>\n",
    "\n",
    "\n",
    "<!--![इन पाठों में पैन-एशियाई व्यंजनों का जश्न मनाएं! छवि: जेन लूपर](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.hi.png)-->\n",
    "\n",
    "वर्गीकरण [सुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Supervised_learning) का एक रूप है, जो रिग्रेशन तकनीकों के साथ कई समानताएं रखता है। वर्गीकरण में, आप एक मॉडल को प्रशिक्षित करते हैं ताकि वह यह भविष्यवाणी कर सके कि कोई वस्तु किस `श्रेणी` में आती है। यदि मशीन लर्निंग का उद्देश्य डेटासेट का उपयोग करके चीजों के मान या नाम की भविष्यवाणी करना है, तो वर्गीकरण आम तौर पर दो समूहों में विभाजित होता है: *बाइनरी वर्गीकरण* और *मल्टीक्लास वर्गीकरण*।\n",
    "\n",
    "याद रखें:\n",
    "\n",
    "-   **लिनियर रिग्रेशन** ने आपको वेरिएबल्स के बीच संबंधों की भविष्यवाणी करने और यह अनुमान लगाने में मदद की कि एक नया डेटा पॉइंट उस रेखा के संबंध में कहां गिरेगा। उदाहरण के लिए, आप यह भविष्यवाणी कर सकते थे कि *सितंबर बनाम दिसंबर में कद्दू की कीमत क्या होगी*।\n",
    "\n",
    "-   **लॉजिस्टिक रिग्रेशन** ने आपको \"बाइनरी श्रेणियों\" की खोज करने में मदद की: इस मूल्य बिंदु पर, *क्या यह कद्दू नारंगी है या नारंगी नहीं है*?\n",
    "\n",
    "वर्गीकरण विभिन्न एल्गोरिदम का उपयोग करता है ताकि यह निर्धारित किया जा सके कि किसी डेटा पॉइंट का लेबल या वर्ग क्या है। आइए इस व्यंजन डेटा के साथ काम करें और देखें कि क्या हम सामग्री के एक समूह को देखकर उसके मूल व्यंजन का पता लगा सकते हैं।\n",
    "\n",
    "### [**पाठ-पूर्व प्रश्नोत्तरी**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)\n",
    "\n",
    "### **परिचय**\n",
    "\n",
    "वर्गीकरण मशीन लर्निंग शोधकर्ता और डेटा वैज्ञानिक की मूलभूत गतिविधियों में से एक है। बाइनरी मान का बुनियादी वर्गीकरण (\"क्या यह ईमेल स्पैम है या नहीं?\") से लेकर कंप्यूटर विज़न का उपयोग करके जटिल छवि वर्गीकरण और खंडन तक, डेटा को वर्गों में छांटना और उससे प्रश्न पूछना हमेशा उपयोगी होता है।\n",
    "\n",
    "यदि इस प्रक्रिया को अधिक वैज्ञानिक तरीके से कहा जाए, तो आपका वर्गीकरण विधि एक प्रेडिक्टिव मॉडल बनाती है, जो इनपुट वेरिएबल्स और आउटपुट वेरिएबल्स के बीच संबंध को मैप करने में सक्षम बनाती है।\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/binary-multiclass.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>वर्गीकरण एल्गोरिदम के लिए बाइनरी बनाम मल्टीक्लास समस्याएं। इन्फोग्राफिक: जेन लूपर</figcaption>\n",
    "\n",
    "\n",
    "\n",
    "हमारे डेटा को साफ़ करने, विज़ुअलाइज़ करने और हमारे एमएल कार्यों के लिए तैयार करने की प्रक्रिया शुरू करने से पहले, आइए जानें कि डेटा को वर्गीकृत करने के लिए मशीन लर्निंग का उपयोग करने के विभिन्न तरीके क्या हैं।\n",
    "\n",
    "[सांख्यिकी](https://wikipedia.org/wiki/Statistical_classification) से व्युत्पन्न, क्लासिक मशीन लर्निंग का उपयोग करके वर्गीकरण विशेषताओं का उपयोग करता है, जैसे `smoker`, `weight`, और `age`, ताकि *X बीमारी विकसित होने की संभावना* का निर्धारण किया जा सके। एक सुपरवाइज्ड लर्निंग तकनीक के रूप में, जो आपने पहले किए गए रिग्रेशन अभ्यासों के समान है, आपका डेटा लेबल किया गया होता है और एमएल एल्गोरिदम उन लेबल्स का उपयोग डेटा सेट की कक्षाओं (या 'विशेषताओं') को वर्गीकृत और भविष्यवाणी करने और उन्हें एक समूह या परिणाम को सौंपने के लिए करते हैं।\n",
    "\n",
    "✅ एक पल लें और व्यंजनों के बारे में एक डेटासेट की कल्पना करें। एक मल्टीक्लास मॉडल क्या उत्तर दे सकता है? एक बाइनरी मॉडल क्या उत्तर दे सकता है? यदि आप यह निर्धारित करना चाहते हैं कि कोई विशेष व्यंजन मेथी का उपयोग करता है या नहीं, तो क्या होगा? यदि आप यह देखना चाहते हैं कि स्टार ऐनीज़, आर्टिचोक, फूलगोभी, और हॉर्सरैडिश से भरे एक ग्रॉसरी बैग के साथ आप एक विशिष्ट भारतीय व्यंजन बना सकते हैं या नहीं, तो क्या होगा?\n",
    "\n",
    "### **'क्लासिफायर' से मिलें**\n",
    "\n",
    "हम इस व्यंजन डेटासेट से जो प्रश्न पूछना चाहते हैं, वह वास्तव में एक **मल्टीक्लास प्रश्न** है, क्योंकि हमारे पास काम करने के लिए कई संभावित राष्ट्रीय व्यंजन हैं। सामग्री के एक बैच को देखते हुए, यह डेटा इनमें से किस वर्ग में फिट होगा?\n",
    "\n",
    "Tidymodels वर्गीकृत डेटा के लिए उपयोग करने के लिए कई अलग-अलग एल्गोरिदम प्रदान करता है, यह इस बात पर निर्भर करता है कि आप किस प्रकार की समस्या हल करना चाहते हैं। अगले दो पाठों में, आप इन एल्गोरिदम में से कई के बारे में जानेंगे।\n",
    "\n",
    "#### **पूर्वापेक्षा**\n",
    "\n",
    "इस पाठ के लिए, हमें डेटा को साफ़ करने, तैयार करने और विज़ुअलाइज़ करने के लिए निम्नलिखित पैकेजों की आवश्यकता होगी:\n",
    "\n",
    "-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) एक [R पैकेजों का संग्रह](https://www.tidyverse.org/packages) है, जिसे डेटा साइंस को तेज़, आसान और अधिक मज़ेदार बनाने के लिए डिज़ाइन किया गया है!\n",
    "\n",
    "-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) फ्रेमवर्क मॉडलिंग और मशीन लर्निंग के लिए [पैकेजों का संग्रह](https://www.tidymodels.org/packages/) है।\n",
    "\n",
    "-   `DataExplorer`: [DataExplorer पैकेज](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) ईडीए प्रक्रिया और रिपोर्ट जनरेशन को सरल और स्वचालित करने के लिए बनाया गया है।\n",
    "\n",
    "-   `themis`: [themis पैकेज](https://themis.tidymodels.org/) असंतुलित डेटा से निपटने के लिए अतिरिक्त रेसिपी स्टेप्स प्रदान करता है।\n",
    "\n",
    "आप इन्हें इस प्रकार इंस्टॉल कर सकते हैं:\n",
    "\n",
    "`install.packages(c(\"tidyverse\", \"tidymodels\", \"DataExplorer\", \"here\"))`\n",
    "\n",
    "वैकल्पिक रूप से, नीचे दिया गया स्क्रिप्ट जांचता है कि क्या आपके पास इस मॉड्यूल को पूरा करने के लिए आवश्यक पैकेज हैं और यदि वे गायब हैं तो उन्हें आपके लिए इंस्टॉल करता है।\n"
   ],
   "metadata": {
    "id": "ri5bQxZ-Fz_0"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "suppressWarnings(if (!require(\"pacman\"))install.packages(\"pacman\"))\r\n",
    "\r\n",
    "pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)"
   ],
   "outputs": [],
   "metadata": {
    "id": "KIPxa4elGAPI"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "हम बाद में इन शानदार पैकेजों को लोड करेंगे और उन्हें हमारे वर्तमान R सत्र में उपलब्ध कराएंगे। (यह केवल उदाहरण के लिए है, `pacman::p_load()` ने यह पहले ही आपके लिए कर दिया है)\n"
   ],
   "metadata": {
    "id": "YkKAxOJvGD4C"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## अभ्यास - अपने डेटा को साफ़ और संतुलित करें\n",
    "\n",
    "इस प्रोजेक्ट को शुरू करने से पहले सबसे पहला काम है अपने डेटा को साफ़ करना और **संतुलित** करना ताकि बेहतर परिणाम मिल सकें।\n",
    "\n",
    "आइए डेटा से मिलते हैं! 🕵️\n"
   ],
   "metadata": {
    "id": "PFkQDlk0GN5O"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Import data\r\n",
    "df <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv\")\r\n",
    "\r\n",
    "# View the first 5 rows\r\n",
    "df %>% \r\n",
    "  slice_head(n = 5)\r\n"
   ],
   "outputs": [],
   "metadata": {
    "id": "Qccw7okxGT0S"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "दिलचस्प! देखने से लगता है कि पहली कॉलम एक प्रकार की `id` कॉलम है। आइए डेटा के बारे में थोड़ी और जानकारी प्राप्त करें।\n"
   ],
   "metadata": {
    "id": "XrWnlgSrGVmR"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Basic information about the data\r\n",
    "df %>%\r\n",
    "  introduce()\r\n",
    "\r\n",
    "# Visualize basic information above\r\n",
    "df %>% \r\n",
    "  plot_intro(ggtheme = theme_light())"
   ],
   "outputs": [],
   "metadata": {
    "id": "4UcGmxRxGieA"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "आउटपुट से, हम तुरंत देख सकते हैं कि हमारे पास `2448` पंक्तियाँ और `385` कॉलम हैं और `0` गायब मान हैं। हमारे पास 1 विविक्त कॉलम भी है, *cuisine*।\n",
    "\n",
    "## अभ्यास - व्यंजनों के बारे में सीखना\n",
    "\n",
    "अब काम और अधिक रोचक होने लगता है। आइए प्रत्येक व्यंजन के अनुसार डेटा के वितरण का पता लगाएं।\n"
   ],
   "metadata": {
    "id": "AaPubl__GmH5"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Count observations per cuisine\r\n",
    "df %>% \r\n",
    "  count(cuisine) %>% \r\n",
    "  arrange(n)\r\n",
    "\r\n",
    "# Plot the distribution\r\n",
    "theme_set(theme_light())\r\n",
    "df %>% \r\n",
    "  count(cuisine) %>% \r\n",
    "  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +\r\n",
    "  geom_col(fill = \"midnightblue\", alpha = 0.7) +\r\n",
    "  ylab(\"cuisine\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "FRsBVy5eGrrv"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "खानों की एक सीमित संख्या होती है, लेकिन डेटा का वितरण असमान है। आप इसे सुधार सकते हैं! ऐसा करने से पहले, थोड़ा और अन्वेषण करें।\n",
    "\n",
    "अब, आइए प्रत्येक खाने को उसके व्यक्तिगत टिबल में विभाजित करें और पता करें कि प्रत्येक खाने के लिए कितना डेटा उपलब्ध है (पंक्तियाँ, स्तंभ)।\n",
    "\n",
    "> एक [tibble](https://tibble.tidyverse.org/) एक आधुनिक डेटा फ्रेम है।\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/dplyr_filter.jpg\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>@allison_horst द्वारा कलाकृति</figcaption>\n"
   ],
   "metadata": {
    "id": "vVvyDb1kG2in"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Create individual tibble for the cuisines\r\n",
    "thai_df <- df %>% \r\n",
    "  filter(cuisine == \"thai\")\r\n",
    "japanese_df <- df %>% \r\n",
    "  filter(cuisine == \"japanese\")\r\n",
    "chinese_df <- df %>% \r\n",
    "  filter(cuisine == \"chinese\")\r\n",
    "indian_df <- df %>% \r\n",
    "  filter(cuisine == \"indian\")\r\n",
    "korean_df <- df %>% \r\n",
    "  filter(cuisine == \"korean\")\r\n",
    "\r\n",
    "\r\n",
    "# Find out how much data is available per cuisine\r\n",
    "cat(\" thai df:\", dim(thai_df), \"\\n\",\r\n",
    "    \"japanese df:\", dim(japanese_df), \"\\n\",\r\n",
    "    \"chinese_df:\", dim(chinese_df), \"\\n\",\r\n",
    "    \"indian_df:\", dim(indian_df), \"\\n\",\r\n",
    "    \"korean_df:\", dim(korean_df))"
   ],
   "outputs": [],
   "metadata": {
    "id": "0TvXUxD3G8Bk"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## **व्यायाम - dplyr का उपयोग करके व्यंजनों के अनुसार शीर्ष सामग्री की खोज करना**\n",
    "\n",
    "अब आप डेटा में गहराई से उतर सकते हैं और जान सकते हैं कि प्रत्येक व्यंजन के लिए विशिष्ट सामग्री क्या हैं। आपको बार-बार आने वाले डेटा को साफ़ करना चाहिए जो व्यंजनों के बीच भ्रम पैदा करता है, तो चलिए इस समस्या के बारे में सीखते हैं।\n",
    "\n",
    "R में एक फ़ंक्शन `create_ingredient()` बनाएं जो एक सामग्री डेटा फ्रेम लौटाए। यह फ़ंक्शन एक गैर-उपयोगी कॉलम को हटाने और सामग्री को उनकी गिनती के आधार पर क्रमबद्ध करने से शुरू होगा।\n",
    "\n",
    "R में फ़ंक्शन की मूल संरचना इस प्रकार है:\n",
    "\n",
    "`myFunction <- function(arglist){`\n",
    "\n",
    "**`...`**\n",
    "\n",
    "**`return`**`(value)`\n",
    "\n",
    "`}`\n",
    "\n",
    "R फ़ंक्शन्स का एक सरल परिचय [यहां](https://skirmer.github.io/presentations/functions_with_r.html#1) पाया जा सकता है।\n",
    "\n",
    "चलो सीधे इसमें उतरते हैं! हम [dplyr क्रियाओं](https://dplyr.tidyverse.org/) का उपयोग करेंगे, जिन्हें हमने अपने पिछले पाठों में सीखा है। एक पुनरावलोकन के रूप में:\n",
    "\n",
    "-   `dplyr::select()`: यह आपको चुनने में मदद करता है कि कौन से **कॉलम्स** रखना है या हटाना है।\n",
    "\n",
    "-   `dplyr::pivot_longer()`: यह डेटा को \"लंबा\" करने में मदद करता है, जिससे पंक्तियों की संख्या बढ़ती है और कॉलम्स की संख्या घटती है।\n",
    "\n",
    "-   `dplyr::group_by()` और `dplyr::summarise()`: यह आपको विभिन्न समूहों के लिए सारांश आँकड़े खोजने और उन्हें एक सुंदर तालिका में रखने में मदद करता है।\n",
    "\n",
    "-   `dplyr::filter()`: डेटा का एक उपसमूह बनाता है जिसमें केवल वे पंक्तियाँ होती हैं जो आपकी शर्तों को पूरा करती हैं।\n",
    "\n",
    "-   `dplyr::mutate()`: यह आपको कॉलम्स बनाने या संशोधित करने में मदद करता है।\n",
    "\n",
    "Allison Horst द्वारा बनाया गया यह [*कला*-युक्त learnr ट्यूटोरियल](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) देखें, जो dplyr *(Tidyverse का हिस्सा)* में कुछ उपयोगी डेटा प्रबंधन फ़ंक्शन्स का परिचय देता है।\n"
   ],
   "metadata": {
    "id": "K3RF5bSCHC76"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Creates a functions that returns the top ingredients by class\r\n",
    "\r\n",
    "create_ingredient <- function(df){\r\n",
    "  \r\n",
    "  # Drop the id column which is the first colum\r\n",
    "  ingredient_df = df %>% select(-1) %>% \r\n",
    "  # Transpose data to a long format\r\n",
    "    pivot_longer(!cuisine, names_to = \"ingredients\", values_to = \"count\") %>% \r\n",
    "  # Find the top most ingredients for a particular cuisine\r\n",
    "    group_by(ingredients) %>% \r\n",
    "    summarise(n_instances = sum(count)) %>% \r\n",
    "    filter(n_instances != 0) %>% \r\n",
    "  # Arrange by descending order\r\n",
    "    arrange(desc(n_instances)) %>% \r\n",
    "    mutate(ingredients = factor(ingredients) %>% fct_inorder())\r\n",
    "  \r\n",
    "  \r\n",
    "  return(ingredient_df)\r\n",
    "} # End of function"
   ],
   "outputs": [],
   "metadata": {
    "id": "uB_0JR82HTPa"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "अब हम इस फ़ंक्शन का उपयोग करके विभिन्न व्यंजनों में सबसे लोकप्रिय दस सामग्री का अंदाज़ा लगा सकते हैं। चलिए इसे `thai_df` के साथ आज़माते हैं।\n"
   ],
   "metadata": {
    "id": "h9794WF8HWmc"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Call create_ingredient and display popular ingredients\r\n",
    "thai_ingredient_df <- create_ingredient(df = thai_df)\r\n",
    "\r\n",
    "thai_ingredient_df %>% \r\n",
    "  slice_head(n = 10)"
   ],
   "outputs": [],
   "metadata": {
    "id": "agQ-1HrcHaEA"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "पिछले भाग में, हमने `geom_col()` का उपयोग किया था, आइए देखें कि आप `geom_bar` का उपयोग कैसे कर सकते हैं, बार चार्ट बनाने के लिए। आगे पढ़ने के लिए `?geom_bar` का उपयोग करें।\n"
   ],
   "metadata": {
    "id": "kHu9ffGjHdcX"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Make a bar chart for popular thai cuisines\r\n",
    "thai_ingredient_df %>% \r\n",
    "  slice_head(n = 10) %>% \r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"steelblue\") +\r\n",
    "  xlab(\"\") + ylab(\"\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "fb3Bx_3DHj6e"
   }
  },
  {
   "cell_type": "markdown",
   "source": [],
   "metadata": {
    "id": "RHP_xgdkHnvM"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Get popular ingredients for Japanese cuisines and make bar chart\r\n",
    "create_ingredient(df = japanese_df) %>% \r\n",
    "  slice_head(n = 10) %>%\r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"darkorange\", alpha = 0.8) +\r\n",
    "  xlab(\"\") + ylab(\"\")\r\n"
   ],
   "outputs": [],
   "metadata": {
    "id": "019v8F0XHrRU"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "चीनी व्यंजनों के बारे में क्या ख्याल है?\n"
   ],
   "metadata": {
    "id": "iIGM7vO8Hu3v"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Get popular ingredients for Chinese cuisines and make bar chart\r\n",
    "create_ingredient(df = chinese_df) %>% \r\n",
    "  slice_head(n = 10) %>%\r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"cyan4\", alpha = 0.8) +\r\n",
    "  xlab(\"\") + ylab(\"\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "lHd9_gd2HyzU"
   }
  },
  {
   "cell_type": "markdown",
   "source": [],
   "metadata": {
    "id": "ir8qyQbNH1c7"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Get popular ingredients for Indian cuisines and make bar chart\r\n",
    "create_ingredient(df = indian_df) %>% \r\n",
    "  slice_head(n = 10) %>%\r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"#041E42FF\", alpha = 0.8) +\r\n",
    "  xlab(\"\") + ylab(\"\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "ApukQtKjH5FO"
   }
  },
  {
   "cell_type": "markdown",
   "source": [],
   "metadata": {
    "id": "qv30cwY1H-FM"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Get popular ingredients for Korean cuisines and make bar chart\r\n",
    "create_ingredient(df = korean_df) %>% \r\n",
    "  slice_head(n = 10) %>%\r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"#852419FF\", alpha = 0.8) +\r\n",
    "  xlab(\"\") + ylab(\"\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "lumgk9cHIBie"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "डेटा विज़ुअलाइज़ेशन से, अब हम उन सबसे सामान्य सामग्रियों को हटा सकते हैं जो विभिन्न व्यंजनों के बीच भ्रम पैदा करती हैं, `dplyr::select()` का उपयोग करके।\n",
    "\n",
    "हर किसी को चावल, लहसुन और अदरक पसंद है!\n"
   ],
   "metadata": {
    "id": "iO4veMXuIEta"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Drop id column, rice, garlic and ginger from our original data set\r\n",
    "df_select <- df %>% \r\n",
    "  select(-c(1, rice, garlic, ginger))\r\n",
    "\r\n",
    "# Display new data set\r\n",
    "df_select %>% \r\n",
    "  slice_head(n = 5)"
   ],
   "outputs": [],
   "metadata": {
    "id": "iHJPiG6rIUcK"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## व्यंजनों का उपयोग करके डेटा को पूर्व-प्रसंस्कृत करना 👩‍🍳👨‍🍳 - असंतुलित डेटा से निपटना ⚖️\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/recipes.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>चित्रण @allison_horst द्वारा</figcaption>\n",
    "\n",
    "चूंकि यह पाठ व्यंजनों के बारे में है, हमें `recipes` को संदर्भ में रखना होगा।\n",
    "\n",
    "Tidymodels एक और शानदार पैकेज प्रदान करता है: `recipes` - डेटा को पूर्व-प्रसंस्कृत करने के लिए एक पैकेज।\n"
   ],
   "metadata": {
    "id": "kkFd-JxdIaL6"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "चलो फिर से हमारे व्यंजनों के वितरण पर नज़र डालते हैं।\n"
   ],
   "metadata": {
    "id": "6l2ubtTPJAhY"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Distribution of cuisines\r\n",
    "old_label_count <- df_select %>% \r\n",
    "  count(cuisine) %>% \r\n",
    "  arrange(desc(n))\r\n",
    "\r\n",
    "old_label_count"
   ],
   "outputs": [],
   "metadata": {
    "id": "1e-E9cb7JDVi"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "जैसा कि आप देख सकते हैं, व्यंजनों की संख्या में काफी असमान वितरण है। कोरियाई व्यंजन थाई व्यंजनों से लगभग तीन गुना अधिक हैं। असंतुलित डेटा का मॉडल के प्रदर्शन पर अक्सर नकारात्मक प्रभाव पड़ता है। एक बाइनरी वर्गीकरण के बारे में सोचें। यदि आपके अधिकांश डेटा एक ही वर्ग के हैं, तो एक मशीन लर्निंग मॉडल उसी वर्ग की भविष्यवाणी अधिक बार करेगा, केवल इसलिए कि उसके पास उस वर्ग के लिए अधिक डेटा है। डेटा को संतुलित करना किसी भी असमान डेटा को लेता है और इस असंतुलन को दूर करने में मदद करता है। कई मॉडल तब सबसे अच्छा प्रदर्शन करते हैं जब अवलोकनों की संख्या समान होती है और इसलिए, असंतुलित डेटा के साथ संघर्ष करते हैं।\n",
    "\n",
    "असंतुलित डेटा सेट से निपटने के मुख्यतः दो तरीके हैं:\n",
    "\n",
    "-   अल्पसंख्यक वर्ग में अवलोकन जोड़ना: `ओवर-सैंपलिंग`, जैसे SMOTE एल्गोरिदम का उपयोग करना\n",
    "\n",
    "-   बहुसंख्यक वर्ग से अवलोकन हटाना: `अंडर-सैंपलिंग`\n",
    "\n",
    "अब आइए एक `recipe` का उपयोग करके असंतुलित डेटा सेट से निपटने का तरीका प्रदर्शित करें। एक recipe को एक खाका माना जा सकता है, जो यह बताता है कि डेटा सेट को डेटा विश्लेषण के लिए तैयार करने के लिए कौन-कौन से कदम लागू किए जाने चाहिए।\n"
   ],
   "metadata": {
    "id": "soAw6826JKx9"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Load themis package for dealing with imbalanced data\r\n",
    "library(themis)\r\n",
    "\r\n",
    "# Create a recipe for preprocessing data\r\n",
    "cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% \r\n",
    "  step_smote(cuisine)\r\n",
    "\r\n",
    "cuisines_recipe"
   ],
   "outputs": [],
   "metadata": {
    "id": "HS41brUIJVJy"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "आइए हमारे प्रीप्रोसेसिंग चरणों को समझते हैं।\n",
    "\n",
    "-   `recipe()` को एक फॉर्मूला के साथ कॉल करने से `df_select` डेटा को संदर्भ के रूप में उपयोग करते हुए वेरिएबल्स के *roles* को निर्धारित किया जाता है। उदाहरण के लिए, `cuisine` कॉलम को `outcome` भूमिका दी गई है, जबकि बाकी कॉलम्स को `predictor` भूमिका दी गई है।\n",
    "\n",
    "-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) एक *specification* बनाता है, जो एक रेसिपी स्टेप को परिभाषित करता है। यह स्टेप अल्पसंख्यक वर्ग के नए उदाहरणों को उनके निकटतम पड़ोसियों का उपयोग करके कृत्रिम रूप से उत्पन्न करता है।\n",
    "\n",
    "अब, यदि हम प्रीप्रोसेस्ड डेटा देखना चाहते हैं, तो हमें [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) और [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) का उपयोग करना होगा।\n",
    "\n",
    "`prep()`: प्रशिक्षण सेट से आवश्यक पैरामीटर का अनुमान लगाता है, जिसे बाद में अन्य डेटा सेट्स पर लागू किया जा सकता है।\n",
    "\n",
    "`bake()`: एक प्रीप्रोसेस्ड रेसिपी लेता है और किसी भी डेटा सेट पर ऑपरेशन्स को लागू करता है।\n"
   ],
   "metadata": {
    "id": "Yb-7t7XcJaC8"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Prep and bake the recipe\r\n",
    "preprocessed_df <- cuisines_recipe %>% \r\n",
    "  prep() %>% \r\n",
    "  bake(new_data = NULL) %>% \r\n",
    "  relocate(cuisine)\r\n",
    "\r\n",
    "# Display data\r\n",
    "preprocessed_df %>% \r\n",
    "  slice_head(n = 5)\r\n",
    "\r\n",
    "# Quick summary stats\r\n",
    "preprocessed_df %>% \r\n",
    "  introduce()"
   ],
   "outputs": [],
   "metadata": {
    "id": "9QhSgdpxJl44"
   }
  },
  {
   "cell_type": "markdown",
   "source": [],
   "metadata": {
    "id": "dmidELh_LdV7"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Distribution of cuisines\r\n",
    "new_label_count <- preprocessed_df %>% \r\n",
    "  count(cuisine) %>% \r\n",
    "  arrange(desc(n))\r\n",
    "\r\n",
    "list(new_label_count = new_label_count,\r\n",
    "     old_label_count = old_label_count)"
   ],
   "outputs": [],
   "metadata": {
    "id": "aSh23klBLwDz"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "यम! डेटा साफ-सुथरा, संतुलित और बहुत स्वादिष्ट है 😋!\n",
    "\n",
    "> आमतौर पर, एक रेसिपी को मॉडलिंग के लिए प्रीप्रोसेसर के रूप में उपयोग किया जाता है, जहां यह परिभाषित करती है कि डेटा सेट पर कौन-कौन से चरण लागू किए जाने चाहिए ताकि इसे मॉडलिंग के लिए तैयार किया जा सके। ऐसे मामलों में, आमतौर पर `workflow()` का उपयोग किया जाता है (जैसा कि हमने अपने पिछले पाठों में देखा है) बजाय इसके कि रेसिपी को मैन्युअल रूप से अनुमानित किया जाए।\n",
    ">\n",
    "> इस प्रकार, जब आप tidymodels का उपयोग करते हैं तो आपको आमतौर पर **`prep()`** और **`bake()`** रेसिपी की आवश्यकता नहीं होती है, लेकिन ये आपके टूलकिट में उपयोगी फंक्शन होते हैं ताकि यह सुनिश्चित किया जा सके कि रेसिपी वही कर रही है जो आप उम्मीद कर रहे हैं, जैसे कि हमारे मामले में।\n",
    ">\n",
    "> जब आप **`bake()`** करते हैं एक प्रीप की गई रेसिपी के साथ **`new_data = NULL`**, तो आपको वही डेटा वापस मिलता है जो आपने रेसिपी को परिभाषित करते समय प्रदान किया था, लेकिन वह प्रीप्रोसेसिंग चरणों से गुजर चुका होता है।\n",
    "\n",
    "अब चलिए इस डेटा की एक कॉपी भविष्य के पाठों में उपयोग के लिए सेव करते हैं:\n"
   ],
   "metadata": {
    "id": "HEu80HZ8L7ae"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Save preprocessed data\r\n",
    "write_csv(preprocessed_df, \"../../../data/cleaned_cuisines_R.csv\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "cBmCbIgrMOI6"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "यह नया CSV अब रूट डेटा फोल्डर में पाया जा सकता है।\n",
    "\n",
    "**🚀चुनौती**\n",
    "\n",
    "इस पाठ्यक्रम में कई रोचक डेटा सेट शामिल हैं। `data` फोल्डर्स को खंगालें और देखें कि क्या इनमें से कोई डेटा सेट बाइनरी या मल्टी-क्लास वर्गीकरण के लिए उपयुक्त है? आप इस डेटा सेट से कौन-कौन से सवाल पूछेंगे?\n",
    "\n",
    "## [**पाठ के बाद का क्विज़**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)\n",
    "\n",
    "## **समीक्षा और स्व-अध्ययन**\n",
    "\n",
    "-   [पैकेज themis](https://github.com/tidymodels/themis) को देखें। असंतुलित डेटा से निपटने के लिए हम और कौन-कौन सी तकनीकों का उपयोग कर सकते हैं?\n",
    "\n",
    "-   टाइड मॉडल्स [संदर्भ वेबसाइट](https://www.tidymodels.org/start/)।\n",
    "\n",
    "-   एच. विकहम और जी. ग्रोलेमंड, [*R फॉर डेटा साइंस: डेटा को विज़ुअलाइज़, मॉडल, ट्रांसफॉर्म, टाइड और इंपोर्ट करें*](https://r4ds.had.co.nz/)।\n",
    "\n",
    "#### धन्यवाद:\n",
    "\n",
    "[`एलिसन हॉर्स्ट`](https://twitter.com/allison_horst/) को, जिन्होंने अद्भुत चित्रण बनाए हैं जो R को और अधिक स्वागतयोग्य और आकर्षक बनाते हैं। उनके और चित्रण [गैलरी](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM) में देखें।\n",
    "\n",
    "[कैसी ब्रेवियू](https://www.twitter.com/cassieview) और [जेन लूपर](https://www.twitter.com/jenlooper) को, जिन्होंने इस मॉड्यूल का मूल Python संस्करण बनाया ♥️\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/r_learners_sm.jpeg\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>चित्रण @allison_horst द्वारा</figcaption>\n"
   ],
   "metadata": {
    "id": "WQs5621pMGwf"
   }
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n---\n\n**अस्वीकरण**:  \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।  \n"
   ]
  }
 ]
}