You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ne/4-Classification/1-Introduction/solution/R/lesson_10-R.ipynb

718 lines
44 KiB

{
"nbformat": 4,
"nbformat_minor": 2,
"metadata": {
"colab": {
"name": "lesson_10-R.ipynb",
"provenance": [],
"collapsed_sections": []
},
"kernelspec": {
"name": "ir",
"display_name": "R"
},
"language_info": {
"name": "R"
},
"coopTranslator": {
"original_hash": "2621e24705e8100893c9bf84e0fc8aef",
"translation_date": "2025-08-29T19:36:15+00:00",
"source_file": "4-Classification/1-Introduction/solution/R/lesson_10-R.ipynb",
"language_code": "ne"
}
},
"cells": [
{
"cell_type": "markdown",
"source": [],
"metadata": {
"id": "ItETB4tSFprR"
}
},
{
"cell_type": "markdown",
"source": [
"## वर्गीकरणको परिचय: आफ्नो डाटा सफा गर्नुहोस्, तयार गर्नुहोस्, र दृश्यात्मक बनाउनुहोस्\n",
"\n",
"यी चार पाठहरूमा, तपाईं क्लासिक मेसिन लर्निङको एक आधारभूत ध्यान केन्द्रित गर्नेछौं - *वर्गीकरण*। हामी विभिन्न वर्गीकरण एल्गोरिदमहरू प्रयोग गर्दै एशिया र भारतका सबै अद्भुत परिकारहरूको डाटासेटसँग काम गर्नेछौं। आशा छ तपाईं भोकाउनु भएको छ!\n",
"\n",
"<p >\n",
" <img src=\"../../images/pinch.png\"\n",
" width=\"600\"/>\n",
" <figcaption>यी पाठहरूमा प्यान-एशियाली परिकारहरूको उत्सव मनाउनुहोस्! छवि: जेन लूपर</figcaption>\n",
"\n",
"<!--![यी पाठहरूमा प्यान-एशियाली परिकारहरूको उत्सव मनाउनुहोस्! छवि: जेन लूपर](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.ne.png)-->\n",
"\n",
"वर्गीकरण [सुपरभाइज्ड लर्निङ](https://wikipedia.org/wiki/Supervised_learning) को एक प्रकार हो, जसले धेरै हदसम्म रिग्रेसन प्रविधिहरूसँग समानता राख्छ। वर्गीकरणमा, तपाईंले एउटा मोडेललाई प्रशिक्षण दिनुहुन्छ ताकि यसले कुनै वस्तु कुन `श्रेणी`मा पर्छ भनेर भविष्यवाणी गर्न सकोस्। यदि मेसिन लर्निङ भनेको डाटासेटहरू प्रयोग गरेर मूल्यहरू वा नामहरू भविष्यवाणी गर्ने कुरा हो भने, वर्गीकरण सामान्यतया दुई समूहमा विभाजित हुन्छ: *बाइनरी वर्गीकरण* र *मल्टिक्लास वर्गीकरण*।\n",
"\n",
"याद गर्नुहोस्:\n",
"\n",
"- **लिनियर रिग्रेसन** ले तपाईंलाई भेरिएबलहरू बीचको सम्बन्ध भविष्यवाणी गर्न र नयाँ डाटापोइन्ट त्यो रेखासँगको सम्बन्धमा कहाँ पर्छ भनेर सटीक भविष्यवाणी गर्न मद्दत गर्‍यो। उदाहरणका लागि, तपाईं *सेप्टेम्बर बनाम डिसेम्बरमा कद्दूको मूल्य कति हुनेछ* भनेर भविष्यवाणी गर्न सक्नुहुन्छ।\n",
"\n",
"- **लजिस्टिक रिग्रेसन** ले तपाईंलाई \"बाइनरी श्रेणीहरू\" पत्ता लगाउन मद्दत गर्‍यो: यो मूल्य बिन्दुमा, *यो कद्दू सुन्तला हो वा गैर-सुन्तला*?\n",
"\n",
"वर्गीकरणले विभिन्न एल्गोरिदमहरू प्रयोग गरेर डाटापोइन्टको लेबल वा वर्ग निर्धारण गर्ने अन्य तरिकाहरू पत्ता लगाउँछ। आउनुहोस्, यो परिकार डाटासँग काम गरौं र हेर्नुहोस् कि सामग्रीहरूको समूहलाई अवलोकन गरेर, हामी यसको उत्पत्तिको परिकार पत्ता लगाउन सक्छौं कि सक्दैनौं।\n",
"\n",
"### [**पाठ अघि क्विज**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)\n",
"\n",
"### **परिचय**\n",
"\n",
"वर्गीकरण मेसिन लर्निङ अनुसन्धानकर्ता र डाटा वैज्ञानिकको आधारभूत गतिविधिहरूमध्ये एक हो। साधारण बाइनरी मानको वर्गीकरण (\"यो इमेल स्प्याम हो वा होइन?\") देखि लिएर जटिल छवि वर्गीकरण र कम्प्युटर भिजन प्रयोग गरेर विभाजनसम्म, डाटालाई वर्गमा विभाजन गर्न र यसलाई प्रश्न सोध्न सक्षम हुनु सधैं उपयोगी हुन्छ।\n",
"\n",
"यो प्रक्रियालाई वैज्ञानिक तरिकाले भन्नुपर्दा, तपाईंको वर्गीकरण विधिले एउटा भविष्यवाणी मोडेल सिर्जना गर्छ, जसले इनपुट भेरिएबलहरू र आउटपुट भेरिएबलहरू बीचको सम्बन्धलाई नक्सा बनाउन सक्षम बनाउँछ।\n",
"\n",
"<p >\n",
" <img src=\"../../images/binary-multiclass.png\"\n",
" width=\"600\"/>\n",
" <figcaption>वर्गीकरण एल्गोरिदमहरूले सामना गर्ने बाइनरी बनाम मल्टिक्लास समस्या। इन्फोग्राफिक: जेन लूपर</figcaption>\n",
"\n",
"डाटालाई सफा गर्ने, दृश्यात्मक बनाउने, र यसलाई हाम्रो एमएल कार्यहरूको लागि तयार गर्ने प्रक्रियाको सुरुवात गर्नु अघि, मेसिन लर्निङले डाटालाई वर्गीकृत गर्न प्रयोग गर्न सक्ने विभिन्न तरिकाहरूको बारेमा थोरै सिकौं।\n",
"\n",
"[सांख्यिकी](https://wikipedia.org/wiki/Statistical_classification) बाट व्युत्पन्न, क्लासिक मेसिन लर्निङ प्रयोग गरेर वर्गीकरणले `स्मोकर`, `वजन`, र `उमेर` जस्ता विशेषताहरू प्रयोग गरेर *X रोग विकासको सम्भावना* निर्धारण गर्दछ। तपाईंले पहिले गरेका रिग्रेसन अभ्यासहरू जस्तै सुपरभाइज्ड लर्निङ प्रविधिको रूपमा, तपाईंको डाटा लेबल गरिएको हुन्छ र एमएल एल्गोरिदमहरूले ती लेबलहरू प्रयोग गरेर डाटासेटको वर्गहरू (वा 'विशेषताहरू') वर्गीकृत र भविष्यवाणी गर्छन् र तिनीहरूलाई समूह वा परिणाममा असाइन गर्छन्।\n",
"\n",
"✅ एक क्षण लिनुहोस् र परिकारहरूको बारेमा एउटा डाटासेट कल्पना गर्नुहोस्। मल्टिक्लास मोडेलले के उत्तर दिन सक्छ? बाइनरी मोडेलले के उत्तर दिन सक्छ? यदि तपाईंले कुनै परिकारले मेथी प्रयोग गर्ने सम्भावना छ कि छैन भनेर निर्धारण गर्न चाहनुभयो भने के होला? यदि तपाईंले तारा सौंफ, आर्टिचोक, फूलगोभी, र हर्सराडिशले भरिएको किराना झोला पाएर एउटा सामान्य भारतीय परिकार बनाउन सकिन्छ कि सकिँदैन भनेर हेर्न चाहनुभयो भने के होला?\n",
"\n",
"### **'क्लासिफायर' लाई नमस्ते भन्नुहोस्**\n",
"\n",
"हामीले यो परिकार डाटासेटसँग सोध्न चाहेको प्रश्न वास्तवमा **मल्टिक्लास प्रश्न** हो, किनभने हामीसँग काम गर्न धेरै सम्भावित राष्ट्रिय परिकारहरू छन्। सामग्रीहरूको एउटा समूह दिइएको अवस्थामा, यी धेरै वर्गहरूमध्ये कुनमा डाटा फिट हुन्छ?\n",
"\n",
"Tidymodels ले डाटालाई वर्गीकृत गर्न विभिन्न प्रकारका एल्गोरिदमहरू प्रदान गर्दछ, तपाईंले समाधान गर्न चाहेको समस्याको प्रकारमा निर्भर गर्दै। आगामी दुई पाठहरूमा, तपाईं यी एल्गोरिदमहरूबारे सिक्नुहुनेछ।\n",
"\n",
"#### **पूर्वआवश्यकता**\n",
"\n",
"यस पाठको लागि, हामीलाई डाटालाई सफा गर्न, तयार गर्न, र दृश्यात्मक बनाउन निम्न प्याकेजहरू आवश्यक हुनेछ:\n",
"\n",
"- `tidyverse`: [tidyverse](https://www.tidyverse.org/) [R प्याकेजहरूको संग्रह](https://www.tidyverse.org/packages) हो, जसले डाटा विज्ञानलाई छिटो, सजिलो र रमाइलो बनाउँछ!\n",
"\n",
"- `tidymodels`: [tidymodels](https://www.tidymodels.org/) फ्रेमवर्क [मोडलिङ र मेसिन लर्निङका लागि प्याकेजहरूको संग्रह](https://www.tidymodels.org/packages/) हो।\n",
"\n",
"- `DataExplorer`: [DataExplorer प्याकेज](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) EDA प्रक्रिया र रिपोर्ट निर्माणलाई सरल र स्वचालित बनाउनको लागि हो।\n",
"\n",
"- `themis`: [themis प्याकेज](https://themis.tidymodels.org/) असन्तुलित डाटासँग काम गर्न अतिरिक्त रेसिपी चरणहरू प्रदान गर्दछ।\n",
"\n",
"तपाईं यी प्याकेजहरू यसरी इन्स्टल गर्न सक्नुहुन्छ:\n",
"\n",
"`install.packages(c(\"tidyverse\", \"tidymodels\", \"DataExplorer\", \"here\"))`\n",
"\n",
"वैकल्पिक रूपमा, तलको स्क्रिप्टले जाँच गर्छ कि तपाईंले यो मोड्युल पूरा गर्न आवश्यक प्याकेजहरू छ कि छैन, र यदि छैन भने तिनीहरूलाई तपाईंको लागि इन्स्टल गर्छ।\n"
],
"metadata": {
"id": "ri5bQxZ-Fz_0"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"suppressWarnings(if (!require(\"pacman\"))install.packages(\"pacman\"))\r\n",
"\r\n",
"pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)"
],
"outputs": [],
"metadata": {
"id": "KIPxa4elGAPI"
}
},
{
"cell_type": "markdown",
"source": [
"हामी पछि यी उत्कृष्ट प्याकेजहरू लोड गर्नेछौं र तिनीहरूलाई हाम्रो वर्तमान R सत्रमा उपलब्ध गराउनेछौं। (यो केवल उदाहरणको लागि हो, `pacman::p_load()` ले पहिले नै तपाईंको लागि यो गरिसकेको छ)\n"
],
"metadata": {
"id": "YkKAxOJvGD4C"
}
},
{
"cell_type": "markdown",
"source": [
"## अभ्यास - आफ्नो डेटा सफा र सन्तुलित गर्नुहोस्\n",
"\n",
"यस परियोजना सुरु गर्नु अघि पहिलो काम भनेको आफ्नो डेटा सफा र **सन्तुलित** गर्नु हो ताकि राम्रो नतिजा प्राप्त गर्न सकियोस्।\n",
"\n",
"आउनुहोस्, डेटा भेटौं!🕵️\n"
],
"metadata": {
"id": "PFkQDlk0GN5O"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Import data\r\n",
"df <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv\")\r\n",
"\r\n",
"# View the first 5 rows\r\n",
"df %>% \r\n",
" slice_head(n = 5)\r\n"
],
"outputs": [],
"metadata": {
"id": "Qccw7okxGT0S"
}
},
{
"cell_type": "markdown",
"source": [
"रोचक! देख्दा पहिलो स्तम्भ एक प्रकारको `id` स्तम्भ जस्तो छ। डेटा बारे थोरै थप जानकारी प्राप्त गरौं।\n"
],
"metadata": {
"id": "XrWnlgSrGVmR"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Basic information about the data\r\n",
"df %>%\r\n",
" introduce()\r\n",
"\r\n",
"# Visualize basic information above\r\n",
"df %>% \r\n",
" plot_intro(ggtheme = theme_light())"
],
"outputs": [],
"metadata": {
"id": "4UcGmxRxGieA"
}
},
{
"cell_type": "markdown",
"source": [
"आउटपुटबाट, हामीले तुरुन्तै देख्न सक्छौं कि हामीसँग `2448` पङ्क्तिहरू र `385` स्तम्भहरू छन् र `0` हराएका मानहरू छन्। साथै, हामीसँग 1 छुट्टै स्तम्भ छ, *cuisine*।\n",
"\n",
"## अभ्यास - खानाका प्रकारहरूको बारेमा सिक्दै\n",
"\n",
"अब काम अझ रोचक बन्दै जान्छ। आउनुहोस्, प्रत्येक खानाका प्रकार अनुसार डेटा वितरण पत्ता लगाउँ।\n"
],
"metadata": {
"id": "AaPubl__GmH5"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Count observations per cuisine\r\n",
"df %>% \r\n",
" count(cuisine) %>% \r\n",
" arrange(n)\r\n",
"\r\n",
"# Plot the distribution\r\n",
"theme_set(theme_light())\r\n",
"df %>% \r\n",
" count(cuisine) %>% \r\n",
" ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +\r\n",
" geom_col(fill = \"midnightblue\", alpha = 0.7) +\r\n",
" ylab(\"cuisine\")"
],
"outputs": [],
"metadata": {
"id": "FRsBVy5eGrrv"
}
},
{
"cell_type": "markdown",
"source": [
"खानाका प्रकारहरू सीमित छन्, तर डाटाको वितरण असमान छ। तपाईं यसलाई सुधार गर्न सक्नुहुन्छ! त्यसो गर्नु अघि, अलिकति थप अन्वेषण गर्नुहोस्।\n",
"\n",
"अब, प्रत्येक खानालाई यसको आफ्नै tibble मा विभाजन गरौं र प्रत्येक खानाका लागि कति डाटा उपलब्ध छ (पंक्ति, स्तम्भ) पत्ता लगाऔं।\n",
"\n",
"> [tibble](https://tibble.tidyverse.org/) आधुनिक डेटा फ्रेम हो।\n",
"\n",
"<p >\n",
" <img src=\"../../images/dplyr_filter.jpg\"\n",
" width=\"600\"/>\n",
" <figcaption>@allison_horst द्वारा सिर्जित चित्रकला</figcaption>\n"
],
"metadata": {
"id": "vVvyDb1kG2in"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Create individual tibble for the cuisines\r\n",
"thai_df <- df %>% \r\n",
" filter(cuisine == \"thai\")\r\n",
"japanese_df <- df %>% \r\n",
" filter(cuisine == \"japanese\")\r\n",
"chinese_df <- df %>% \r\n",
" filter(cuisine == \"chinese\")\r\n",
"indian_df <- df %>% \r\n",
" filter(cuisine == \"indian\")\r\n",
"korean_df <- df %>% \r\n",
" filter(cuisine == \"korean\")\r\n",
"\r\n",
"\r\n",
"# Find out how much data is available per cuisine\r\n",
"cat(\" thai df:\", dim(thai_df), \"\\n\",\r\n",
" \"japanese df:\", dim(japanese_df), \"\\n\",\r\n",
" \"chinese_df:\", dim(chinese_df), \"\\n\",\r\n",
" \"indian_df:\", dim(indian_df), \"\\n\",\r\n",
" \"korean_df:\", dim(korean_df))"
],
"outputs": [],
"metadata": {
"id": "0TvXUxD3G8Bk"
}
},
{
"cell_type": "markdown",
"source": [
"## **अभ्यास - dplyr प्रयोग गरेर विभिन्न खानाका शीर्ष सामग्री पत्ता लगाउनुहोस्**\n",
"\n",
"अब तपाईंले डाटामा गहिरो अध्ययन गर्न सक्नुहुन्छ र विभिन्न खानाका लागि सामान्य सामग्रीहरू के हुन् भनेर जान्न सक्नुहुन्छ। तपाईंले बारम्बार दोहोरिने डाटा हटाउनुपर्छ जसले विभिन्न खानाहरू बीच भ्रम सिर्जना गर्दछ, त्यसैले यस समस्याबारे सिकौं।\n",
"\n",
"R मा `create_ingredient()` नामको एउटा function बनाउनुहोस् जसले सामग्रीको dataframe फिर्ता गर्छ। यो function ले एउटा अनुपयोगी स्तम्भ हटाएर सामग्रीलाई तिनीहरूको गणनाका आधारमा क्रमबद्ध गर्न सुरु गर्नेछ।\n",
"\n",
"R मा function को आधारभूत संरचना यस्तो छ:\n",
"\n",
"`myFunction <- function(arglist){`\n",
"\n",
"**`...`**\n",
"\n",
"**`return`**`(value)`\n",
"\n",
"`}`\n",
"\n",
"R functions को बारेमा व्यवस्थित परिचय [यहाँ](https://skirmer.github.io/presentations/functions_with_r.html#1) भेट्न सकिन्छ।\n",
"\n",
"अब काम सुरु गरौं! हामीले अघिल्लो पाठहरूमा सिकेका [dplyr verbs](https://dplyr.tidyverse.org/) को प्रयोग गर्नेछौं। पुनःस्मरणको रूपमा:\n",
"\n",
"- `dplyr::select()`: तपाईंलाई कुन **स्तम्भहरू** राख्ने वा हटाउने निर्णय गर्न मद्दत गर्छ।\n",
"\n",
"- `dplyr::pivot_longer()`: तपाईंलाई डाटालाई \"लम्बाइमा\" परिवर्तन गर्न मद्दत गर्छ, जसले पङ्क्तिहरूको संख्या बढाउँछ र स्तम्भहरूको संख्या घटाउँछ।\n",
"\n",
"- `dplyr::group_by()` र `dplyr::summarise()`: तपाईंलाई विभिन्न समूहहरूको लागि सारांश तथ्यांकहरू पत्ता लगाउन र तिनीहरूलाई राम्रो तालिकामा राख्न मद्दत गर्छ।\n",
"\n",
"- `dplyr::filter()`: तपाईंको सर्तहरू पूरा गर्ने पङ्क्तिहरू मात्र समावेश गर्ने डाटाको उपसमूह सिर्जना गर्छ।\n",
"\n",
"- `dplyr::mutate()`: तपाईंलाई स्तम्भहरू सिर्जना गर्न वा परिमार्जन गर्न मद्दत गर्छ।\n",
"\n",
"Allison Horst द्वारा तयार गरिएको [*art*-ले भरिएको learnr tutorial](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) हेर्नुहोस्, जसले dplyr *(Tidyverse को भाग)* मा केही उपयोगी डाटा व्यवस्थापन functions प्रस्तुत गर्दछ।\n"
],
"metadata": {
"id": "K3RF5bSCHC76"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Creates a functions that returns the top ingredients by class\r\n",
"\r\n",
"create_ingredient <- function(df){\r\n",
" \r\n",
" # Drop the id column which is the first colum\r\n",
" ingredient_df = df %>% select(-1) %>% \r\n",
" # Transpose data to a long format\r\n",
" pivot_longer(!cuisine, names_to = \"ingredients\", values_to = \"count\") %>% \r\n",
" # Find the top most ingredients for a particular cuisine\r\n",
" group_by(ingredients) %>% \r\n",
" summarise(n_instances = sum(count)) %>% \r\n",
" filter(n_instances != 0) %>% \r\n",
" # Arrange by descending order\r\n",
" arrange(desc(n_instances)) %>% \r\n",
" mutate(ingredients = factor(ingredients) %>% fct_inorder())\r\n",
" \r\n",
" \r\n",
" return(ingredient_df)\r\n",
"} # End of function"
],
"outputs": [],
"metadata": {
"id": "uB_0JR82HTPa"
}
},
{
"cell_type": "markdown",
"source": [
"अब हामीले `thai_df` प्रयोग गरेर विभिन्न परिकारमा सबैभन्दा लोकप्रिय दस सामग्रीको सूची पत्ता लगाउन सक्नेछौं। यसलाई प्रयोग गरेर हेर्नुहोस्।\n"
],
"metadata": {
"id": "h9794WF8HWmc"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Call create_ingredient and display popular ingredients\r\n",
"thai_ingredient_df <- create_ingredient(df = thai_df)\r\n",
"\r\n",
"thai_ingredient_df %>% \r\n",
" slice_head(n = 10)"
],
"outputs": [],
"metadata": {
"id": "agQ-1HrcHaEA"
}
},
{
"cell_type": "markdown",
"source": [
"अघिल्लो खण्डमा, हामीले `geom_col()` प्रयोग गरेका थियौं, अब हेरौं कसरी तपाईं `geom_bar` पनि प्रयोग गर्न सक्नुहुन्छ, बार चार्टहरू बनाउन। थप अध्ययनका लागि `?geom_bar` प्रयोग गर्नुहोस्।\n"
],
"metadata": {
"id": "kHu9ffGjHdcX"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Make a bar chart for popular thai cuisines\r\n",
"thai_ingredient_df %>% \r\n",
" slice_head(n = 10) %>% \r\n",
" ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
" geom_bar(stat = \"identity\", width = 0.5, fill = \"steelblue\") +\r\n",
" xlab(\"\") + ylab(\"\")"
],
"outputs": [],
"metadata": {
"id": "fb3Bx_3DHj6e"
}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {
"id": "RHP_xgdkHnvM"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Get popular ingredients for Japanese cuisines and make bar chart\r\n",
"create_ingredient(df = japanese_df) %>% \r\n",
" slice_head(n = 10) %>%\r\n",
" ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
" geom_bar(stat = \"identity\", width = 0.5, fill = \"darkorange\", alpha = 0.8) +\r\n",
" xlab(\"\") + ylab(\"\")\r\n"
],
"outputs": [],
"metadata": {
"id": "019v8F0XHrRU"
}
},
{
"cell_type": "markdown",
"source": [
"चिनियाँ परिकारहरूको के कुरा गर्ने?\n"
],
"metadata": {
"id": "iIGM7vO8Hu3v"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Get popular ingredients for Chinese cuisines and make bar chart\r\n",
"create_ingredient(df = chinese_df) %>% \r\n",
" slice_head(n = 10) %>%\r\n",
" ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
" geom_bar(stat = \"identity\", width = 0.5, fill = \"cyan4\", alpha = 0.8) +\r\n",
" xlab(\"\") + ylab(\"\")"
],
"outputs": [],
"metadata": {
"id": "lHd9_gd2HyzU"
}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {
"id": "ir8qyQbNH1c7"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Get popular ingredients for Indian cuisines and make bar chart\r\n",
"create_ingredient(df = indian_df) %>% \r\n",
" slice_head(n = 10) %>%\r\n",
" ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
" geom_bar(stat = \"identity\", width = 0.5, fill = \"#041E42FF\", alpha = 0.8) +\r\n",
" xlab(\"\") + ylab(\"\")"
],
"outputs": [],
"metadata": {
"id": "ApukQtKjH5FO"
}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {
"id": "qv30cwY1H-FM"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Get popular ingredients for Korean cuisines and make bar chart\r\n",
"create_ingredient(df = korean_df) %>% \r\n",
" slice_head(n = 10) %>%\r\n",
" ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
" geom_bar(stat = \"identity\", width = 0.5, fill = \"#852419FF\", alpha = 0.8) +\r\n",
" xlab(\"\") + ylab(\"\")"
],
"outputs": [],
"metadata": {
"id": "lumgk9cHIBie"
}
},
{
"cell_type": "markdown",
"source": [
"डाटा भिजुअलाइजेसनहरूबाट, अब हामी फरक-फरक परिकारहरू बीच भ्रम सिर्जना गर्ने सबैभन्दा सामान्य सामग्रीहरू हटाउन सक्छौं, `dplyr::select()` प्रयोग गरेर।\n",
"\n",
"सबैलाई चामल, लसुन र अदुवा मन पर्छ!\n"
],
"metadata": {
"id": "iO4veMXuIEta"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Drop id column, rice, garlic and ginger from our original data set\r\n",
"df_select <- df %>% \r\n",
" select(-c(1, rice, garlic, ginger))\r\n",
"\r\n",
"# Display new data set\r\n",
"df_select %>% \r\n",
" slice_head(n = 5)"
],
"outputs": [],
"metadata": {
"id": "iHJPiG6rIUcK"
}
},
{
"cell_type": "markdown",
"source": [
"## रेसिपी प्रयोग गरेर डेटा पूर्वप्रसंस्करण 👩‍🍳👨‍🍳 - असन्तुलित डेटा व्यवस्थापन ⚖️\n",
"\n",
"<p >\n",
" <img src=\"../../images/recipes.png\"\n",
" width=\"600\"/>\n",
" <figcaption>कलाकृति: @allison_horst</figcaption>\n",
"\n",
"यो पाठ खानाका प्रकारहरूबारे भएकाले, हामीले `recipes` लाई सन्दर्भमा राख्नुपर्छ।\n",
"\n",
"Tidymodels ले अर्को उपयोगी प्याकेज प्रदान गर्दछ: `recipes` - डेटा पूर्वप्रसंस्करणको लागि एक प्याकेज।\n"
],
"metadata": {
"id": "kkFd-JxdIaL6"
}
},
{
"cell_type": "markdown",
"source": [
"हामी फेरि हाम्रो परिकारहरूको वितरणलाई हेर्ने प्रयास गरौं।\n"
],
"metadata": {
"id": "6l2ubtTPJAhY"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Distribution of cuisines\r\n",
"old_label_count <- df_select %>% \r\n",
" count(cuisine) %>% \r\n",
" arrange(desc(n))\r\n",
"\r\n",
"old_label_count"
],
"outputs": [],
"metadata": {
"id": "1e-E9cb7JDVi"
}
},
{
"cell_type": "markdown",
"source": [
"जस्तो देखिन्छ, यहाँ परिकारहरूको संख्यामा धेरै असमान वितरण छ। कोरियन परिकारहरू थाई परिकारहरूको लगभग तीन गुणा छन्। असन्तुलित डाटाले प्रायः मोडेलको प्रदर्शनमा नकारात्मक प्रभाव पार्छ। एउटा बाइनरी वर्गीकरणको बारेमा सोच्नुहोस्। यदि तपाईंको अधिकांश डाटा एउटै वर्गको हो भने, एउटा ML मोडेलले त्यो वर्गलाई बढी बारम्बार भविष्यवाणी गर्नेछ, किनभने त्यस वर्गको लागि बढी डाटा उपलब्ध छ। डाटालाई सन्तुलित बनाउनुले कुनै पनि असमान डाटालाई हटाउँछ र यो असन्तुलनलाई सुधार गर्न मद्दत गर्दछ। धेरै मोडेलहरू तब राम्रो प्रदर्शन गर्छन् जब अवलोकनहरूको संख्या समान हुन्छ, र त्यसैले असन्तुलित डाटासँग संघर्ष गर्न सक्छन्।\n",
"\n",
"असन्तुलित डाटा सेटहरूलाई व्यवस्थापन गर्ने दुई मुख्य तरिका छन्:\n",
"\n",
"- अल्पसंख्यक वर्गमा अवलोकनहरू थप्ने: `ओभर-स्याम्पलिङ`, जस्तै SMOTE एल्गोरिदम प्रयोग गरेर\n",
"\n",
"- बहुसंख्यक वर्गबाट अवलोकनहरू हटाउने: `अन्डर-स्याम्पलिङ`\n",
"\n",
"अब हामी `recipe` प्रयोग गरेर असन्तुलित डाटा सेटहरूलाई कसरी व्यवस्थापन गर्ने भनेर प्रदर्शन गर्नेछौं। एउटा recipe लाई एउटा ब्लूप्रिन्टको रूपमा सोच्न सकिन्छ, जसले डाटा सेटलाई डाटा विश्लेषणको लागि तयार पार्न के कदमहरू लागू गर्नुपर्छ भनेर वर्णन गर्दछ।\n"
],
"metadata": {
"id": "soAw6826JKx9"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Load themis package for dealing with imbalanced data\r\n",
"library(themis)\r\n",
"\r\n",
"# Create a recipe for preprocessing data\r\n",
"cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% \r\n",
" step_smote(cuisine)\r\n",
"\r\n",
"cuisines_recipe"
],
"outputs": [],
"metadata": {
"id": "HS41brUIJVJy"
}
},
{
"cell_type": "markdown",
"source": [
"हामीले हाम्रो पूर्वप्रक्रिया चरणहरूलाई टुक्रा-टुक्रामा बुझ्ने प्रयास गरौं।\n",
"\n",
"- `recipe()` लाई सूत्रसहित बोलाउँदा, यसले `df_select` डेटा प्रयोग गरेर भेरिएबलहरूको *भूमिका* निर्धारण गर्दछ। उदाहरणका लागि, `cuisine` स्तम्भलाई `outcome` भूमिका दिइएको छ भने बाँकी स्तम्भहरूलाई `predictor` भूमिका दिइएको छ।\n",
"\n",
"- [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) ले रेसिपी चरणको *विशेषता* सिर्जना गर्दछ, जसले न्यूनतम वर्गका नयाँ उदाहरणहरू नजिकका छिमेकीहरूको प्रयोग गरेर कृत्रिम रूपमा उत्पन्न गर्दछ।\n",
"\n",
"अब, यदि हामीले पूर्वप्रक्रिया गरिएको डेटा हेर्न चाह्यौं भने, हामीले [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) र [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) हाम्रो रेसिपीमा प्रयोग गर्नुपर्नेछ।\n",
"\n",
"`prep()`: प्रशिक्षण सेटबाट आवश्यक प्यारामिटरहरू अनुमान गर्दछ, जसलाई पछि अन्य डेटा सेटहरूमा लागू गर्न सकिन्छ।\n",
"\n",
"`bake()`: तयार गरिएको रेसिपीलाई कुनै पनि डेटा सेटमा लागू गर्दछ।\n"
],
"metadata": {
"id": "Yb-7t7XcJaC8"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Prep and bake the recipe\r\n",
"preprocessed_df <- cuisines_recipe %>% \r\n",
" prep() %>% \r\n",
" bake(new_data = NULL) %>% \r\n",
" relocate(cuisine)\r\n",
"\r\n",
"# Display data\r\n",
"preprocessed_df %>% \r\n",
" slice_head(n = 5)\r\n",
"\r\n",
"# Quick summary stats\r\n",
"preprocessed_df %>% \r\n",
" introduce()"
],
"outputs": [],
"metadata": {
"id": "9QhSgdpxJl44"
}
},
{
"cell_type": "markdown",
"source": [
"अब हाम्रा परिकारहरूको वितरण जाँच गरौं र तिनीहरूलाई असन्तुलित डाटासँग तुलना गरौं।\n"
],
"metadata": {
"id": "dmidELh_LdV7"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Distribution of cuisines\r\n",
"new_label_count <- preprocessed_df %>% \r\n",
" count(cuisine) %>% \r\n",
" arrange(desc(n))\r\n",
"\r\n",
"list(new_label_count = new_label_count,\r\n",
" old_label_count = old_label_count)"
],
"outputs": [],
"metadata": {
"id": "aSh23klBLwDz"
}
},
{
"cell_type": "markdown",
"source": [
"यम! डाटा सफा, सन्तुलित, र धेरै स्वादिष्ट छ 😋!\n",
"\n",
"> सामान्यतया, एक रेसिपीलाई मोडलिङको लागि प्रिप्रोसेसरको रूपमा प्रयोग गरिन्छ, जहाँ यसले डाटा सेटलाई मोडलिङको लागि तयार गर्नका लागि कुन चरणहरू लागू गर्नुपर्छ भनेर परिभाषित गर्दछ। यस्तो अवस्थामा, `workflow()` सामान्यतया प्रयोग गरिन्छ (जसरी हामीले हाम्रा अघिल्ला पाठहरूमा देखिसकेका छौं) रेसिपीलाई म्यानुअली अनुमान गर्ने सट्टा।\n",
">\n",
"> त्यसैले, tidymodels प्रयोग गर्दा तपाईंलाई सामान्यतया **`prep()`** र **`bake()`** रेसिपीहरू आवश्यक पर्दैन, तर यी तपाईंको टूलकिटमा उपयोगी फङ्सनहरू हुन्, जसले रेसिपीहरूले तपाईंले अपेक्षा गरेजस्तै काम गरिरहेको छ कि छैन भनेर पुष्टि गर्न मद्दत गर्छ, जस्तै हाम्रो केसमा।\n",
">\n",
"> जब तपाईं **`new_data = NULL`** को साथमा प्रिप गरिएको रेसिपीलाई **`bake()`** गर्नुहुन्छ, तपाईंले रेसिपी परिभाषा गर्दा दिएको डाटा फिर्ता पाउनुहुन्छ, तर यसले प्रिप्रोसेसिङ चरणहरू पार गरिसकेको हुन्छ।\n",
"\n",
"अब यो डाटाको एक प्रति भविष्यका पाठहरूको लागि सुरक्षित गरौं:\n"
],
"metadata": {
"id": "HEu80HZ8L7ae"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Save preprocessed data\r\n",
"write_csv(preprocessed_df, \"../../../data/cleaned_cuisines_R.csv\")"
],
"outputs": [],
"metadata": {
"id": "cBmCbIgrMOI6"
}
},
{
"cell_type": "markdown",
"source": [
"यो नयाँ CSV अब मूल डेटा फोल्डरमा भेट्न सकिन्छ।\n",
"\n",
"**🚀चुनौती**\n",
"\n",
"यो पाठ्यक्रममा धेरै रोचक डेटा सेटहरू समावेश छन्। `data` फोल्डरहरूमा खोजी गर्नुहोस् र हेर्नुहोस् कि कुनै डेटा सेटहरू द्विपक्षीय वा बहु-वर्ग वर्गीकरणको लागि उपयुक्त छन्? तपाईं यस डेटा सेटसँग के प्रश्नहरू सोध्नुहुन्छ?\n",
"\n",
"## [**पाठपछि क्विज**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)\n",
"\n",
"## **पुनरावलोकन र आत्म-अध्ययन**\n",
"\n",
"- [प्याकेज themis](https://github.com/tidymodels/themis) हेर्नुहोस्। असन्तुलित डेटा समाधान गर्न हामी कुन अन्य प्रविधिहरू प्रयोग गर्न सक्दछौं?\n",
"\n",
"- Tidy models [सन्दर्भ वेबसाइट](https://www.tidymodels.org/start/)।\n",
"\n",
"- एच. विकह्याम र जी. ग्रोलमन्ड, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/)।\n",
"\n",
"#### धन्यवाद:\n",
"\n",
"[`एलिसन होर्स्ट`](https://twitter.com/allison_horst/) लाई R लाई अझ स्वागतयोग्य र आकर्षक बनाउने अद्भुत चित्रणहरू सिर्जना गरेकोमा। उनको [ग्यालरी](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM) मा थप चित्रणहरू फेला पार्नुहोस्।\n",
"\n",
"[Cassie Breviu](https://www.twitter.com/cassieview) र [Jen Looper](https://www.twitter.com/jenlooper) लाई यस मोड्युलको मूल Python संस्करण सिर्जना गरेकोमा ♥️\n",
"\n",
"<p >\n",
" <img src=\"../../images/r_learners_sm.jpeg\"\n",
" width=\"600\"/>\n",
" <figcaption>@allison_horst द्वारा कलाकृति</figcaption>\n"
],
"metadata": {
"id": "WQs5621pMGwf"
}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nयो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।\n"
]
}
]
}