You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
449 lines
29 KiB
449 lines
29 KiB
{
|
|
"nbformat": 4,
|
|
"nbformat_minor": 2,
|
|
"metadata": {
|
|
"colab": {
|
|
"name": "lesson_1-R.ipynb",
|
|
"provenance": [],
|
|
"collapsed_sections": [],
|
|
"toc_visible": true
|
|
},
|
|
"kernelspec": {
|
|
"name": "ir",
|
|
"display_name": "R"
|
|
},
|
|
"language_info": {
|
|
"name": "R"
|
|
},
|
|
"coopTranslator": {
|
|
"original_hash": "c18d3bd0bd8ae3878597e89dcd1fa5c1",
|
|
"translation_date": "2025-08-29T19:01:26+00:00",
|
|
"source_file": "2-Regression/1-Tools/solution/R/lesson_1-R.ipynb",
|
|
"language_code": "ne"
|
|
}
|
|
},
|
|
"cells": [
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [],
|
|
"metadata": {
|
|
"id": "YJUHCXqK57yz"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## रिग्रेशनको परिचय - पाठ १\n",
|
|
"\n",
|
|
"#### परिप्रेक्ष्यमा राख्दै\n",
|
|
"\n",
|
|
"✅ रिग्रेशनका धेरै प्रकारका विधिहरू छन्, र तपाईंले कुन विधि चयन गर्नुहुन्छ भन्ने कुरा तपाईंले खोजिरहेको उत्तरमा निर्भर गर्दछ। यदि तपाईंलाई कुनै निश्चित उमेरको व्यक्तिको सम्भावित उचाइ अनुमान गर्न चाहनुहुन्छ भने, तपाईं `linear regression` प्रयोग गर्नुहुनेछ, किनभने तपाईं **संख्यात्मक मान** खोज्दै हुनुहुन्छ। यदि तपाईंलाई थाहा पाउन चाहनुहुन्छ कि कुनै प्रकारको खाना शाकाहारी मान्नुपर्छ कि हुँदैन, तपाईं **श्रेणी निर्धारण** खोज्दै हुनुहुन्छ, त्यसैले तपाईं `logistic regression` प्रयोग गर्नुहुनेछ। तपाईंले logistic regression को बारेमा पछि थप जान्नुहुनेछ। डेटा सम्बन्धी केही प्रश्नहरू सोच्नुहोस्, र यी विधिहरूमध्ये कुन उपयुक्त हुनेछ भनेर विचार गर्नुहोस्।\n",
|
|
"\n",
|
|
"यस खण्डमा, तपाईं [मधुमेह सम्बन्धी सानो डेटासेट](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) सँग काम गर्नुहुनेछ। कल्पना गर्नुहोस् कि तपाईं मधुमेहका बिरामीहरूको उपचार परीक्षण गर्न चाहनुहुन्छ। मेशिन लर्निङ मोडेलहरूले तपाईंलाई विभिन्न चरहरूको संयोजनको आधारमा कुन बिरामीहरूले उपचारमा राम्रो प्रतिक्रिया दिनेछन् भनेर निर्धारण गर्न मद्दत गर्न सक्छ। एउटा धेरै आधारभूत रिग्रेशन मोडेलले पनि, जब दृश्यात्मक रूपमा प्रस्तुत गरिन्छ, चरहरूको बारेमा जानकारी देखाउन सक्छ जसले तपाईंलाई सैद्धान्तिक क्लिनिकल परीक्षणहरू व्यवस्थित गर्न मद्दत गर्न सक्छ।\n",
|
|
"\n",
|
|
"त्यसोभए, यो कार्य सुरु गरौं!\n",
|
|
"\n",
|
|
"<p >\n",
|
|
" <img src=\"../../images/encouRage.jpg\"\n",
|
|
" width=\"630\"/>\n",
|
|
" <figcaption>@allison_horst द्वारा कलाकृति</figcaption>\n",
|
|
"\n",
|
|
"<!--<br>@allison_horst द्वारा कलाकृति-->\n"
|
|
],
|
|
"metadata": {
|
|
"id": "LWNNzfqd6feZ"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## १. हाम्रो उपकरण सेट लोड गर्दै\n",
|
|
"\n",
|
|
"यस कार्यका लागि, हामीलाई निम्न प्याकेजहरू आवश्यक पर्छ:\n",
|
|
"\n",
|
|
"- `tidyverse`: [tidyverse](https://www.tidyverse.org/) [R प्याकेजहरूको संग्रह](https://www.tidyverse.org/packages) हो, जसले डेटा विज्ञानलाई छिटो, सजिलो र रमाइलो बनाउँछ!\n",
|
|
"\n",
|
|
"- `tidymodels`: [tidymodels](https://www.tidymodels.org/) फ्रेमवर्क [प्याकेजहरूको संग्रह](https://www.tidymodels.org/packages/) हो, जुन मोडेलिङ र मेसिन लर्निङका लागि प्रयोग गरिन्छ।\n",
|
|
"\n",
|
|
"तपाईं यी प्याकेजहरू यसरी इन्स्टल गर्न सक्नुहुन्छ:\n",
|
|
"\n",
|
|
"`install.packages(c(\"tidyverse\", \"tidymodels\"))`\n",
|
|
"\n",
|
|
"तलको स्क्रिप्टले जाँच गर्छ कि तपाईंले यो मोड्युल पूरा गर्न आवश्यक प्याकेजहरू पहिले नै इन्स्टल गर्नुभएको छ कि छैन, र यदि केही हराइरहेको छ भने, तिनीहरूलाई तपाईंको लागि इन्स्टल गर्छ।\n"
|
|
],
|
|
"metadata": {
|
|
"id": "FIo2YhO26wI9"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 2,
|
|
"source": [
|
|
"suppressWarnings(if(!require(\"pacman\")) install.packages(\"pacman\"))\n",
|
|
"pacman::p_load(tidyverse, tidymodels)"
|
|
],
|
|
"outputs": [
|
|
{
|
|
"output_type": "stream",
|
|
"name": "stderr",
|
|
"text": [
|
|
"Loading required package: pacman\n",
|
|
"\n"
|
|
]
|
|
}
|
|
],
|
|
"metadata": {
|
|
"id": "cIA9fz9v7Dss",
|
|
"colab": {
|
|
"base_uri": "https://localhost:8080/"
|
|
},
|
|
"outputId": "2df7073b-86b2-4b32-cb86-0da605a0dc11"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"अब, यी उत्कृष्ट प्याकेजहरू लोड गरौं र तिनीहरूलाई हाम्रो वर्तमान R सत्रमा उपलब्ध गराउँ। (यो केवल उदाहरणको लागि हो, `pacman::p_load()` ले पहिले नै तपाईंको लागि यो गरिसकेको छ)\n"
|
|
],
|
|
"metadata": {
|
|
"id": "gpO_P_6f9WUG"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"# load the core Tidyverse packages\r\n",
|
|
"library(tidyverse)\r\n",
|
|
"\r\n",
|
|
"# load the core Tidymodels packages\r\n",
|
|
"library(tidymodels)\r\n"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "NLMycgG-9ezO"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## २. डायबिटीज डाटासेट\n",
|
|
"\n",
|
|
"यस अभ्यासमा, हामी हाम्रो रिग्रेसन सीपलाई प्रदर्शन गर्नेछौं डायबिटीज डाटासेटमा भविष्यवाणी गरेर। [डायबिटीज डाटासेट](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) मा डायबिटीजसँग सम्बन्धित `४४२ नमूनाहरू` समावेश छन्, जसमा १० भविष्यवाणी गर्ने विशेषता भेरिएबलहरू छन्: `उमेर`, `लिङ्ग`, `शरीरको मास सूचकांक`, `औसत रक्तचाप`, र `छ वटा रक्त सीरम मापनहरू`, साथै परिणाम भेरिएबल `y`: आधाररेखापछि एक वर्षमा रोगको प्रगतिको मात्रात्मक मापन।\n",
|
|
"\n",
|
|
"|अवलोकनहरूको संख्या|४४२|\n",
|
|
"|------------------|:---|\n",
|
|
"|भविष्यवाणी गर्ने विशेषताहरू|पहिला १० स्तम्भहरू संख्यात्मक भविष्यवाणी गर्ने हुन्|\n",
|
|
"|परिणाम/लक्ष्य|११औं स्तम्भ आधाररेखापछि एक वर्षमा रोगको प्रगतिको मात्रात्मक मापन हो|\n",
|
|
"|भविष्यवाणी गर्ने विशेषताहरूको जानकारी|- उमेर (वर्षमा)\n",
|
|
"||- लिङ्ग\n",
|
|
"||- bmi शरीरको मास सूचकांक\n",
|
|
"||- bp औसत रक्तचाप\n",
|
|
"||- s1 tc, कुल सीरम कोलेस्ट्रोल\n",
|
|
"||- s2 ldl, कम-घनत्व लिपोप्रोटिन\n",
|
|
"||- s3 hdl, उच्च-घनत्व लिपोप्रोटिन\n",
|
|
"||- s4 tch, कुल कोलेस्ट्रोल / HDL\n",
|
|
"||- s5 ltg, सम्भवतः सीरम ट्राइग्लिसराइड्स स्तरको लग\n",
|
|
"||- s6 glu, रक्त चिनी स्तर|\n",
|
|
"\n",
|
|
"\n",
|
|
"> 🎓 सम्झनुहोस्, यो सुपरभाइज्ड लर्निङ हो, र हामीलाई 'y' नामक लक्ष्य चाहिन्छ।\n",
|
|
"\n",
|
|
"तपाईंले R मा डाटा ह्यान्डल गर्नुअघि, डाटालाई R को मेमोरीमा आयात गर्नुपर्छ, वा R ले टाढाबाट डाटामा पहुँच गर्न प्रयोग गर्न सक्ने कनेक्शन बनाउनुपर्छ।\n",
|
|
"\n",
|
|
"> [readr](https://readr.tidyverse.org/) प्याकेज, जुन Tidyverse को हिस्सा हो, आयताकार डाटालाई R मा छिटो र सजिलो तरिकाले पढ्नको लागि एक उपयोगी उपाय प्रदान गर्दछ।\n",
|
|
"\n",
|
|
"अब, हामी यो स्रोत URL मा उपलब्ध डायबिटीज डाटासेट लोड गर्नेछौं: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>\n",
|
|
"\n",
|
|
"त्यसपछि, हामी हाम्रो डाटामा `glimpse()` प्रयोग गरेर एक स्यानिटी चेक गर्नेछौं र `slice()` प्रयोग गरेर पहिलो ५ पङ्क्तिहरू प्रदर्शन गर्नेछौं।\n",
|
|
"\n",
|
|
"अर्को चरणमा अघि बढ्नु अघि, हामी R कोडमा तपाईंले प्रायः भेट्ने एउटा कुरा पनि परिचय गराउँछौं 🥁🥁: पाइप अपरेटर `%>%`\n",
|
|
"\n",
|
|
"पाइप अपरेटर (`%>%`) ले वस्तुलाई अगाडि बढाएर कार्य वा कल अभिव्यक्तिमा पास गरेर तार्किक क्रममा अपरेसनहरू प्रदर्शन गर्दछ। तपाईं पाइप अपरेटरलाई तपाईंको कोडमा \"र त्यसपछि\" भन्ने रूपमा सोच्न सक्नुहुन्छ।\n"
|
|
],
|
|
"metadata": {
|
|
"id": "KM6iXLH996Cl"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"# Import the data set\r\n",
|
|
"diabetes <- read_table2(file = \"https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt\")\r\n",
|
|
"\r\n",
|
|
"\r\n",
|
|
"# Get a glimpse and dimensions of the data\r\n",
|
|
"glimpse(diabetes)\r\n",
|
|
"\r\n",
|
|
"\r\n",
|
|
"# Select the first 5 rows of the data\r\n",
|
|
"diabetes %>% \r\n",
|
|
" slice(1:5)"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "Z1geAMhM-bSP"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"`glimpse()` ले हामीलाई देखाउँछ कि यो डाटामा 442 पङ्क्तिहरू र 11 स्तम्भहरू छन्, जसमा सबै स्तम्भहरूको डाटा प्रकार `double` छ।\n",
|
|
"\n",
|
|
"<br>\n",
|
|
"\n",
|
|
"> glimpse() र slice() [`dplyr`](https://dplyr.tidyverse.org/) का फङ्क्सनहरू हुन्। Dplyr, जुन Tidyverse को हिस्सा हो, डाटा हेरफेरको व्याकरण हो जसले तपाईंलाई सबैभन्दा सामान्य डाटा हेरफेर चुनौतीहरू समाधान गर्न मद्दत गर्ने एकरूप क्रियाहरूको सेट प्रदान गर्दछ।\n",
|
|
"\n",
|
|
"<br>\n",
|
|
"\n",
|
|
"अब हामीसँग डाटा छ, यस अभ्यासका लागि एउटा विशेषता (`bmi`) मा केन्द्रित गरौं। यसका लागि, हामीले चाहिएको स्तम्भहरू चयन गर्नुपर्नेछ। त्यसो भए, हामी यो कसरी गर्ने?\n",
|
|
"\n",
|
|
"[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) ले हामीलाई डाटा फ्रेममा स्तम्भहरू *चयन* (र वैकल्पिक रूपमा पुनः नामकरण) गर्न अनुमति दिन्छ।\n"
|
|
],
|
|
"metadata": {
|
|
"id": "UwjVT1Hz-c3Z"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"# Select predictor feature `bmi` and outcome `y`\r\n",
|
|
"diabetes_select <- diabetes %>% \r\n",
|
|
" select(c(bmi, y))\r\n",
|
|
"\r\n",
|
|
"# Print the first 5 rows\r\n",
|
|
"diabetes_select %>% \r\n",
|
|
" slice(1:10)"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "RDY1oAKI-m80"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## ३. प्रशिक्षण र परीक्षण डेटा\n",
|
|
"\n",
|
|
"सुपरभाइज्ड लर्निङमा डेटा दुई उपसमूहमा *विभाजन* गर्नु सामान्य अभ्यास हो; एउटा (सामान्यतया ठूलो) सेट जसको प्रयोग गरेर मोडेललाई प्रशिक्षण गरिन्छ, र सानो \"पछाडि राखिएको\" सेट जसको प्रयोग गरेर मोडेलले कस्तो प्रदर्शन गर्यो भनेर हेर्ने गरिन्छ।\n",
|
|
"\n",
|
|
"अब हामीसँग डेटा तयार छ, हामी हेर्न सक्छौं कि यो डेटासेटमा संख्याहरूको बीचमा तार्किक विभाजन निर्धारण गर्न मेशिनले सहयोग गर्न सक्छ कि सक्दैन। हामी [rsample](https://tidymodels.github.io/rsample/) प्याकेज प्रयोग गर्न सक्छौं, जुन Tidymodels फ्रेमवर्कको भाग हो, डेटा *कसरी* विभाजन गर्ने जानकारी समावेश गर्ने वस्तु सिर्जना गर्न, र त्यसपछि दुई थप rsample फङ्सनहरू प्रयोग गरेर सिर्जना गरिएको प्रशिक्षण र परीक्षण सेटहरू निकाल्न:\n"
|
|
],
|
|
"metadata": {
|
|
"id": "SDk668xK-tc3"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"set.seed(2056)\r\n",
|
|
"# Split 67% of the data for training and the rest for tesing\r\n",
|
|
"diabetes_split <- diabetes_select %>% \r\n",
|
|
" initial_split(prop = 0.67)\r\n",
|
|
"\r\n",
|
|
"# Extract the resulting train and test sets\r\n",
|
|
"diabetes_train <- training(diabetes_split)\r\n",
|
|
"diabetes_test <- testing(diabetes_split)\r\n",
|
|
"\r\n",
|
|
"# Print the first 3 rows of the training set\r\n",
|
|
"diabetes_train %>% \r\n",
|
|
" slice(1:10)"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "EqtHx129-1h-"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## 4. Tidymodels प्रयोग गरेर रेखीय प्रतिगमन मोडेल प्रशिक्षण गर्नुहोस्\n",
|
|
"\n",
|
|
"अब हामी हाम्रो मोडेल प्रशिक्षण गर्न तयार छौं!\n",
|
|
"\n",
|
|
"Tidymodels मा, तपाईंले `parsnip()` प्रयोग गरेर तीन अवधारणाहरू निर्दिष्ट गरेर मोडेलहरू परिभाषित गर्नुहुन्छ:\n",
|
|
"\n",
|
|
"- मोडेल **प्रकार**ले रेखीय प्रतिगमन, लजिस्टिक प्रतिगमन, निर्णय वृक्ष मोडेलहरू, र यस्तै अन्य मोडेलहरू बीच भिन्नता देखाउँछ।\n",
|
|
"\n",
|
|
"- मोडेल **मोड**ले सामान्य विकल्पहरू जस्तै प्रतिगमन र वर्गीकरण समावेश गर्दछ; केही मोडेल प्रकारहरूले यीमध्ये कुनै पनि समर्थन गर्छन् भने केहीले मात्र एक मोड समर्थन गर्छन्।\n",
|
|
"\n",
|
|
"- मोडेल **इन्जिन** भनेको मोडेल फिट गर्न प्रयोग गरिने कम्प्युटेशनल उपकरण हो। प्रायः यी R प्याकेजहरू हुन्, जस्तै **`\"lm\"`** वा **`\"ranger\"`**\n",
|
|
"\n",
|
|
"यो मोडेलिङ जानकारी मोडेल निर्दिष्टीकरणमा समेटिएको हुन्छ, त्यसैले अब एउटा निर्माण गरौं!\n"
|
|
],
|
|
"metadata": {
|
|
"id": "sBOS-XhB-6v7"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"# Build a linear model specification\r\n",
|
|
"lm_spec <- \r\n",
|
|
" # Type\r\n",
|
|
" linear_reg() %>% \r\n",
|
|
" # Engine\r\n",
|
|
" set_engine(\"lm\") %>% \r\n",
|
|
" # Mode\r\n",
|
|
" set_mode(\"regression\")\r\n",
|
|
"\r\n",
|
|
"\r\n",
|
|
"# Print the model specification\r\n",
|
|
"lm_spec"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "20OwEw20--t3"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"एक पटक मोडेल *निर्दिष्ट* भएपछि, मोडेललाई [`fit()`](https://parsnip.tidymodels.org/reference/fit.html) फङ्सन प्रयोग गरेर `अनुमानित` वा `प्रशिक्षित` गर्न सकिन्छ, सामान्यतया कुनै सूत्र र केही डाटाको प्रयोग गरेर।\n",
|
|
"\n",
|
|
"`y ~ .` को अर्थ हो हामीले `y` लाई पूर्वानुमानित मात्रा/लक्ष्यको रूपमा फिट गर्नेछौं, जुन सबै भविष्यवक्ता/विशेषताहरू अर्थात् `.` द्वारा व्याख्या गरिन्छ (यस अवस्थामा, हामीसँग केवल एक भविष्यवक्ता छ: `bmi`)।\n"
|
|
],
|
|
"metadata": {
|
|
"id": "_oDHs89k_CJj"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"# Build a linear model specification\r\n",
|
|
"lm_spec <- linear_reg() %>% \r\n",
|
|
" set_engine(\"lm\") %>%\r\n",
|
|
" set_mode(\"regression\")\r\n",
|
|
"\r\n",
|
|
"\r\n",
|
|
"# Train a linear regression model\r\n",
|
|
"lm_mod <- lm_spec %>% \r\n",
|
|
" fit(y ~ ., data = diabetes_train)\r\n",
|
|
"\r\n",
|
|
"# Print the model\r\n",
|
|
"lm_mod"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "YlsHqd-q_GJQ"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"मोडेलको आउटपुटबाट, हामीले प्रशिक्षणको क्रममा सिकेका गुणांकहरू देख्न सक्छौं। यी गुणांकहरूले सबैभन्दा कम समग्र त्रुटि दिने वास्तविक र अनुमानित चरको बीचको उत्तम फिटको रेखाको प्रतिनिधित्व गर्छन्।\n",
|
|
"\n",
|
|
"<br>\n",
|
|
"\n",
|
|
"## ५. परीक्षण सेटमा भविष्यवाणी गर्नुहोस्\n",
|
|
"\n",
|
|
"अब हामीले मोडेल प्रशिक्षण गरिसकेपछि, हामी यसलाई परीक्षण डेटासेटको लागि रोगको प्रगति y को भविष्यवाणी गर्न प्रयोग गर्न सक्छौं [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html) प्रयोग गरेर। यसले डेटा समूहहरू बीचको रेखा कोर्न प्रयोग गरिनेछ।\n"
|
|
],
|
|
"metadata": {
|
|
"id": "kGZ22RQj_Olu"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"# Make predictions for the test set\r\n",
|
|
"predictions <- lm_mod %>% \r\n",
|
|
" predict(new_data = diabetes_test)\r\n",
|
|
"\r\n",
|
|
"# Print out some of the predictions\r\n",
|
|
"predictions %>% \r\n",
|
|
" slice(1:5)"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "nXHbY7M2_aao"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"वाह! 💃🕺 हामीले भर्खरै एउटा मोडेल प्रशिक्षण गर्यौं र यसलाई प्रयोग गरेर भविष्यवाणी गर्यौं!\n",
|
|
"\n",
|
|
"भविष्यवाणी गर्दा, tidymodels को परम्परा सधैं परिणामहरूको लागि मानकीकृत स्तम्भ नामहरू भएको tibble/data frame उत्पादन गर्नु हो। यसले मूल डेटा र भविष्यवाणीहरूलाई प्रयोगयोग्य स्वरूपमा संयोजन गर्न सजिलो बनाउँछ, जस्तै प्लटिङ जस्ता पछिल्ला कार्यहरूको लागि।\n",
|
|
"\n",
|
|
"`dplyr::bind_cols()` ले धेरै डेटा फ्रेमहरूलाई स्तम्भहरूमा प्रभावकारी रूपमा बाँध्छ।\n"
|
|
],
|
|
"metadata": {
|
|
"id": "R_JstwUY_bIs"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"# Combine the predictions and the original test set\r\n",
|
|
"results <- diabetes_test %>% \r\n",
|
|
" bind_cols(predictions)\r\n",
|
|
"\r\n",
|
|
"\r\n",
|
|
"results %>% \r\n",
|
|
" slice(1:5)"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "RybsMJR7_iI8"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## ६. मोडेलिङ नतिजा प्लट गर्नुहोस्\n",
|
|
"\n",
|
|
"अब, यसलाई दृश्यात्मक रूपमा हेर्ने समय आएको छ 📈। हामी परीक्षण सेटका सबै `y` र `bmi` मानहरूको स्क्याटर प्लट बनाउनेछौं, त्यसपछि भविष्यवाणीहरू प्रयोग गरेर मोडेलको डेटा समूहहरू बीच सबैभन्दा उपयुक्त स्थानमा रेखा कोर्नेछौं।\n",
|
|
"\n",
|
|
"R मा ग्राफ बनाउने धेरै प्रणालीहरू छन्, तर `ggplot2` सबैभन्दा आकर्षक र बहुप्रयोजनयुक्त मध्ये एक हो। यसले तपाईंलाई **स्वतन्त्र घटकहरू संयोजन गरेर** ग्राफहरू बनाउने सुविधा दिन्छ।\n"
|
|
],
|
|
"metadata": {
|
|
"id": "XJbYbMZW_n_s"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"source": [
|
|
"# Set a theme for the plot\r\n",
|
|
"theme_set(theme_light())\r\n",
|
|
"# Create a scatter plot\r\n",
|
|
"results %>% \r\n",
|
|
" ggplot(aes(x = bmi)) +\r\n",
|
|
" # Add a scatter plot\r\n",
|
|
" geom_point(aes(y = y), size = 1.6) +\r\n",
|
|
" # Add a line plot\r\n",
|
|
" geom_line(aes(y = .pred), color = \"blue\", size = 1.5)"
|
|
],
|
|
"outputs": [],
|
|
"metadata": {
|
|
"id": "R9tYp3VW_sTn"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"✅ यहाँ के भइरहेको छ भनेर अलिकति सोच्नुहोस्। एउटा सिधा रेखा धेरै साना डाटा बिन्दुहरूबाट हुँदै गइरहेको छ, तर यो वास्तवमा के गरिरहेको छ? के तपाईं देख्न सक्नुहुन्छ कि यो रेखा प्रयोग गरेर नयाँ, नदेखिएको डाटा बिन्दु प्लटको y अक्षसँग सम्बन्धित कहाँ फिट हुन्छ भनेर भविष्यवाणी गर्न सकिन्छ? यस मोडेलको व्यावहारिक प्रयोगलाई शब्दमा व्यक्त गर्न प्रयास गर्नुहोस्।\n",
|
|
"\n",
|
|
"बधाई छ, तपाईंले आफ्नो पहिलो रेखीय प्रतिगमन मोडेल निर्माण गर्नुभयो, यसलाई प्रयोग गरेर भविष्यवाणी गर्नुभयो, र यसलाई प्लटमा प्रदर्शन गर्नुभयो!\n"
|
|
],
|
|
"metadata": {
|
|
"id": "zrPtHIxx_tNI"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"\n---\n\n**अस्वीकरण**: \nयो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको हो। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।\n"
|
|
]
|
|
}
|
|
]
|
|
} |