You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/mr/2-Regression/2-Data/solution/R/lesson_2-R.ipynb

668 lines
38 KiB

{
"nbformat": 4,
"nbformat_minor": 2,
"metadata": {
"colab": {
"name": "lesson_2-R.ipynb",
"provenance": [],
"collapsed_sections": [],
"toc_visible": true
},
"kernelspec": {
"name": "ir",
"display_name": "R"
},
"language_info": {
"name": "R"
},
"coopTranslator": {
"original_hash": "f3c335f9940cfd76528b3ef918b9b342",
"translation_date": "2025-08-29T19:04:28+00:00",
"source_file": "2-Regression/2-Data/solution/R/lesson_2-R.ipynb",
"language_code": "mr"
}
},
"cells": [
{
"cell_type": "markdown",
"source": [
"# पुनरावृत्ती मॉडेल तयार करा: डेटा तयार करा आणि दृश्यात्मक करा\n",
"\n",
"## **पंपकिन्ससाठी रेषीय पुनरावृत्ती - धडा 2**\n",
"#### परिचय\n",
"\n",
"आता तुम्ही Tidymodels आणि Tidyverse च्या मदतीने मशीन लर्निंग मॉडेल तयार करण्यासाठी आवश्यक साधनांमध्ये प्रवीण झाला आहात, त्यामुळे तुम्ही तुमच्या डेटावर प्रश्न विचारायला तयार आहात. डेटा हाताळताना आणि मशीन लर्निंग उपाय लागू करताना, योग्य प्रश्न विचारणे खूप महत्त्वाचे आहे, जेणेकरून तुमच्या डेटासेटची क्षमता योग्य प्रकारे उलगडता येईल.\n",
"\n",
"या धड्यात, तुम्ही शिकाल:\n",
"\n",
"- तुमच्या डेटाला मॉडेल तयार करण्यासाठी कसे तयार करायचे.\n",
"\n",
"- डेटा दृश्यात्मकतेसाठी `ggplot2` कसे वापरायचे.\n",
"\n",
"तुम्हाला उत्तर हवे असलेला प्रश्न ठरवेल की तुम्ही कोणत्या प्रकारचे मशीन लर्निंग अल्गोरिदम वापरणार आहात. आणि तुम्हाला मिळणाऱ्या उत्तराची गुणवत्ता तुमच्या डेटाच्या स्वरूपावर मोठ्या प्रमाणात अवलंबून असेल.\n",
"\n",
"चला, हे एका व्यावहारिक उदाहरणाद्वारे पाहूया.\n",
"\n",
"<p >\n",
" <img src=\"../../images/unruly_data.jpg\"\n",
" width=\"700\"/>\n",
" <figcaption>@allison_horst यांचे कलाकृती</figcaption>\n",
"\n",
"\n",
"<!--![@allison_horst यांचे कलाकृती](../../../../../../translated_images/unruly_data.0eedc7ced92d2d919cf5ea197bfe0fe9a30780c4bf7cdcf14ff4e9dc5a4c7267.mr.jpg)<br>@allison_horst यांचे कलाकृती-->\n"
],
"metadata": {
"id": "Pg5aexcOPqAZ"
}
},
{
"cell_type": "markdown",
"source": [
"## 1. भोपळ्यांचा डेटा आयात करणे आणि Tidyverse वापरणे\n",
"\n",
"या धड्याला व्यवस्थित समजून घेण्यासाठी आपल्याला खालील पॅकेजेसची आवश्यकता असेल:\n",
"\n",
"- `tidyverse`: [tidyverse](https://www.tidyverse.org/) हा [R पॅकेजेसचा संग्रह](https://www.tidyverse.org/packages) आहे, जो डेटा सायन्स अधिक वेगवान, सोपा आणि मजेदार बनवण्यासाठी डिझाइन केला आहे!\n",
"\n",
"आपण हे पॅकेजेस खालीलप्रमाणे इन्स्टॉल करू शकता:\n",
"\n",
"`install.packages(c(\"tidyverse\"))`\n",
"\n",
"खालील स्क्रिप्ट तपासते की या मॉड्यूलसाठी आवश्यक पॅकेजेस तुमच्याकडे आहेत का आणि जर काही पॅकेजेस गायब असतील तर ती तुमच्यासाठी इन्स्टॉल करते.\n"
],
"metadata": {
"id": "dc5WhyVdXAjR"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"suppressWarnings(if(!require(\"pacman\")) install.packages(\"pacman\"))\n",
"pacman::p_load(tidyverse)"
],
"outputs": [],
"metadata": {
"id": "GqPYUZgfXOBt"
}
},
{
"cell_type": "markdown",
"source": [
"आता, काही पॅकेजेस सुरू करूया आणि या धड्यासाठी दिलेला [डेटा](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) लोड करूया!\n"
],
"metadata": {
"id": "kvjDTPDSXRr2"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Load the core Tidyverse packages\n",
"library(tidyverse)\n",
"\n",
"# Import the pumpkins data\n",
"pumpkins <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv\")\n",
"\n",
"\n",
"# Get a glimpse and dimensions of the data\n",
"glimpse(pumpkins)\n",
"\n",
"\n",
"# Print the first 50 rows of the data set\n",
"pumpkins %>% \n",
" slice_head(n =50)"
],
"outputs": [],
"metadata": {
"id": "VMri-t2zXqgD"
}
},
{
"cell_type": "markdown",
"source": [
"`glimpse()` वापरल्यावर लगेच लक्षात येते की डेटा मध्ये रिक्त जागा आहेत आणि स्ट्रिंग्स (`chr`) आणि संख्यात्मक डेटा (`dbl`) यांचा मिश्रण आहे. `Date` हा प्रकार कॅरेक्टर आहे आणि एक विचित्र कॉलम `Package` नावाचा आहे जिथे डेटा `sacks`, `bins` आणि इतर मूल्यांचे मिश्रण आहे. खरं तर, हा डेटा थोडासा गोंधळात टाकणारा आहे 😤.\n",
"\n",
"खरं तर, पूर्णपणे तयार असलेला डेटासेट मिळणे, ज्याचा थेट ML मॉडेलसाठी वापर करता येईल, हे फारसे सामान्य नाही. पण काळजी करू नका, या धड्यात तुम्ही स्टँडर्ड R लायब्ररी वापरून कच्चा डेटासेट तयार करण्याची प्रक्रिया शिकाल 🧑‍🔧. तुम्ही डेटा व्हिज्युअलाइझ करण्यासाठी विविध तंत्रज्ञान देखील शिकाल.📈📊\n",
"<br>\n",
"\n",
"> एक पुनरावलोकन: पाइप ऑपरेटर (`%>%`) लॉजिकल क्रमाने ऑपरेशन्स करते, जिथे एखादी ऑब्जेक्ट पुढे फंक्शन किंवा कॉल एक्सप्रेशनमध्ये पास केली जाते. तुम्ही पाइप ऑपरेटरला तुमच्या कोडमध्ये \"आणि मग\" असे म्हणत असल्यासारखे समजू शकता.\n"
],
"metadata": {
"id": "REWcIv9yX29v"
}
},
{
"cell_type": "markdown",
"source": [
"## 2. डेटा गायब असल्याची तपासणी करा\n",
"\n",
"डेटा शास्त्रज्ञांना सर्वात जास्त सामोरे जावे लागणारे सामान्य प्रश्न म्हणजे अपूर्ण किंवा गायब डेटा. R गायब किंवा अज्ञात मूल्ये `NA` (Not Available) या विशेष चिन्हांकित मूल्याने दर्शवतो.\n",
"\n",
"मग आपल्याला डेटा फ्रेममध्ये गायब मूल्ये आहेत हे कसे कळेल? \n",
"<br>\n",
"- एक सोपा मार्ग म्हणजे बेस R फंक्शन `anyNA` वापरणे, जे लॉजिकल ऑब्जेक्ट्स `TRUE` किंवा `FALSE` परत करते.\n"
],
"metadata": {
"id": "Zxfb3AM5YbUe"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"pumpkins %>% \n",
" anyNA()"
],
"outputs": [],
"metadata": {
"id": "G--DQutAYltj"
}
},
{
"cell_type": "markdown",
"source": [
"छान, काही डेटा गायब असल्याचे दिसते! हे सुरू करण्यासाठी चांगले ठिकाण आहे.\n",
"\n",
"- आणखी एक मार्ग म्हणजे `is.na()` फंक्शन वापरणे, जे लॉजिकल `TRUE` सह कोणते विशिष्ट स्तंभ घटक गायब आहेत हे दर्शवते.\n"
],
"metadata": {
"id": "mU-7-SB6YokF"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"pumpkins %>% \n",
" is.na() %>% \n",
" head(n = 7)"
],
"outputs": [],
"metadata": {
"id": "W-DxDOR4YxSW"
}
},
{
"cell_type": "markdown",
"source": [
"ठीक आहे, काम पूर्ण झाले पण अशा मोठ्या डेटा फ्रेमसाठी प्रत्येक ओळ आणि स्तंभ स्वतंत्रपणे तपासणे अप्रभावी आणि प्रत्यक्षात अशक्य होईल😴.\n",
"\n",
"- अधिक सोपी पद्धत म्हणजे प्रत्येक स्तंभासाठी गहाळ मूल्यांची बेरीज मोजणे:\n"
],
"metadata": {
"id": "xUWxipKYY0o7"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"pumpkins %>% \n",
" is.na() %>% \n",
" colSums()"
],
"outputs": [],
"metadata": {
"id": "ZRBWV6P9ZArL"
}
},
{
"cell_type": "markdown",
"source": [
"खूपच चांगलं! काही डेटा गायब आहे, पण कदाचित तो दिलेल्या कामासाठी महत्त्वाचा नसेल. पाहूया पुढील विश्लेषण काय समोर आणते.\n",
"\n",
"> R मध्ये उत्कृष्ट पॅकेजेस आणि फंक्शन्सच्या संचासोबतच खूप चांगली दस्तऐवजीकरण प्रणाली आहे. उदाहरणार्थ, `help(colSums)` किंवा `?colSums` वापरून त्या फंक्शनबद्दल अधिक माहिती मिळवा.\n"
],
"metadata": {
"id": "9gv-crB6ZD1Y"
}
},
{
"cell_type": "markdown",
"source": [
"## 3. Dplyr: डेटा हाताळणीसाठी व्याकरण\n",
"\n",
"<p >\n",
" <img src=\"../../images/dplyr_wrangling.png\"\n",
" width=\"569\"/>\n",
" <figcaption>चित्रकृती: @allison_horst</figcaption>\n",
"\n",
"\n",
"<!--![चित्रकृती: \\@allison_horst](../../../../../../translated_images/dplyr_wrangling.f5f99c64fd4580f1377fee3ea428b6f8fd073845ec0f8409d483cfe148f0984e.mr.png)<br/>चित्रकृती: \\@allison_horst-->\n"
],
"metadata": {
"id": "o4jLY5-VZO2C"
}
},
{
"cell_type": "markdown",
"source": [
"[`dplyr`](https://dplyr.tidyverse.org/), Tidyverse मधील एक पॅकेज, डेटा हाताळणीसाठी एक व्याकरण आहे जे तुम्हाला सर्वसामान्य डेटा हाताळणीच्या आव्हानांवर उपाय शोधण्यासाठी मदत करणाऱ्या सुसंगत क्रियापदांचा संच प्रदान करते. या विभागात, आपण dplyr च्या काही क्रियापदांचा अभ्यास करू! \n",
"<br>\n"
],
"metadata": {
"id": "i5o33MQBZWWw"
}
},
{
"cell_type": "markdown",
"source": [
"#### dplyr::select()\n",
"\n",
"`select()` ही `dplyr` पॅकेजमधील एक फंक्शन आहे जी तुम्हाला ठेवायच्या किंवा वगळायच्या कॉलम्स निवडण्यास मदत करते.\n",
"\n",
"तुमच्या डेटा फ्रेमसोबत काम करणे सोपे करण्यासाठी, `select()` वापरून त्यातील काही कॉलम्स काढून टाका आणि फक्त तुम्हाला आवश्यक असलेले कॉलम्स ठेवा.\n",
"\n",
"उदाहरणार्थ, या व्यायामात, आमच्या विश्लेषणात `Package`, `Low Price`, `High Price` आणि `Date` हे कॉलम्स समाविष्ट असतील. चला हे कॉलम्स निवडूया.\n"
],
"metadata": {
"id": "x3VGMAGBZiUr"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Select desired columns\n",
"pumpkins <- pumpkins %>% \n",
" select(Package, `Low Price`, `High Price`, Date)\n",
"\n",
"\n",
"# Print data set\n",
"pumpkins %>% \n",
" slice_head(n = 5)"
],
"outputs": [],
"metadata": {
"id": "F_FgxQnVZnM0"
}
},
{
"cell_type": "markdown",
"source": [
"#### dplyr::mutate()\n",
"\n",
"`mutate()` ही `dplyr` पॅकेजमधील एक फंक्शन आहे जी तुम्हाला नवीन कॉलम तयार करण्यासाठी किंवा विद्यमान कॉलम बदलण्यासाठी मदत करते, विद्यमान कॉलम कायम ठेवून.\n",
"\n",
"`mutate` चा सामान्य संरचना खालीलप्रमाणे आहे:\n",
"\n",
"`data %>% mutate(new_column_name = what_it_contains)`\n",
"\n",
"चला `Date` कॉलम वापरून `mutate` वापरून काही ऑपरेशन्स करून पाहू:\n",
"\n",
"1. तारीख (सध्या कॅरेक्टर प्रकारात आहे) महिन्याच्या स्वरूपात रूपांतरित करा (या US तारखा आहेत, त्यामुळे स्वरूप `MM/DD/YYYY` आहे).\n",
"\n",
"2. तारखांमधून महिन्याची माहिती नवीन कॉलममध्ये काढा.\n",
"\n",
"R मध्ये, [lubridate](https://lubridate.tidyverse.org/) पॅकेज डेट-टाइम डेटा सोप्या पद्धतीने हाताळण्यासाठी उपयुक्त आहे. त्यामुळे, `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` वापरून वरील उद्दिष्टे कशी साध्य करायची ते पाहू. आपण Date कॉलम काढून टाकू शकतो कारण पुढील ऑपरेशन्ससाठी त्याची गरज नाही.\n"
],
"metadata": {
"id": "2KKo0Ed9Z1VB"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Load lubridate\n",
"library(lubridate)\n",
"\n",
"pumpkins <- pumpkins %>% \n",
" # Convert the Date column to a date object\n",
" mutate(Date = mdy(Date)) %>% \n",
" # Extract month from Date\n",
" mutate(Month = month(Date)) %>% \n",
" # Drop Date column\n",
" select(-Date)\n",
"\n",
"# View the first few rows\n",
"pumpkins %>% \n",
" slice_head(n = 7)"
],
"outputs": [],
"metadata": {
"id": "5joszIVSZ6xe"
}
},
{
"cell_type": "markdown",
"source": [
"व्वा! 🤩\n",
"\n",
"आता, नवीन स्तंभ `Price` तयार करूया, जो भोपळ्याच्या सरासरी किंमतीचे प्रतिनिधित्व करतो. आता, `Low Price` आणि `High Price` या स्तंभांचा सरासरी घेऊन नवीन Price स्तंभ भरूया. \n"
],
"metadata": {
"id": "nIgLjNMCZ-6Y"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Create a new column Price\n",
"pumpkins <- pumpkins %>% \n",
" mutate(Price = (`Low Price` + `High Price`)/2)\n",
"\n",
"# View the first few rows of the data\n",
"pumpkins %>% \n",
" slice_head(n = 5)"
],
"outputs": [],
"metadata": {
"id": "Zo0BsqqtaJw2"
}
},
{
"cell_type": "markdown",
"source": [
"येस्स!💪\n",
"\n",
"\"पण थांबा!\", तुम्ही `View(pumpkins)` वापरून संपूर्ण डेटा सेट पाहिल्यानंतर म्हणाल, \"इथे काहीतरी विचित्र आहे!\"🤔\n",
"\n",
"जर तुम्ही `Package` कॉलमकडे पाहिलं, तर कळेल की भोपळे वेगवेगळ्या प्रकारांमध्ये विकले जात आहेत. काही `1 1/9 bushel` मोजमापात विकले जातात, काही `1/2 bushel` मोजमापात, काही प्रति भोपळा, काही प्रति पाउंड, आणि काही मोठ्या बॉक्समध्ये वेगवेगळ्या रुंदीमध्ये विकले जातात.\n",
"\n",
"चला हे तपासून पाहू:\n"
],
"metadata": {
"id": "p77WZr-9aQAR"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Verify the distinct observations in Package column\n",
"pumpkins %>% \n",
" distinct(Package)"
],
"outputs": [],
"metadata": {
"id": "XISGfh0IaUy6"
}
},
{
"cell_type": "markdown",
"source": [
"अप्रतिम!👏\n",
"\n",
"फळकुटे (Pumpkins) सतत एकसारखे वजन करणे कठीण वाटते, त्यामुळे आपण त्यांना फिल्टर करूया. `Package` स्तंभामध्ये *bushel* हा शब्द असलेल्या फळकुट्यांची निवड करून त्यांना एका नवीन डेटा फ्रेममध्ये `new_pumpkins` ठेवूया.\n"
],
"metadata": {
"id": "7sMjiVujaZxY"
}
},
{
"cell_type": "markdown",
"source": [
"#### dplyr::filter() आणि stringr::str_detect()\n",
"\n",
"[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): डेटा सेटमधून फक्त त्या **ओळी** निवडतो ज्या तुमच्या अटी पूर्ण करतात. या प्रकरणात, `Package` कॉलममध्ये *bushel* हा शब्द असलेल्या pumpkins निवडतो.\n",
"\n",
"[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): एखाद्या स्ट्रिंगमध्ये एखाद्या पॅटर्नची उपस्थिती किंवा अनुपस्थिती शोधतो.\n",
"\n",
"[`stringr`](https://github.com/tidyverse/stringr) पॅकेज सामान्य स्ट्रिंग ऑपरेशन्ससाठी सोप्या फंक्शन्स प्रदान करते.\n"
],
"metadata": {
"id": "L8Qfcs92ageF"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Retain only pumpkins with \"bushel\"\n",
"new_pumpkins <- pumpkins %>% \n",
" filter(str_detect(Package, \"bushel\"))\n",
"\n",
"# Get the dimensions of the new data\n",
"dim(new_pumpkins)\n",
"\n",
"# View a few rows of the new data\n",
"new_pumpkins %>% \n",
" slice_head(n = 5)"
],
"outputs": [],
"metadata": {
"id": "hy_SGYREampd"
}
},
{
"cell_type": "markdown",
"source": [
"आपण पाहू शकता की आम्ही सुमारे 415 ओळींच्या डेटावर पोहोचलो आहोत ज्यामध्ये मोठ्या प्रमाणात भोपळ्यांचा समावेश आहे.🤩\n"
],
"metadata": {
"id": "VrDwF031avlR"
}
},
{
"cell_type": "markdown",
"source": [
"#### dplyr::case_when()\n",
"\n",
"**पण थांबा! अजून एक गोष्ट करायची आहे**\n",
"\n",
"तुमच्या लक्षात आलं का की प्रत्येक रांगेत बशेलची मात्रा वेगळी आहे? तुम्हाला किंमत प्रति बशेल दाखवायची आहे, 1 1/9 किंवा 1/2 बशेलसाठी नाही. किंमतींचे प्रमाण एकसमान करण्यासाठी गणित करायची वेळ आली आहे.\n",
"\n",
"आपण [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) फंक्शन वापरणार आहोत *Price* कॉलम बदलण्यासाठी, काही अटींवर आधारित. `case_when` तुम्हाला अनेक `if_else()` स्टेटमेंट्स व्हेक्टराइझ करण्याची परवानगी देते.\n"
],
"metadata": {
"id": "mLpw2jH4a0tx"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Convert the price if the Package contains fractional bushel values\n",
"new_pumpkins <- new_pumpkins %>% \n",
" mutate(Price = case_when(\n",
" str_detect(Package, \"1 1/9\") ~ Price/(1 + 1/9),\n",
" str_detect(Package, \"1/2\") ~ Price/(1/2),\n",
" TRUE ~ Price))\n",
"\n",
"# View the first few rows of the data\n",
"new_pumpkins %>% \n",
" slice_head(n = 30)"
],
"outputs": [],
"metadata": {
"id": "P68kLVQmbM6I"
}
},
{
"cell_type": "markdown",
"source": [
"आता आपण त्यांच्या बुशेल मोजमापावर आधारित प्रति युनिट किंमतीचे विश्लेषण करू शकतो. मात्र, कद्दूंच्या बुशेलचा अभ्यास करताना हे स्पष्ट होते की `तुमच्या डेटाचा स्वभाव समजून घेणे` किती `महत्त्वाचे` आहे!\n",
"\n",
"> ✅ [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308) नुसार, बुशेलचे वजन उत्पादनाच्या प्रकारावर अवलंबून असते, कारण ते एक प्रमाण मोजमाप आहे. \"उदाहरणार्थ, टोमॅटोचा बुशेल ५६ पाउंड वजनाचा असतो... पाने आणि हिरव्या भाज्या अधिक जागा घेतात पण कमी वजन असते, त्यामुळे पालकाचा बुशेल फक्त २० पाउंड असतो.\" हे सगळं खूपच गुंतागुंतीचं आहे! चला बुशेल-टू-पाउंड रूपांतरण करण्याचा विचार न करता बुशेलनुसार किंमत ठरवूया. कद्दूंच्या बुशेलचा अभ्यास करताना हे स्पष्ट होते की तुमच्या डेटाचा स्वभाव समजून घेणे किती महत्त्वाचे आहे!\n",
">\n",
"> ✅ तुम्हाला लक्षात आले का की अर्ध्या बुशेलने विकले जाणारे कद्दू खूप महाग आहेत? तुम्ही याचे कारण शोधू शकता का? सूचक: लहान कद्दू मोठ्या कद्दूपेक्षा खूप महाग असतात, कदाचित कारण एका बुशेलमध्ये मोठ्या पोकळ पाई कद्दूने घेतलेल्या जागेमुळे लहान कद्दूंची संख्या जास्त असते.\n"
],
"metadata": {
"id": "pS2GNPagbSdb"
}
},
{
"cell_type": "markdown",
"source": [
"आता शेवटी, फक्त साहसासाठी 💁‍♀️, चला `Month` कॉलमला पहिल्या स्थानावर हलवूया म्हणजेच `Package` कॉलमच्या `आधी`.\n",
"\n",
"`dplyr::relocate()` वापरून कॉलमची स्थानं बदलली जातात.\n"
],
"metadata": {
"id": "qql1SowfbdnP"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Create a new data frame new_pumpkins\n",
"new_pumpkins <- new_pumpkins %>% \n",
" relocate(Month, .before = Package)\n",
"\n",
"new_pumpkins %>% \n",
" slice_head(n = 7)"
],
"outputs": [],
"metadata": {
"id": "JJ1x6kw8bixF"
}
},
{
"cell_type": "markdown",
"source": [
"छान काम केले!👌 आता तुमच्याकडे एक स्वच्छ, व्यवस्थित डेटासेट आहे ज्यावर तुम्ही तुमचा नवीन रिग्रेशन मॉडेल तयार करू शकता!\n"
],
"metadata": {
"id": "y8TJ0Za_bn5Y"
}
},
{
"cell_type": "markdown",
"source": [
"## 4. ggplot2 सह डेटा व्हिज्युअलायझेशन\n",
"\n",
"<p >\n",
" <img src=\"../../images/data-visualization.png\"\n",
" width=\"600\"/>\n",
" <figcaption>डासानी मदीपल्ली यांचे माहितीपट</figcaption>\n",
"\n",
"\n",
"<!--![डासानी मदीपल्ली यांचे माहितीपट](../../../../../../translated_images/data-visualization.54e56dded7c1a804d00d027543f2881cb32da73aeadda2d4a4f10f3497526114.mr.png){width=\"600\"}-->\n",
"\n",
"एक *शहाणपणाचे* वाक्य असे आहे:\n",
"\n",
"> \"साधा ग्राफ डेटाच्या विश्लेषकाच्या मनात इतर कोणत्याही साधनापेक्षा जास्त माहिती पोहोचवतो.\" --- जॉन टुकी\n",
"\n",
"डेटा सायंटिस्टच्या भूमिकेचा एक भाग म्हणजे त्यांनी काम करत असलेल्या डेटाची गुणवत्ता आणि स्वरूप प्रदर्शित करणे. हे करण्यासाठी, ते अनेकदा डेटाचे वेगवेगळे पैलू दाखवणारे मनोरंजक व्हिज्युअलायझेशन, प्लॉट्स, ग्राफ्स आणि चार्ट तयार करतात. अशा प्रकारे, ते नातेसंबंध आणि अंतर सहजपणे उघड करू शकतात जे अन्यथा शोधणे कठीण असते.\n",
"\n",
"व्हिज्युअलायझेशन मशीन लर्निंग तंत्र ठरवण्यासाठी देखील उपयुक्त ठरू शकते, जे डेटासाठी सर्वात योग्य आहे. उदाहरणार्थ, जर स्कॅटरप्लॉट एका रेषेचे अनुसरण करत असल्याचे दिसत असेल, तर याचा अर्थ असा होतो की डेटा लीनियर रिग्रेशनसाठी चांगला उमेदवार आहे.\n",
"\n",
"R मध्ये ग्राफ तयार करण्यासाठी अनेक प्रणाली उपलब्ध आहेत, परंतु [`ggplot2`](https://ggplot2.tidyverse.org/index.html) ही सर्वात मोहक आणि बहुपयोगी प्रणालींपैकी एक आहे. `ggplot2` तुम्हाला **स्वतंत्र घटक एकत्र करून** ग्राफ तयार करण्याची परवानगी देते.\n",
"\n",
"चला, Price आणि Month कॉलमसाठी एक साधा स्कॅटर प्लॉट तयार करून सुरुवात करूया.\n",
"\n",
"या प्रकरणात, आपण [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html) सह सुरुवात करू, डेटासेट आणि सौंदर्यात्मक मॅपिंग (सह [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) पुरवू आणि नंतर स्कॅटर प्लॉटसाठी [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html) सारख्या लेयर्स जोडू.\n"
],
"metadata": {
"id": "mYSH6-EtbvNa"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Set a theme for the plots\n",
"theme_set(theme_light())\n",
"\n",
"# Create a scatter plot\n",
"p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))\n",
"p + geom_point()"
],
"outputs": [],
"metadata": {
"id": "g2YjnGeOcLo4"
}
},
{
"cell_type": "markdown",
"source": [
"हा उपयुक्त प्लॉट आहे का 🤷? यात काही आश्चर्यकारक गोष्ट आहे का?\n",
"\n",
"हा विशेषतः उपयुक्त नाही कारण तो फक्त तुमच्या डेटामधील एका महिन्यातील पॉइंट्सचा प्रसार दाखवतो. \n"
],
"metadata": {
"id": "Ml7SDCLQcPvE"
}
},
{
"cell_type": "markdown",
"source": [
"### **हे उपयुक्त कसे बनवायचे?**\n",
"\n",
"चार्ट्समध्ये उपयुक्त डेटा दाखवण्यासाठी, तुम्हाला सहसा डेटा कशातरी प्रकारे गटबद्ध करावा लागतो. उदाहरणार्थ, आमच्या बाबतीत, प्रत्येक महिन्यासाठी भोपळ्यांची सरासरी किंमत शोधणे आमच्या डेटामधील अंतर्निहित नमुन्यांबद्दल अधिक अंतर्दृष्टी प्रदान करेल. यामुळे आम्हाला **dplyr** चा आणखी एक झलक मिळतो:\n",
"\n",
"#### `dplyr::group_by() %>% summarize()`\n",
"\n",
"R मध्ये गटबद्ध संकलन सहजपणे खालीलप्रमाणे गणना करता येते:\n",
"\n",
"`dplyr::group_by() %>% summarize()`\n",
"\n",
"- `dplyr::group_by()` विश्लेषणाची एकक संपूर्ण डेटासेटवरून वैयक्तिक गटांमध्ये बदलते, जसे की प्रति महिना.\n",
"\n",
"- `dplyr::summarize()` एक नवीन डेटा फ्रेम तयार करते ज्यामध्ये प्रत्येक गटबद्ध व्हेरिएबलसाठी एक कॉलम आणि तुम्ही निर्दिष्ट केलेल्या प्रत्येक सारांश आकडेवारीसाठी एक कॉलम असतो.\n",
"\n",
"उदाहरणार्थ, आपण `dplyr::group_by() %>% summarize()` वापरून **Month** कॉलमवर आधारित भोपळ्यांना गटांमध्ये विभागू शकतो आणि प्रत्येक महिन्यासाठी **mean price** शोधू शकतो.\n"
],
"metadata": {
"id": "jMakvJZIcVkh"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Find the average price of pumpkins per month\r\n",
"new_pumpkins %>%\r\n",
" group_by(Month) %>% \r\n",
" summarise(mean_price = mean(Price))"
],
"outputs": [],
"metadata": {
"id": "6kVSUa2Bcilf"
}
},
{
"cell_type": "markdown",
"source": [
"संक्षिप्त!✨\n",
"\n",
"महिने यांसारख्या श्रेणीसंबंधी वैशिष्ट्यांचे बार प्लॉट 📊 वापरून चांगले प्रतिनिधित्व करता येते. बार चार्टसाठी जबाबदार असलेल्या स्तरांमध्ये `geom_bar()` आणि `geom_col()` यांचा समावेश आहे. अधिक माहितीसाठी `?geom_bar` पाहा.\n",
"\n",
"चला, एक तयार करूया!\n"
],
"metadata": {
"id": "Kds48GUBcj3W"
}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Find the average price of pumpkins per month then plot a bar chart\r\n",
"new_pumpkins %>%\r\n",
" group_by(Month) %>% \r\n",
" summarise(mean_price = mean(Price)) %>% \r\n",
" ggplot(aes(x = Month, y = mean_price)) +\r\n",
" geom_col(fill = \"midnightblue\", alpha = 0.7) +\r\n",
" ylab(\"Pumpkin Price\")"
],
"outputs": [],
"metadata": {
"id": "VNbU1S3BcrxO"
}
},
{
"cell_type": "markdown",
"source": [
"🤩🤩हे अधिक उपयुक्त डेटा व्हिज्युअलायझेशन आहे! असे दिसते की सप्टेंबर आणि ऑक्टोबरमध्ये भोपळ्यांची सर्वाधिक किंमत असते. हे तुमच्या अपेक्षांना पूर्ण करते का? का किंवा का नाही?\n",
"\n",
"दुसरा धडा पूर्ण केल्याबद्दल अभिनंदन 👏! तुम्ही मॉडेल तयार करण्यासाठी तुमचा डेटा तयार केला, आणि नंतर व्हिज्युअलायझेशनचा वापर करून अधिक अंतर्दृष्टी शोधल्या!\n"
],
"metadata": {
"id": "zDm0VOzzcuzR"
}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nहा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.\n"
]
}
]
}