ML-For-Beginners/translations/hi/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "source": [
    "## **Spotify से प्राप्त नाइजीरियाई संगीत - एक विश्लेषण**\n",
    "\n",
    "क्लस्टरिंग [अनसुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Unsupervised_learning) का एक प्रकार है, जो मानता है कि डेटा सेट लेबल रहित है या इसके इनपुट्स को पहले से परिभाषित आउटपुट्स के साथ मिलाया नहीं गया है। यह विभिन्न एल्गोरिदम का उपयोग करके लेबल रहित डेटा को वर्गीकृत करता है और डेटा में पहचाने गए पैटर्न के अनुसार समूह प्रदान करता है।\n",
    "\n",
    "[**प्री-लेक्चर क्विज**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n",
    "\n",
    "### **परिचय**\n",
    "\n",
    "[क्लस्टरिंग](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डेटा एक्सप्लोरेशन के लिए बहुत उपयोगी है। आइए देखें कि क्या यह नाइजीरियाई दर्शकों के संगीत उपभोग के तरीकों में रुझान और पैटर्न खोजने में मदद कर सकता है।\n",
    "\n",
    "> ✅ क्लस्टरिंग के उपयोगों के बारे में सोचने के लिए एक मिनट लें। असल जिंदगी में, क्लस्टरिंग तब होती है जब आपके पास कपड़ों का ढेर होता है और आपको अपने परिवार के सदस्यों के कपड़े अलग करने होते हैं 🧦👕👖🩲। डेटा साइंस में, क्लस्टरिंग तब होती है जब उपयोगकर्ता की प्राथमिकताओं का विश्लेषण करने या किसी लेबल रहित डेटा सेट की विशेषताओं को निर्धारित करने की कोशिश की जाती है। क्लस्टरिंग, एक तरह से, अराजकता को समझने में मदद करती है, जैसे मोजे की दराज।\n",
    "\n",
    "पेशेवर सेटिंग में, क्लस्टरिंग का उपयोग बाजार विभाजन, यह निर्धारित करने के लिए कि कौन सी आयु वर्ग कौन सी वस्तुएं खरीदती हैं, जैसे चीजों को निर्धारित करने के लिए किया जा सकता है। एक अन्य उपयोग अनियमितता का पता लगाना हो सकता है, जैसे कि क्रेडिट कार्ड लेनदेन के डेटा सेट से धोखाधड़ी का पता लगाना। या आप इसे मेडिकल स्कैन के बैच में ट्यूमर का पता लगाने के लिए उपयोग कर सकते हैं।\n",
    "\n",
    "✅ एक मिनट सोचें कि आपने बैंकिंग, ई-कॉमर्स, या व्यवसाय सेटिंग में 'क्लस्टरिंग' को 'वास्तविक जीवन' में कैसे देखा होगा।\n",
    "\n",
    "> 🎓 दिलचस्प बात यह है कि क्लस्टर विश्लेषण की शुरुआत 1930 के दशक में मानवशास्त्र और मनोविज्ञान के क्षेत्रों में हुई थी। क्या आप कल्पना कर सकते हैं कि इसका उपयोग कैसे किया गया होगा?\n",
    "\n",
    "इसके अलावा, आप इसे खोज परिणामों को समूहित करने के लिए उपयोग कर सकते हैं - जैसे शॉपिंग लिंक, छवियां, या समीक्षाएं। क्लस्टरिंग तब उपयोगी होती है जब आपके पास एक बड़ा डेटा सेट होता है जिसे आप कम करना चाहते हैं और जिस पर आप अधिक गहन विश्लेषण करना चाहते हैं, इसलिए इस तकनीक का उपयोग अन्य मॉडलों के निर्माण से पहले डेटा के बारे में जानने के लिए किया जा सकता है।\n",
    "\n",
    "✅ एक बार जब आपका डेटा क्लस्टर्स में व्यवस्थित हो जाता है, तो आप इसे एक क्लस्टर आईडी असाइन करते हैं, और यह तकनीक डेटा सेट की गोपनीयता बनाए रखने में उपयोगी हो सकती है; आप क्लस्टर के अधिक खुलासा करने वाले पहचान योग्य डेटा के बजाय क्लस्टर आईडी द्वारा डेटा पॉइंट का उल्लेख कर सकते हैं। क्या आप अन्य कारणों के बारे में सोच सकते हैं कि आप इसे पहचानने के लिए क्लस्टर आईडी का उपयोग क्यों करेंगे?\n",
    "\n",
    "### क्लस्टरिंग के साथ शुरुआत\n",
    "\n",
    "> 🎓 हम क्लस्टर्स कैसे बनाते हैं, इसका बहुत कुछ इस बात से लेना-देना है कि हम डेटा पॉइंट्स को समूहों में कैसे इकट्ठा करते हैं। आइए कुछ शब्दावली को समझें:\n",
    ">\n",
    "> 🎓 ['ट्रांसडक्टिव' बनाम 'इंडक्टिव'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n",
    ">\n",
    "> ट्रांसडक्टिव इनफेरेंस उन देखे गए प्रशिक्षण मामलों से प्राप्त होता है जो विशिष्ट परीक्षण मामलों से मेल खाते हैं। इंडक्टिव इनफेरेंस उन प्रशिक्षण मामलों से प्राप्त होता है जो सामान्य नियमों से मेल खाते हैं, जिन्हें केवल बाद में परीक्षण मामलों पर लागू किया जाता है।\n",
    ">\n",
    "> उदाहरण: कल्पना करें कि आपके पास एक डेटा सेट है जो केवल आंशिक रूप से लेबल किया गया है। कुछ चीजें 'रिकॉर्ड्स' हैं, कुछ 'सीडी' हैं, और कुछ खाली हैं। आपका काम खाली स्थानों के लिए लेबल प्रदान करना है। यदि आप इंडक्टिव दृष्टिकोण चुनते हैं, तो आप 'रिकॉर्ड्स' और 'सीडी' की तलाश में एक मॉडल को प्रशिक्षित करेंगे और उन लेबल्स को अपने लेबल रहित डेटा पर लागू करेंगे। यह दृष्टिकोण उन चीजों को वर्गीकृत करने में कठिनाई करेगा जो वास्तव में 'कैसेट्स' हैं। दूसरी ओर, ट्रांसडक्टिव दृष्टिकोण इस अज्ञात डेटा को अधिक प्रभावी ढंग से संभालता है क्योंकि यह समान वस्तुओं को एक साथ समूहित करने और फिर समूह को एक लेबल लागू करने का काम करता है। इस मामले में, क्लस्टर्स 'गोल संगीत चीजें' और 'चौकोर संगीत चीजें' को दर्शा सकते हैं।\n",
    ">\n",
    "> 🎓 ['नॉन-फ्लैट' बनाम 'फ्लैट' ज्योमेट्री](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n",
    ">\n",
    "> गणितीय शब्दावली से लिया गया, नॉन-फ्लैट बनाम फ्लैट ज्योमेट्री पॉइंट्स के बीच की दूरी को 'फ्लैट' ([यूक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) या 'नॉन-फ्लैट' (नॉन-यूक्लिडियन) ज्योमेट्रिकल तरीकों से मापने को संदर्भित करता है।\n",
    ">\n",
    "> 'फ्लैट' इस संदर्भ में यूक्लिडियन ज्योमेट्री (जिसके कुछ हिस्से 'प्लेन' ज्योमेट्री के रूप में पढ़ाए जाते हैं) को संदर्भित करता है, और नॉन-फ्लैट नॉन-यूक्लिडियन ज्योमेट्री को संदर्भित करता है। मशीन लर्निंग में ज्योमेट्री का क्या काम? खैर, गणित में जड़ें होने के कारण, पॉइंट्स के बीच की दूरी को मापने का एक सामान्य तरीका होना चाहिए, और इसे 'फ्लैट' या 'नॉन-फ्लैट' तरीके से किया जा सकता है, डेटा की प्रकृति के आधार पर। [यूक्लिडियन डिस्टेंस](https://wikipedia.org/wiki/Euclidean_distance) को दो पॉइंट्स के बीच की लाइन सेगमेंट की लंबाई के रूप में मापा जाता है। [नॉन-यूक्लिडियन डिस्टेंस](https://wikipedia.org/wiki/Non-Euclidean_geometry) को एक वक्र के साथ मापा जाता है। यदि आपका डेटा, विज़ुअलाइज़ किया गया, एक प्लेन पर मौजूद नहीं लगता है, तो आपको इसे संभालने के लिए एक विशेष एल्गोरिदम का उपयोग करने की आवश्यकता हो सकती है।\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/flat-nonflat.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>डासानी मडिपल्ली द्वारा इन्फोग्राफिक</figcaption>\n",
    "\n",
    "\n",
    "\n",
    "> 🎓 ['डिस्टेंस'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)\n",
    ">\n",
    "> क्लस्टर्स को उनके डिस्टेंस मैट्रिक्स द्वारा परिभाषित किया जाता है, जैसे कि पॉइंट्स के बीच की दूरी। इस दूरी को कुछ तरीकों से मापा जा सकता है। यूक्लिडियन क्लस्टर्स पॉइंट वैल्यूज के औसत द्वारा परिभाषित होते हैं, और इनमें एक 'सेंट्रॉइड' या केंद्र बिंदु होता है। दूरी को उस सेंट्रॉइड से दूरी के रूप में मापा जाता है। नॉन-यूक्लिडियन डिस्टेंस 'क्लस्ट्रॉइड्स' को संदर्भित करता है, जो अन्य पॉइंट्स के सबसे करीब होता है। क्लस्ट्रॉइड्स को विभिन्न तरीकों से परिभाषित किया जा सकता है।\n",
    ">\n",
    "> 🎓 ['कंस्ट्रेन्ड'](https://wikipedia.org/wiki/Constrained_clustering)\n",
    ">\n",
    "> [कंस्ट्रेन्ड क्लस्टरिंग](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) इस अनसुपरवाइज्ड विधि में 'सेमी-सुपरवाइज्ड' लर्निंग को पेश करती है। पॉइंट्स के बीच के संबंधों को 'कैनॉट लिंक' या 'मस्ट-लिंक' के रूप में चिह्नित किया जाता है ताकि डेटा सेट पर कुछ नियम लागू किए जा सकें।\n",
    ">\n",
    "> उदाहरण: यदि किसी एल्गोरिदम को लेबल रहित या सेमी-लेबल्ड डेटा के बैच पर स्वतंत्र रूप से छोड़ दिया जाता है, तो यह जो क्लस्टर्स उत्पन्न करता है, वे खराब गुणवत्ता के हो सकते हैं। ऊपर दिए गए उदाहरण में, क्लस्टर्स 'गोल संगीत चीजें', 'चौकोर संगीत चीजें', 'त्रिकोणीय चीजें', और 'कुकीज़' को समूहित कर सकते हैं। यदि कुछ बाधाएं दी जाती हैं, या पालन करने के लिए नियम (\"आइटम प्लास्टिक का बना होना चाहिए\", \"आइटम को संगीत उत्पन्न करने में सक्षम होना चाहिए\") तो यह एल्गोरिदम को बेहतर विकल्प बनाने में मदद कर सकता है।\n",
    ">\n",
    "> 🎓 'डेंसिटी'\n",
    ">\n",
    "> डेटा जो 'शोरयुक्त' है, उसे 'घना' माना जाता है। इसके प्रत्येक क्लस्टर्स में पॉइंट्स के बीच की दूरी, जांच करने पर, अधिक या कम घनी, या 'भीड़भाड़ वाली' साबित हो सकती है, और इस प्रकार इस डेटा को उपयुक्त क्लस्टरिंग विधि के साथ विश्लेषण करने की आवश्यकता होती है। [यह लेख](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) दिखाता है कि शोरयुक्त डेटा सेट के साथ असमान क्लस्टर डेंसिटी का पता लगाने के लिए K-Means क्लस्टरिंग बनाम HDBSCAN एल्गोरिदम का उपयोग कैसे किया जाता है।\n",
    "\n",
    "क्लस्टरिंग तकनीकों की अपनी समझ को इस [लर्न मॉड्यूल](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) में गहराई से बढ़ाएं।\n",
    "\n",
    "### **क्लस्टरिंग एल्गोरिदम**\n",
    "\n",
    "100 से अधिक क्लस्टरिंग एल्गोरिदम हैं, और उनका उपयोग डेटा की प्रकृति पर निर्भर करता है। आइए कुछ प्रमुख एल्गोरिदम पर चर्चा करें:\n",
    "\n",
    "-   **हायरार्किकल क्लस्टरिंग**। यदि किसी वस्तु को उसके पास की वस्तु की निकटता के आधार पर वर्गीकृत किया जाता है, बजाय दूर की वस्तु के, तो क्लस्टर्स उनके सदस्यों की दूरी के आधार पर बनते हैं। हायरार्किकल क्लस्टरिंग की विशेषता दो क्लस्टर्स को बार-बार मिलाने से होती है।\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/hierarchical.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>डासानी मडिपल्ली द्वारा इन्फोग्राफिक</figcaption>\n",
    "\n",
    "\n",
    "\n",
    "-   **सेंट्रॉइड क्लस्टरिंग**। यह लोकप्रिय एल्गोरिदम 'k' या बनने वाले क्लस्टर्स की संख्या चुनने की आवश्यकता करता है, जिसके बाद एल्गोरिदम क्लस्टर के केंद्र बिंदु को निर्धारित करता है और उस बिंदु के चारों ओर डेटा इकट्ठा करता है। [K-means क्लस्टरिंग](https://wikipedia.org/wiki/K-means_clustering) सेंट्रॉइड क्लस्टरिंग का एक लोकप्रिय संस्करण है जो डेटा सेट को पूर्व-निर्धारित K समूहों में विभाजित करता है। केंद्र निकटतम औसत द्वारा निर्धारित किया जाता है, इसलिए इसका नाम। क्लस्टर से वर्ग दूरी को न्यूनतम किया जाता है।\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/centroid.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>डासानी मडिपल्ली द्वारा इन्फोग्राफिक</figcaption>\n",
    "\n",
    "\n",
    "\n",
    "-   **डिस्ट्रिब्यूशन-आधारित क्लस्टरिंग**। सांख्यिकीय मॉडलिंग पर आधारित, डिस्ट्रिब्यूशन-आधारित क्लस्टरिंग इस बात की संभावना निर्धारित करने पर केंद्रित है कि कोई डेटा पॉइंट किसी क्लस्टर से संबंधित है, और इसे उसी के अनुसार असाइन करता है। Gaussian मिश्रण विधियां इस प्रकार से संबंधित हैं।\n",
    "\n",
    "-   **डेंसिटी-आधारित क्लस्टरिंग**। डेटा पॉइंट्स को उनकी डेंसिटी, या उनके एक-दूसरे के चारों ओर समूह बनाने के आधार पर क्लस्टर्स में असाइन किया जाता है। समूह से दूर डेटा पॉइंट्स को आउटलीयर या शोर माना जाता है। DBSCAN, Mean-shift और OPTICS इस प्रकार की क्लस्टरिंग से संबंधित हैं।\n",
    "\n",
    "-   **ग्रिड-आधारित क्लस्टरिंग**। बहु-आयामी डेटा सेट के लिए, एक ग्रिड बनाया जाता है और डेटा को ग्रिड की कोशिकाओं के बीच विभाजित किया जाता है, जिससे क्लस्टर्स बनते हैं।\n",
    "\n",
    "क्लस्टरिंग के बारे में सीखने का सबसे अच्छा तरीका इसे खुद आजमाना है, और यही आप इस अभ्यास में करेंगे।\n",
    "\n",
    "इस मॉड्यूल को पूरा करने के लिए हमें कुछ पैकेजों की आवश्यकता होगी। आप उन्हें इस प्रकार इंस्टॉल कर सकते हैं: `install.packages(c('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork'))`\n",
    "\n",
    "वैकल्पिक रूप से, नीचे दिया गया स्क्रिप्ट जांचता है कि क्या आपके पास इस मॉड्यूल को पूरा करने के लिए आवश्यक पैकेज हैं और यदि कुछ गायब हैं तो उन्हें आपके लिए इंस्टॉल करता है।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "suppressWarnings(if(!require(\"pacman\")) install.packages(\"pacman\"))\r\n",
    "\r\n",
    "pacman::p_load('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork')\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "## अभ्यास - अपने डेटा को क्लस्टर करें\n",
    "\n",
    "क्लस्टरिंग एक ऐसी तकनीक है जो उचित विज़ुअलाइज़ेशन से बहुत लाभान्वित होती है, तो चलिए अपने म्यूज़िक डेटा को विज़ुअलाइज़ करके शुरुआत करते हैं। यह अभ्यास हमें यह तय करने में मदद करेगा कि इस डेटा की प्रकृति के लिए क्लस्टरिंग के कौन से तरीके का सबसे प्रभावी रूप से उपयोग किया जाना चाहिए।\n",
    "\n",
    "चलिए डेटा को इंपोर्ट करके शुरुआत करते हैं।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Load the core tidyverse and make it available in your current R session\r\n",
    "library(tidyverse)\r\n",
    "\r\n",
    "# Import the data into a tibble\r\n",
    "df <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv\")\r\n",
    "\r\n",
    "# View the first 5 rows of the data set\r\n",
    "df %>% \r\n",
    "  slice_head(n = 5)\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "कभी-कभी, हम अपने डेटा के बारे में थोड़ी अधिक जानकारी प्राप्त करना चाह सकते हैं। हम [*glimpse()*](https://pillar.r-lib.org/reference/glimpse.html) फ़ंक्शन का उपयोग करके `डेटा` और `उसकी संरचना` पर एक नज़र डाल सकते हैं:\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Glimpse into the data set\r\n",
    "df %>% \r\n",
    "  glimpse()\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "शानदार काम!💪\n",
    "\n",
    "हम देख सकते हैं कि `glimpse()` आपको कुल पंक्तियों (observations) और स्तंभों (variables) की संख्या दिखाएगा, फिर प्रत्येक वेरिएबल के नाम के बाद, पंक्ति में प्रत्येक वेरिएबल के पहले कुछ प्रविष्टियों को। इसके अलावा, वेरिएबल का *डेटा प्रकार* प्रत्येक वेरिएबल के नाम के तुरंत बाद `< >` के अंदर दिया जाता है।\n",
    "\n",
    "`DataExplorer::introduce()` इस जानकारी को व्यवस्थित रूप से संक्षेप में प्रस्तुत कर सकता है:\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Describe basic information for our data\r\n",
    "df %>% \r\n",
    "  introduce()\r\n",
    "\r\n",
    "# A visual display of the same\r\n",
    "df %>% \r\n",
    "  plot_intro()\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "बहुत बढ़िया! हमने अभी-अभी सीखा कि हमारे डेटा में कोई भी मान गायब नहीं है।\n",
    "\n",
    "जब हम इस पर काम कर रहे हैं, तो हम सामान्य केंद्रीय प्रवृत्ति सांख्यिकी (जैसे [औसत](https://en.wikipedia.org/wiki/Arithmetic_mean) और [मध्यिका](https://en.wikipedia.org/wiki/Median)) और प्रसार के माप (जैसे [मानक विचलन](https://en.wikipedia.org/wiki/Standard_deviation)) का पता लगा सकते हैं `summarytools::descr()` का उपयोग करके।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Describe common statistics\r\n",
    "df %>% \r\n",
    "  descr(stats = \"common\")\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "आइए डेटा के सामान्य मानों पर नज़र डालते हैं। ध्यान दें कि लोकप्रियता `0` हो सकती है, जो उन गानों को दिखाती है जिनकी कोई रैंकिंग नहीं है। हम इन्हें जल्द ही हटा देंगे।\n",
    "\n",
    "> 🤔 अगर हम क्लस्टरिंग पर काम कर रहे हैं, जो एक अनसुपरवाइज्ड विधि है और लेबल वाले डेटा की आवश्यकता नहीं होती, तो हम यह डेटा लेबल्स के साथ क्यों दिखा रहे हैं? डेटा एक्सप्लोरेशन चरण में ये उपयोगी होते हैं, लेकिन क्लस्टरिंग एल्गोरिदम के काम करने के लिए ये आवश्यक नहीं हैं।\n",
    "\n",
    "### 1. लोकप्रिय शैलियों का अन्वेषण करें\n",
    "\n",
    "आइए आगे बढ़ते हैं और यह पता लगाते हैं कि सबसे लोकप्रिय शैलियां 🎶 कौन सी हैं, इसके उदाहरणों की गिनती करके।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Popular genres\r\n",
    "top_genres <- df %>% \r\n",
    "  count(artist_top_genre, sort = TRUE) %>% \r\n",
    "# Encode to categorical and reorder the according to count\r\n",
    "  mutate(artist_top_genre = factor(artist_top_genre) %>% fct_inorder())\r\n",
    "\r\n",
    "# Print the top genres\r\n",
    "top_genres\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "यह अच्छा रहा! कहते हैं कि एक तस्वीर हजार पंक्तियों के डेटा फ्रेम के बराबर होती है (वैसे, ऐसा कोई नहीं कहता 😅)। लेकिन आप समझ ही गए होंगे, है ना?\n",
    "\n",
    "श्रेणीबद्ध डेटा (character या factor वेरिएबल्स) को विज़ुअलाइज़ करने का एक तरीका बारप्लॉट्स का उपयोग करना है। चलिए, शीर्ष 10 शैलियों (genres) का एक बारप्लॉट बनाते हैं:\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Change the default gray theme\r\n",
    "theme_set(theme_light())\r\n",
    "\r\n",
    "# Visualize popular genres\r\n",
    "top_genres %>%\r\n",
    "  slice(1:10) %>% \r\n",
    "  ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
    "                       fill = artist_top_genre)) +\r\n",
    "  geom_col(alpha = 0.8) +\r\n",
    "  paletteer::scale_fill_paletteer_d(\"rcartocolor::Vivid\") +\r\n",
    "  ggtitle(\"Top genres\") +\r\n",
    "  theme(plot.title = element_text(hjust = 0.5),\r\n",
    "        # Rotates the X markers (so we can read them)\r\n",
    "    axis.text.x = element_text(angle = 90))\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "अब यह पहचानना काफी आसान हो गया है कि हमारे पास `missing` शैलियां हैं 🧐!\n",
    "\n",
    "> एक अच्छी विज़ुअलाइज़ेशन आपको ऐसी चीजें दिखाएगी जिनकी आपने उम्मीद नहीं की थी, या डेटा के बारे में नए सवाल उठाएगी - हैडली विकहम और गैरेट ग्रोलमंड, [R For Data Science](https://r4ds.had.co.nz/introduction.html)\n",
    "\n",
    "ध्यान दें, जब शीर्ष शैली को `Missing` के रूप में वर्णित किया जाता है, तो इसका मतलब है कि Spotify ने इसे वर्गीकृत नहीं किया है, तो चलिए इसे हटा देते हैं।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Visualize popular genres\r\n",
    "top_genres %>%\r\n",
    "  filter(artist_top_genre != \"Missing\") %>% \r\n",
    "  slice(1:10) %>% \r\n",
    "  ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
    "                       fill = artist_top_genre)) +\r\n",
    "  geom_col(alpha = 0.8) +\r\n",
    "  paletteer::scale_fill_paletteer_d(\"rcartocolor::Vivid\") +\r\n",
    "  ggtitle(\"Top genres\") +\r\n",
    "  theme(plot.title = element_text(hjust = 0.5),\r\n",
    "        # Rotates the X markers (so we can read them)\r\n",
    "    axis.text.x = element_text(angle = 90))\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "थोड़े डेटा अन्वेषण से, हम सीखते हैं कि शीर्ष तीन शैलियां इस डेटा सेट पर हावी हैं। चलिए `afro dancehall`, `afropop`, और `nigerian pop` पर ध्यान केंद्रित करते हैं, और साथ ही डेटा सेट को फ़िल्टर करते हैं ताकि 0 लोकप्रियता मान वाले किसी भी चीज़ को हटा दिया जाए (जिसका मतलब है कि इसे डेटा सेट में लोकप्रियता के साथ वर्गीकृत नहीं किया गया था और हमारे उद्देश्यों के लिए इसे शोर माना जा सकता है):\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "nigerian_songs <- df %>% \r\n",
    "  # Concentrate on top 3 genres\r\n",
    "  filter(artist_top_genre %in% c(\"afro dancehall\", \"afropop\",\"nigerian pop\")) %>% \r\n",
    "  # Remove unclassified observations\r\n",
    "  filter(popularity != 0)\r\n",
    "\r\n",
    "\r\n",
    "\r\n",
    "# Visualize popular genres\r\n",
    "nigerian_songs %>%\r\n",
    "  count(artist_top_genre) %>%\r\n",
    "  ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
    "                       fill = artist_top_genre)) +\r\n",
    "  geom_col(alpha = 0.8) +\r\n",
    "  paletteer::scale_fill_paletteer_d(\"ggsci::category10_d3\") +\r\n",
    "  ggtitle(\"Top genres\") +\r\n",
    "  theme(plot.title = element_text(hjust = 0.5))\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "आइए देखें कि हमारे डेटा सेट में संख्यात्मक चर के बीच कोई स्पष्ट रेखीय संबंध है या नहीं। इस संबंध को गणितीय रूप से [सहसंबंध सांख्यिकी](https://en.wikipedia.org/wiki/Correlation) द्वारा मापा जाता है।\n",
    "\n",
    "सहसंबंध सांख्यिकी -1 और 1 के बीच का एक मान होता है, जो संबंध की ताकत को दर्शाता है। 0 से ऊपर के मान *सकारात्मक* सहसंबंध को इंगित करते हैं (एक चर के उच्च मान आमतौर पर दूसरे चर के उच्च मान के साथ मेल खाते हैं), जबकि 0 से नीचे के मान *नकारात्मक* सहसंबंध को इंगित करते हैं (एक चर के उच्च मान आमतौर पर दूसरे चर के निम्न मान के साथ मेल खाते हैं)।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Narrow down to numeric variables and fid correlation\r\n",
    "corr_mat <- nigerian_songs %>% \r\n",
    "  select(where(is.numeric)) %>% \r\n",
    "  cor()\r\n",
    "\r\n",
    "# Visualize correlation matrix\r\n",
    "corrplot(corr_mat, order = 'AOE', col = c('white', 'black'), bg = 'gold2')  \r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "डेटा में मज़बूत सहसंबंध नहीं है, सिवाय `energy` और `loudness` के बीच, जो समझ में आता है क्योंकि तेज़ संगीत आमतौर पर काफी ऊर्जावान होता है। `Popularity` का `release date` के साथ एक संबंध है, जो भी समझ में आता है, क्योंकि हाल के गाने शायद अधिक लोकप्रिय होते हैं। लंबाई और ऊर्जा के बीच भी एक सहसंबंध दिखाई देता है।\n",
    "\n",
    "यह देखना दिलचस्प होगा कि क्लस्टरिंग एल्गोरिदम इस डेटा से क्या निष्कर्ष निकाल सकता है!\n",
    "\n",
    "> 🎓 ध्यान दें कि सहसंबंध का मतलब कारण नहीं होता! हमारे पास सहसंबंध का प्रमाण है लेकिन कारण का कोई प्रमाण नहीं है। एक [मज़ेदार वेबसाइट](https://tylervigen.com/spurious-correlations) में कुछ विज़ुअल्स हैं जो इस बात को उजागर करते हैं।\n",
    "\n",
    "### 2. डेटा वितरण का अन्वेषण करें\n",
    "\n",
    "आइए कुछ और सूक्ष्म सवाल पूछते हैं। क्या लोकप्रियता के आधार पर उनके डांस करने की क्षमता की धारणा में शैलियाँ (genres) महत्वपूर्ण रूप से अलग हैं? आइए हमारे शीर्ष तीन शैलियों के डेटा वितरण को लोकप्रियता और डांस करने की क्षमता के लिए दिए गए x और y अक्ष पर [घनत्व प्लॉट्स](https://www.khanacademy.org/math/ap-statistics/density-curves-normal-distribution-ap/density-curves/v/density-curves) का उपयोग करके जांचें।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Perform 2D kernel density estimation\r\n",
    "density_estimate_2d <- nigerian_songs %>% \r\n",
    "  ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre)) +\r\n",
    "  geom_density_2d(bins = 5, size = 1) +\r\n",
    "  paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
    "  xlim(-20, 80) +\r\n",
    "  ylim(0, 1.2)\r\n",
    "\r\n",
    "# Density plot based on the popularity\r\n",
    "density_estimate_pop <- nigerian_songs %>% \r\n",
    "  ggplot(mapping = aes(x = popularity, fill = artist_top_genre, color = artist_top_genre)) +\r\n",
    "  geom_density(size = 1, alpha = 0.5) +\r\n",
    "  paletteer::scale_fill_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
    "  paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
    "  theme(legend.position = \"none\")\r\n",
    "\r\n",
    "# Density plot based on the danceability\r\n",
    "density_estimate_dance <- nigerian_songs %>% \r\n",
    "  ggplot(mapping = aes(x = danceability, fill = artist_top_genre, color = artist_top_genre)) +\r\n",
    "  geom_density(size = 1, alpha = 0.5) +\r\n",
    "  paletteer::scale_fill_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
    "  paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\")\r\n",
    "\r\n",
    "\r\n",
    "# Patch everything together\r\n",
    "library(patchwork)\r\n",
    "density_estimate_2d / (density_estimate_pop + density_estimate_dance)\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "हम देखते हैं कि कुछ समकेंद्रित वृत्त एक पंक्ति में आते हैं, चाहे शैली कोई भी हो। क्या ऐसा हो सकता है कि इस शैली के लिए नाइजीरियाई पसंद एक निश्चित स्तर की नृत्य क्षमता पर मिलती हो?\n",
    "\n",
    "सामान्य तौर पर, इन तीन शैलियों की लोकप्रियता और नृत्य क्षमता के मामले में समानता है। इस ढीले-संरेखित डेटा में समूहों को निर्धारित करना एक चुनौती होगी। आइए देखें कि क्या एक स्कैटर प्लॉट इसमें मदद कर सकता है।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# A scatter plot of popularity and danceability\r\n",
    "scatter_plot <- nigerian_songs %>% \r\n",
    "  ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre, shape = artist_top_genre)) +\r\n",
    "  geom_point(size = 2, alpha = 0.8) +\r\n",
    "  paletteer::scale_color_paletteer_d(\"futurevisions::mars\")\r\n",
    "\r\n",
    "# Add a touch of interactivity\r\n",
    "ggplotly(scatter_plot)\r\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "एक ही अक्षों का स्कैटरप्लॉट समान अभिसरण पैटर्न दिखाता है।\n",
    "\n",
    "सामान्यतः, क्लस्टरिंग के लिए, आप स्कैटरप्लॉट्स का उपयोग डेटा के क्लस्टर्स दिखाने के लिए कर सकते हैं, इसलिए इस प्रकार की विज़ुअलाइज़ेशन में महारत हासिल करना बहुत उपयोगी है। अगले पाठ में, हम इस फ़िल्टर किए गए डेटा का उपयोग करेंगे और k-means क्लस्टरिंग का उपयोग करके इस डेटा में समूहों की खोज करेंगे जो दिलचस्प तरीकों से ओवरलैप होते हैं।\n",
    "\n",
    "## **🚀 चुनौती**\n",
    "\n",
    "अगले पाठ की तैयारी के लिए, विभिन्न क्लस्टरिंग एल्गोरिदम के बारे में एक चार्ट बनाएं जिन्हें आप प्रोडक्शन वातावरण में खोज सकते हैं और उपयोग कर सकते हैं। क्लस्टरिंग किस प्रकार की समस्याओं को हल करने की कोशिश कर रही है?\n",
    "\n",
    "## [**पाठ के बाद क्विज़**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/28/)\n",
    "\n",
    "## **समीक्षा और स्व-अध्ययन**\n",
    "\n",
    "जैसा कि हमने सीखा है, क्लस्टरिंग एल्गोरिदम लागू करने से पहले, अपने डेटा सेट की प्रकृति को समझना एक अच्छा विचार है। इस विषय पर अधिक पढ़ें [यहां](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)\n",
    "\n",
    "क्लस्टरिंग तकनीकों की अपनी समझ को गहरा करें:\n",
    "\n",
    "-   [Tidymodels और दोस्तों का उपयोग करके क्लस्टरिंग मॉडल को ट्रेन और मूल्यांकन करें](https://rpubs.com/eR_ic/clustering)\n",
    "\n",
    "-   ब्रैडली बोएमके और ब्रैंडन ग्रीनवेल, [*Hands-On Machine Learning with R*](https://bradleyboehmke.github.io/HOML/)*.*\n",
    "\n",
    "## **असाइनमेंट**\n",
    "\n",
    "[क्लस्टरिंग के लिए अन्य विज़ुअलाइज़ेशन पर शोध करें](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/assignment.md)\n",
    "\n",
    "## धन्यवाद:\n",
    "\n",
    "[जेन लूपर](https://www.twitter.com/jenlooper) इस मॉड्यूल के मूल Python संस्करण को बनाने के लिए ♥️\n",
    "\n",
    "[`दसानी मडिपल्ली`](https://twitter.com/dasani_decoded) अद्भुत चित्रण बनाने के लिए जो मशीन लर्निंग अवधारणाओं को अधिक व्याख्यात्मक और समझने में आसान बनाते हैं।\n",
    "\n",
    "खुशहाल सीखना,\n",
    "\n",
    "[एरिक](https://twitter.com/ericntay), गोल्ड Microsoft Learn स्टूडेंट एंबेसडर।\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n---\n\n**अस्वीकरण**:  \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।\n"
   ]
  }
 ],
 "metadata": {
  "anaconda-cloud": "",
  "kernelspec": {
   "display_name": "R",
   "language": "R",
   "name": "ir"
  },
  "language_info": {
   "codemirror_mode": "r",
   "file_extension": ".r",
   "mimetype": "text/x-r-source",
   "name": "R",
   "pygments_lexer": "r",
   "version": "3.4.1"
  },
  "coopTranslator": {
   "original_hash": "99c36449cad3708a435f6798cfa39972",
   "translation_date": "2025-09-04T02:08:58+00:00",
   "source_file": "5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb",
   "language_code": "hi"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 1
}