You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/hi/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb

499 lines
49 KiB

{
"cells": [
{
"cell_type": "markdown",
"source": [
"## **Spotify से प्राप्त नाइजीरियाई संगीत - एक विश्लेषण**\n",
"\n",
"क्लस्टरिंग [अनसुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Unsupervised_learning) का एक प्रकार है, जो मानता है कि डेटा सेट लेबल रहित है या इसके इनपुट्स को पहले से परिभाषित आउटपुट्स के साथ मिलाया नहीं गया है। यह विभिन्न एल्गोरिदम का उपयोग करके लेबल रहित डेटा को वर्गीकृत करता है और डेटा में पहचाने गए पैटर्न के अनुसार समूह प्रदान करता है।\n",
"\n",
"[**प्री-लेक्चर क्विज**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n",
"\n",
"### **परिचय**\n",
"\n",
"[क्लस्टरिंग](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डेटा एक्सप्लोरेशन के लिए बहुत उपयोगी है। आइए देखें कि क्या यह नाइजीरियाई दर्शकों के संगीत उपभोग के तरीकों में रुझान और पैटर्न खोजने में मदद कर सकता है।\n",
"\n",
"> ✅ क्लस्टरिंग के उपयोगों के बारे में सोचने के लिए एक मिनट लें। असल जिंदगी में, क्लस्टरिंग तब होती है जब आपके पास कपड़ों का ढेर होता है और आपको अपने परिवार के सदस्यों के कपड़े अलग करने होते हैं 🧦👕👖🩲। डेटा साइंस में, क्लस्टरिंग तब होती है जब उपयोगकर्ता की प्राथमिकताओं का विश्लेषण करने या किसी लेबल रहित डेटा सेट की विशेषताओं को निर्धारित करने की कोशिश की जाती है। क्लस्टरिंग, एक तरह से, अराजकता को समझने में मदद करती है, जैसे मोजे की दराज।\n",
"\n",
"पेशेवर सेटिंग में, क्लस्टरिंग का उपयोग बाजार विभाजन, यह निर्धारित करने के लिए कि कौन सी आयु वर्ग कौन सी वस्तुएं खरीदती हैं, जैसे चीजों को निर्धारित करने के लिए किया जा सकता है। एक अन्य उपयोग अनियमितता का पता लगाना हो सकता है, जैसे कि क्रेडिट कार्ड लेनदेन के डेटा सेट से धोखाधड़ी का पता लगाना। या आप इसे मेडिकल स्कैन के बैच में ट्यूमर का पता लगाने के लिए उपयोग कर सकते हैं।\n",
"\n",
"✅ एक मिनट सोचें कि आपने बैंकिंग, ई-कॉमर्स, या व्यवसाय सेटिंग में 'क्लस्टरिंग' को 'वास्तविक जीवन' में कैसे देखा होगा।\n",
"\n",
"> 🎓 दिलचस्प बात यह है कि क्लस्टर विश्लेषण की शुरुआत 1930 के दशक में मानवशास्त्र और मनोविज्ञान के क्षेत्रों में हुई थी। क्या आप कल्पना कर सकते हैं कि इसका उपयोग कैसे किया गया होगा?\n",
"\n",
"इसके अलावा, आप इसे खोज परिणामों को समूहित करने के लिए उपयोग कर सकते हैं - जैसे शॉपिंग लिंक, छवियां, या समीक्षाएं। क्लस्टरिंग तब उपयोगी होती है जब आपके पास एक बड़ा डेटा सेट होता है जिसे आप कम करना चाहते हैं और जिस पर आप अधिक गहन विश्लेषण करना चाहते हैं, इसलिए इस तकनीक का उपयोग अन्य मॉडलों के निर्माण से पहले डेटा के बारे में जानने के लिए किया जा सकता है।\n",
"\n",
"✅ एक बार जब आपका डेटा क्लस्टर्स में व्यवस्थित हो जाता है, तो आप इसे एक क्लस्टर आईडी असाइन करते हैं, और यह तकनीक डेटा सेट की गोपनीयता बनाए रखने में उपयोगी हो सकती है; आप क्लस्टर के अधिक खुलासा करने वाले पहचान योग्य डेटा के बजाय क्लस्टर आईडी द्वारा डेटा पॉइंट का उल्लेख कर सकते हैं। क्या आप अन्य कारणों के बारे में सोच सकते हैं कि आप इसे पहचानने के लिए क्लस्टर आईडी का उपयोग क्यों करेंगे?\n",
"\n",
"### क्लस्टरिंग के साथ शुरुआत\n",
"\n",
"> 🎓 हम क्लस्टर्स कैसे बनाते हैं, इसका बहुत कुछ इस बात से लेना-देना है कि हम डेटा पॉइंट्स को समूहों में कैसे इकट्ठा करते हैं। आइए कुछ शब्दावली को समझें:\n",
">\n",
"> 🎓 ['ट्रांसडक्टिव' बनाम 'इंडक्टिव'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n",
">\n",
"> ट्रांसडक्टिव इनफेरेंस उन देखे गए प्रशिक्षण मामलों से प्राप्त होता है जो विशिष्ट परीक्षण मामलों से मेल खाते हैं। इंडक्टिव इनफेरेंस उन प्रशिक्षण मामलों से प्राप्त होता है जो सामान्य नियमों से मेल खाते हैं, जिन्हें केवल बाद में परीक्षण मामलों पर लागू किया जाता है।\n",
">\n",
"> उदाहरण: कल्पना करें कि आपके पास एक डेटा सेट है जो केवल आंशिक रूप से लेबल किया गया है। कुछ चीजें 'रिकॉर्ड्स' हैं, कुछ 'सीडी' हैं, और कुछ खाली हैं। आपका काम खाली स्थानों के लिए लेबल प्रदान करना है। यदि आप इंडक्टिव दृष्टिकोण चुनते हैं, तो आप 'रिकॉर्ड्स' और 'सीडी' की तलाश में एक मॉडल को प्रशिक्षित करेंगे और उन लेबल्स को अपने लेबल रहित डेटा पर लागू करेंगे। यह दृष्टिकोण उन चीजों को वर्गीकृत करने में कठिनाई करेगा जो वास्तव में 'कैसेट्स' हैं। दूसरी ओर, ट्रांसडक्टिव दृष्टिकोण इस अज्ञात डेटा को अधिक प्रभावी ढंग से संभालता है क्योंकि यह समान वस्तुओं को एक साथ समूहित करने और फिर समूह को एक लेबल लागू करने का काम करता है। इस मामले में, क्लस्टर्स 'गोल संगीत चीजें' और 'चौकोर संगीत चीजें' को दर्शा सकते हैं।\n",
">\n",
"> 🎓 ['नॉन-फ्लैट' बनाम 'फ्लैट' ज्योमेट्री](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n",
">\n",
"> गणितीय शब्दावली से लिया गया, नॉन-फ्लैट बनाम फ्लैट ज्योमेट्री पॉइंट्स के बीच की दूरी को 'फ्लैट' ([यूक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) या 'नॉन-फ्लैट' (नॉन-यूक्लिडियन) ज्योमेट्रिकल तरीकों से मापने को संदर्भित करता है।\n",
">\n",
"> 'फ्लैट' इस संदर्भ में यूक्लिडियन ज्योमेट्री (जिसके कुछ हिस्से 'प्लेन' ज्योमेट्री के रूप में पढ़ाए जाते हैं) को संदर्भित करता है, और नॉन-फ्लैट नॉन-यूक्लिडियन ज्योमेट्री को संदर्भित करता है। मशीन लर्निंग में ज्योमेट्री का क्या काम? खैर, गणित में जड़ें होने के कारण, पॉइंट्स के बीच की दूरी को मापने का एक सामान्य तरीका होना चाहिए, और इसे 'फ्लैट' या 'नॉन-फ्लैट' तरीके से किया जा सकता है, डेटा की प्रकृति के आधार पर। [यूक्लिडियन डिस्टेंस](https://wikipedia.org/wiki/Euclidean_distance) को दो पॉइंट्स के बीच की लाइन सेगमेंट की लंबाई के रूप में मापा जाता है। [नॉन-यूक्लिडियन डिस्टेंस](https://wikipedia.org/wiki/Non-Euclidean_geometry) को एक वक्र के साथ मापा जाता है। यदि आपका डेटा, विज़ुअलाइज़ किया गया, एक प्लेन पर मौजूद नहीं लगता है, तो आपको इसे संभालने के लिए एक विशेष एल्गोरिदम का उपयोग करने की आवश्यकता हो सकती है।\n",
"\n",
"<p >\n",
" <img src=\"../../images/flat-nonflat.png\"\n",
" width=\"600\"/>\n",
" <figcaption>डासानी मडिपल्ली द्वारा इन्फोग्राफिक</figcaption>\n",
"\n",
"\n",
"\n",
"> 🎓 ['डिस्टेंस'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)\n",
">\n",
"> क्लस्टर्स को उनके डिस्टेंस मैट्रिक्स द्वारा परिभाषित किया जाता है, जैसे कि पॉइंट्स के बीच की दूरी। इस दूरी को कुछ तरीकों से मापा जा सकता है। यूक्लिडियन क्लस्टर्स पॉइंट वैल्यूज के औसत द्वारा परिभाषित होते हैं, और इनमें एक 'सेंट्रॉइड' या केंद्र बिंदु होता है। दूरी को उस सेंट्रॉइड से दूरी के रूप में मापा जाता है। नॉन-यूक्लिडियन डिस्टेंस 'क्लस्ट्रॉइड्स' को संदर्भित करता है, जो अन्य पॉइंट्स के सबसे करीब होता है। क्लस्ट्रॉइड्स को विभिन्न तरीकों से परिभाषित किया जा सकता है।\n",
">\n",
"> 🎓 ['कंस्ट्रेन्ड'](https://wikipedia.org/wiki/Constrained_clustering)\n",
">\n",
"> [कंस्ट्रेन्ड क्लस्टरिंग](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) इस अनसुपरवाइज्ड विधि में 'सेमी-सुपरवाइज्ड' लर्निंग को पेश करती है। पॉइंट्स के बीच के संबंधों को 'कैनॉट लिंक' या 'मस्ट-लिंक' के रूप में चिह्नित किया जाता है ताकि डेटा सेट पर कुछ नियम लागू किए जा सकें।\n",
">\n",
"> उदाहरण: यदि किसी एल्गोरिदम को लेबल रहित या सेमी-लेबल्ड डेटा के बैच पर स्वतंत्र रूप से छोड़ दिया जाता है, तो यह जो क्लस्टर्स उत्पन्न करता है, वे खराब गुणवत्ता के हो सकते हैं। ऊपर दिए गए उदाहरण में, क्लस्टर्स 'गोल संगीत चीजें', 'चौकोर संगीत चीजें', 'त्रिकोणीय चीजें', और 'कुकीज़' को समूहित कर सकते हैं। यदि कुछ बाधाएं दी जाती हैं, या पालन करने के लिए नियम (\"आइटम प्लास्टिक का बना होना चाहिए\", \"आइटम को संगीत उत्पन्न करने में सक्षम होना चाहिए\") तो यह एल्गोरिदम को बेहतर विकल्प बनाने में मदद कर सकता है।\n",
">\n",
"> 🎓 'डेंसिटी'\n",
">\n",
"> डेटा जो 'शोरयुक्त' है, उसे 'घना' माना जाता है। इसके प्रत्येक क्लस्टर्स में पॉइंट्स के बीच की दूरी, जांच करने पर, अधिक या कम घनी, या 'भीड़भाड़ वाली' साबित हो सकती है, और इस प्रकार इस डेटा को उपयुक्त क्लस्टरिंग विधि के साथ विश्लेषण करने की आवश्यकता होती है। [यह लेख](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) दिखाता है कि शोरयुक्त डेटा सेट के साथ असमान क्लस्टर डेंसिटी का पता लगाने के लिए K-Means क्लस्टरिंग बनाम HDBSCAN एल्गोरिदम का उपयोग कैसे किया जाता है।\n",
"\n",
"क्लस्टरिंग तकनीकों की अपनी समझ को इस [लर्न मॉड्यूल](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) में गहराई से बढ़ाएं।\n",
"\n",
"### **क्लस्टरिंग एल्गोरिदम**\n",
"\n",
"100 से अधिक क्लस्टरिंग एल्गोरिदम हैं, और उनका उपयोग डेटा की प्रकृति पर निर्भर करता है। आइए कुछ प्रमुख एल्गोरिदम पर चर्चा करें:\n",
"\n",
"- **हायरार्किकल क्लस्टरिंग**। यदि किसी वस्तु को उसके पास की वस्तु की निकटता के आधार पर वर्गीकृत किया जाता है, बजाय दूर की वस्तु के, तो क्लस्टर्स उनके सदस्यों की दूरी के आधार पर बनते हैं। हायरार्किकल क्लस्टरिंग की विशेषता दो क्लस्टर्स को बार-बार मिलाने से होती है।\n",
"\n",
"<p >\n",
" <img src=\"../../images/hierarchical.png\"\n",
" width=\"600\"/>\n",
" <figcaption>डासानी मडिपल्ली द्वारा इन्फोग्राफिक</figcaption>\n",
"\n",
"\n",
"\n",
"- **सेंट्रॉइड क्लस्टरिंग**। यह लोकप्रिय एल्गोरिदम 'k' या बनने वाले क्लस्टर्स की संख्या चुनने की आवश्यकता करता है, जिसके बाद एल्गोरिदम क्लस्टर के केंद्र बिंदु को निर्धारित करता है और उस बिंदु के चारों ओर डेटा इकट्ठा करता है। [K-means क्लस्टरिंग](https://wikipedia.org/wiki/K-means_clustering) सेंट्रॉइड क्लस्टरिंग का एक लोकप्रिय संस्करण है जो डेटा सेट को पूर्व-निर्धारित K समूहों में विभाजित करता है। केंद्र निकटतम औसत द्वारा निर्धारित किया जाता है, इसलिए इसका नाम। क्लस्टर से वर्ग दूरी को न्यूनतम किया जाता है।\n",
"\n",
"<p >\n",
" <img src=\"../../images/centroid.png\"\n",
" width=\"600\"/>\n",
" <figcaption>डासानी मडिपल्ली द्वारा इन्फोग्राफिक</figcaption>\n",
"\n",
"\n",
"\n",
"- **डिस्ट्रिब्यूशन-आधारित क्लस्टरिंग**। सांख्यिकीय मॉडलिंग पर आधारित, डिस्ट्रिब्यूशन-आधारित क्लस्टरिंग इस बात की संभावना निर्धारित करने पर केंद्रित है कि कोई डेटा पॉइंट किसी क्लस्टर से संबंधित है, और इसे उसी के अनुसार असाइन करता है। Gaussian मिश्रण विधियां इस प्रकार से संबंधित हैं।\n",
"\n",
"- **डेंसिटी-आधारित क्लस्टरिंग**। डेटा पॉइंट्स को उनकी डेंसिटी, या उनके एक-दूसरे के चारों ओर समूह बनाने के आधार पर क्लस्टर्स में असाइन किया जाता है। समूह से दूर डेटा पॉइंट्स को आउटलीयर या शोर माना जाता है। DBSCAN, Mean-shift और OPTICS इस प्रकार की क्लस्टरिंग से संबंधित हैं।\n",
"\n",
"- **ग्रिड-आधारित क्लस्टरिंग**। बहु-आयामी डेटा सेट के लिए, एक ग्रिड बनाया जाता है और डेटा को ग्रिड की कोशिकाओं के बीच विभाजित किया जाता है, जिससे क्लस्टर्स बनते हैं।\n",
"\n",
"क्लस्टरिंग के बारे में सीखने का सबसे अच्छा तरीका इसे खुद आजमाना है, और यही आप इस अभ्यास में करेंगे।\n",
"\n",
"इस मॉड्यूल को पूरा करने के लिए हमें कुछ पैकेजों की आवश्यकता होगी। आप उन्हें इस प्रकार इंस्टॉल कर सकते हैं: `install.packages(c('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork'))`\n",
"\n",
"वैकल्पिक रूप से, नीचे दिया गया स्क्रिप्ट जांचता है कि क्या आपके पास इस मॉड्यूल को पूरा करने के लिए आवश्यक पैकेज हैं और यदि कुछ गायब हैं तो उन्हें आपके लिए इंस्टॉल करता है।\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"suppressWarnings(if(!require(\"pacman\")) install.packages(\"pacman\"))\r\n",
"\r\n",
"pacman::p_load('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork')\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## अभ्यास - अपने डेटा को क्लस्टर करें\n",
"\n",
"क्लस्टरिंग एक ऐसी तकनीक है जो उचित विज़ुअलाइज़ेशन से बहुत लाभान्वित होती है, तो चलिए अपने म्यूज़िक डेटा को विज़ुअलाइज़ करके शुरुआत करते हैं। यह अभ्यास हमें यह तय करने में मदद करेगा कि इस डेटा की प्रकृति के लिए क्लस्टरिंग के कौन से तरीके का सबसे प्रभावी रूप से उपयोग किया जाना चाहिए।\n",
"\n",
"चलिए डेटा को इंपोर्ट करके शुरुआत करते हैं।\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Load the core tidyverse and make it available in your current R session\r\n",
"library(tidyverse)\r\n",
"\r\n",
"# Import the data into a tibble\r\n",
"df <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv\")\r\n",
"\r\n",
"# View the first 5 rows of the data set\r\n",
"df %>% \r\n",
" slice_head(n = 5)\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"कभी-कभी, हम अपने डेटा के बारे में थोड़ी अधिक जानकारी प्राप्त करना चाह सकते हैं। हम [*glimpse()*](https://pillar.r-lib.org/reference/glimpse.html) फ़ंक्शन का उपयोग करके `डेटा` और `उसकी संरचना` पर एक नज़र डाल सकते हैं:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Glimpse into the data set\r\n",
"df %>% \r\n",
" glimpse()\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"शानदार काम!💪\n",
"\n",
"हम देख सकते हैं कि `glimpse()` आपको कुल पंक्तियों (observations) और स्तंभों (variables) की संख्या दिखाएगा, फिर प्रत्येक वेरिएबल के नाम के बाद, पंक्ति में प्रत्येक वेरिएबल के पहले कुछ प्रविष्टियों को। इसके अलावा, वेरिएबल का *डेटा प्रकार* प्रत्येक वेरिएबल के नाम के तुरंत बाद `< >` के अंदर दिया जाता है।\n",
"\n",
"`DataExplorer::introduce()` इस जानकारी को व्यवस्थित रूप से संक्षेप में प्रस्तुत कर सकता है:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Describe basic information for our data\r\n",
"df %>% \r\n",
" introduce()\r\n",
"\r\n",
"# A visual display of the same\r\n",
"df %>% \r\n",
" plot_intro()\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"बहुत बढ़िया! हमने अभी-अभी सीखा कि हमारे डेटा में कोई भी मान गायब नहीं है।\n",
"\n",
"जब हम इस पर काम कर रहे हैं, तो हम सामान्य केंद्रीय प्रवृत्ति सांख्यिकी (जैसे [औसत](https://en.wikipedia.org/wiki/Arithmetic_mean) और [मध्यिका](https://en.wikipedia.org/wiki/Median)) और प्रसार के माप (जैसे [मानक विचलन](https://en.wikipedia.org/wiki/Standard_deviation)) का पता लगा सकते हैं `summarytools::descr()` का उपयोग करके।\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Describe common statistics\r\n",
"df %>% \r\n",
" descr(stats = \"common\")\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"आइए डेटा के सामान्य मानों पर नज़र डालते हैं। ध्यान दें कि लोकप्रियता `0` हो सकती है, जो उन गानों को दिखाती है जिनकी कोई रैंकिंग नहीं है। हम इन्हें जल्द ही हटा देंगे।\n",
"\n",
"> 🤔 अगर हम क्लस्टरिंग पर काम कर रहे हैं, जो एक अनसुपरवाइज्ड विधि है और लेबल वाले डेटा की आवश्यकता नहीं होती, तो हम यह डेटा लेबल्स के साथ क्यों दिखा रहे हैं? डेटा एक्सप्लोरेशन चरण में ये उपयोगी होते हैं, लेकिन क्लस्टरिंग एल्गोरिदम के काम करने के लिए ये आवश्यक नहीं हैं।\n",
"\n",
"### 1. लोकप्रिय शैलियों का अन्वेषण करें\n",
"\n",
"आइए आगे बढ़ते हैं और यह पता लगाते हैं कि सबसे लोकप्रिय शैलियां 🎶 कौन सी हैं, इसके उदाहरणों की गिनती करके।\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Popular genres\r\n",
"top_genres <- df %>% \r\n",
" count(artist_top_genre, sort = TRUE) %>% \r\n",
"# Encode to categorical and reorder the according to count\r\n",
" mutate(artist_top_genre = factor(artist_top_genre) %>% fct_inorder())\r\n",
"\r\n",
"# Print the top genres\r\n",
"top_genres\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"यह अच्छा रहा! कहते हैं कि एक तस्वीर हजार पंक्तियों के डेटा फ्रेम के बराबर होती है (वैसे, ऐसा कोई नहीं कहता 😅)। लेकिन आप समझ ही गए होंगे, है ना?\n",
"\n",
"श्रेणीबद्ध डेटा (character या factor वेरिएबल्स) को विज़ुअलाइज़ करने का एक तरीका बारप्लॉट्स का उपयोग करना है। चलिए, शीर्ष 10 शैलियों (genres) का एक बारप्लॉट बनाते हैं:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Change the default gray theme\r\n",
"theme_set(theme_light())\r\n",
"\r\n",
"# Visualize popular genres\r\n",
"top_genres %>%\r\n",
" slice(1:10) %>% \r\n",
" ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
" fill = artist_top_genre)) +\r\n",
" geom_col(alpha = 0.8) +\r\n",
" paletteer::scale_fill_paletteer_d(\"rcartocolor::Vivid\") +\r\n",
" ggtitle(\"Top genres\") +\r\n",
" theme(plot.title = element_text(hjust = 0.5),\r\n",
" # Rotates the X markers (so we can read them)\r\n",
" axis.text.x = element_text(angle = 90))\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"अब यह पहचानना काफी आसान हो गया है कि हमारे पास `missing` शैलियां हैं 🧐!\n",
"\n",
"> एक अच्छी विज़ुअलाइज़ेशन आपको ऐसी चीजें दिखाएगी जिनकी आपने उम्मीद नहीं की थी, या डेटा के बारे में नए सवाल उठाएगी - हैडली विकहम और गैरेट ग्रोलमंड, [R For Data Science](https://r4ds.had.co.nz/introduction.html)\n",
"\n",
"ध्यान दें, जब शीर्ष शैली को `Missing` के रूप में वर्णित किया जाता है, तो इसका मतलब है कि Spotify ने इसे वर्गीकृत नहीं किया है, तो चलिए इसे हटा देते हैं।\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Visualize popular genres\r\n",
"top_genres %>%\r\n",
" filter(artist_top_genre != \"Missing\") %>% \r\n",
" slice(1:10) %>% \r\n",
" ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
" fill = artist_top_genre)) +\r\n",
" geom_col(alpha = 0.8) +\r\n",
" paletteer::scale_fill_paletteer_d(\"rcartocolor::Vivid\") +\r\n",
" ggtitle(\"Top genres\") +\r\n",
" theme(plot.title = element_text(hjust = 0.5),\r\n",
" # Rotates the X markers (so we can read them)\r\n",
" axis.text.x = element_text(angle = 90))\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"थोड़े डेटा अन्वेषण से, हम सीखते हैं कि शीर्ष तीन शैलियां इस डेटा सेट पर हावी हैं। चलिए `afro dancehall`, `afropop`, और `nigerian pop` पर ध्यान केंद्रित करते हैं, और साथ ही डेटा सेट को फ़िल्टर करते हैं ताकि 0 लोकप्रियता मान वाले किसी भी चीज़ को हटा दिया जाए (जिसका मतलब है कि इसे डेटा सेट में लोकप्रियता के साथ वर्गीकृत नहीं किया गया था और हमारे उद्देश्यों के लिए इसे शोर माना जा सकता है):\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"nigerian_songs <- df %>% \r\n",
" # Concentrate on top 3 genres\r\n",
" filter(artist_top_genre %in% c(\"afro dancehall\", \"afropop\",\"nigerian pop\")) %>% \r\n",
" # Remove unclassified observations\r\n",
" filter(popularity != 0)\r\n",
"\r\n",
"\r\n",
"\r\n",
"# Visualize popular genres\r\n",
"nigerian_songs %>%\r\n",
" count(artist_top_genre) %>%\r\n",
" ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
" fill = artist_top_genre)) +\r\n",
" geom_col(alpha = 0.8) +\r\n",
" paletteer::scale_fill_paletteer_d(\"ggsci::category10_d3\") +\r\n",
" ggtitle(\"Top genres\") +\r\n",
" theme(plot.title = element_text(hjust = 0.5))\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"आइए देखें कि हमारे डेटा सेट में संख्यात्मक चर के बीच कोई स्पष्ट रेखीय संबंध है या नहीं। इस संबंध को गणितीय रूप से [सहसंबंध सांख्यिकी](https://en.wikipedia.org/wiki/Correlation) द्वारा मापा जाता है।\n",
"\n",
"सहसंबंध सांख्यिकी -1 और 1 के बीच का एक मान होता है, जो संबंध की ताकत को दर्शाता है। 0 से ऊपर के मान *सकारात्मक* सहसंबंध को इंगित करते हैं (एक चर के उच्च मान आमतौर पर दूसरे चर के उच्च मान के साथ मेल खाते हैं), जबकि 0 से नीचे के मान *नकारात्मक* सहसंबंध को इंगित करते हैं (एक चर के उच्च मान आमतौर पर दूसरे चर के निम्न मान के साथ मेल खाते हैं)।\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Narrow down to numeric variables and fid correlation\r\n",
"corr_mat <- nigerian_songs %>% \r\n",
" select(where(is.numeric)) %>% \r\n",
" cor()\r\n",
"\r\n",
"# Visualize correlation matrix\r\n",
"corrplot(corr_mat, order = 'AOE', col = c('white', 'black'), bg = 'gold2') \r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"डेटा में मज़बूत सहसंबंध नहीं है, सिवाय `energy` और `loudness` के बीच, जो समझ में आता है क्योंकि तेज़ संगीत आमतौर पर काफी ऊर्जावान होता है। `Popularity` का `release date` के साथ एक संबंध है, जो भी समझ में आता है, क्योंकि हाल के गाने शायद अधिक लोकप्रिय होते हैं। लंबाई और ऊर्जा के बीच भी एक सहसंबंध दिखाई देता है।\n",
"\n",
"यह देखना दिलचस्प होगा कि क्लस्टरिंग एल्गोरिदम इस डेटा से क्या निष्कर्ष निकाल सकता है!\n",
"\n",
"> 🎓 ध्यान दें कि सहसंबंध का मतलब कारण नहीं होता! हमारे पास सहसंबंध का प्रमाण है लेकिन कारण का कोई प्रमाण नहीं है। एक [मज़ेदार वेबसाइट](https://tylervigen.com/spurious-correlations) में कुछ विज़ुअल्स हैं जो इस बात को उजागर करते हैं।\n",
"\n",
"### 2. डेटा वितरण का अन्वेषण करें\n",
"\n",
"आइए कुछ और सूक्ष्म सवाल पूछते हैं। क्या लोकप्रियता के आधार पर उनके डांस करने की क्षमता की धारणा में शैलियाँ (genres) महत्वपूर्ण रूप से अलग हैं? आइए हमारे शीर्ष तीन शैलियों के डेटा वितरण को लोकप्रियता और डांस करने की क्षमता के लिए दिए गए x और y अक्ष पर [घनत्व प्लॉट्स](https://www.khanacademy.org/math/ap-statistics/density-curves-normal-distribution-ap/density-curves/v/density-curves) का उपयोग करके जांचें।\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Perform 2D kernel density estimation\r\n",
"density_estimate_2d <- nigerian_songs %>% \r\n",
" ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre)) +\r\n",
" geom_density_2d(bins = 5, size = 1) +\r\n",
" paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
" xlim(-20, 80) +\r\n",
" ylim(0, 1.2)\r\n",
"\r\n",
"# Density plot based on the popularity\r\n",
"density_estimate_pop <- nigerian_songs %>% \r\n",
" ggplot(mapping = aes(x = popularity, fill = artist_top_genre, color = artist_top_genre)) +\r\n",
" geom_density(size = 1, alpha = 0.5) +\r\n",
" paletteer::scale_fill_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
" paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
" theme(legend.position = \"none\")\r\n",
"\r\n",
"# Density plot based on the danceability\r\n",
"density_estimate_dance <- nigerian_songs %>% \r\n",
" ggplot(mapping = aes(x = danceability, fill = artist_top_genre, color = artist_top_genre)) +\r\n",
" geom_density(size = 1, alpha = 0.5) +\r\n",
" paletteer::scale_fill_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
" paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\")\r\n",
"\r\n",
"\r\n",
"# Patch everything together\r\n",
"library(patchwork)\r\n",
"density_estimate_2d / (density_estimate_pop + density_estimate_dance)\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"हम देखते हैं कि कुछ समकेंद्रित वृत्त एक पंक्ति में आते हैं, चाहे शैली कोई भी हो। क्या ऐसा हो सकता है कि इस शैली के लिए नाइजीरियाई पसंद एक निश्चित स्तर की नृत्य क्षमता पर मिलती हो?\n",
"\n",
"सामान्य तौर पर, इन तीन शैलियों की लोकप्रियता और नृत्य क्षमता के मामले में समानता है। इस ढीले-संरेखित डेटा में समूहों को निर्धारित करना एक चुनौती होगी। आइए देखें कि क्या एक स्कैटर प्लॉट इसमें मदद कर सकता है।\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# A scatter plot of popularity and danceability\r\n",
"scatter_plot <- nigerian_songs %>% \r\n",
" ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre, shape = artist_top_genre)) +\r\n",
" geom_point(size = 2, alpha = 0.8) +\r\n",
" paletteer::scale_color_paletteer_d(\"futurevisions::mars\")\r\n",
"\r\n",
"# Add a touch of interactivity\r\n",
"ggplotly(scatter_plot)\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"एक ही अक्षों का स्कैटरप्लॉट समान अभिसरण पैटर्न दिखाता है।\n",
"\n",
"सामान्यतः, क्लस्टरिंग के लिए, आप स्कैटरप्लॉट्स का उपयोग डेटा के क्लस्टर्स दिखाने के लिए कर सकते हैं, इसलिए इस प्रकार की विज़ुअलाइज़ेशन में महारत हासिल करना बहुत उपयोगी है। अगले पाठ में, हम इस फ़िल्टर किए गए डेटा का उपयोग करेंगे और k-means क्लस्टरिंग का उपयोग करके इस डेटा में समूहों की खोज करेंगे जो दिलचस्प तरीकों से ओवरलैप होते हैं।\n",
"\n",
"## **🚀 चुनौती**\n",
"\n",
"अगले पाठ की तैयारी के लिए, विभिन्न क्लस्टरिंग एल्गोरिदम के बारे में एक चार्ट बनाएं जिन्हें आप प्रोडक्शन वातावरण में खोज सकते हैं और उपयोग कर सकते हैं। क्लस्टरिंग किस प्रकार की समस्याओं को हल करने की कोशिश कर रही है?\n",
"\n",
"## [**पाठ के बाद क्विज़**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/28/)\n",
"\n",
"## **समीक्षा और स्व-अध्ययन**\n",
"\n",
"जैसा कि हमने सीखा है, क्लस्टरिंग एल्गोरिदम लागू करने से पहले, अपने डेटा सेट की प्रकृति को समझना एक अच्छा विचार है। इस विषय पर अधिक पढ़ें [यहां](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)\n",
"\n",
"क्लस्टरिंग तकनीकों की अपनी समझ को गहरा करें:\n",
"\n",
"- [Tidymodels और दोस्तों का उपयोग करके क्लस्टरिंग मॉडल को ट्रेन और मूल्यांकन करें](https://rpubs.com/eR_ic/clustering)\n",
"\n",
"- ब्रैडली बोएमके और ब्रैंडन ग्रीनवेल, [*Hands-On Machine Learning with R*](https://bradleyboehmke.github.io/HOML/)*.*\n",
"\n",
"## **असाइनमेंट**\n",
"\n",
"[क्लस्टरिंग के लिए अन्य विज़ुअलाइज़ेशन पर शोध करें](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/assignment.md)\n",
"\n",
"## धन्यवाद:\n",
"\n",
"[जेन लूपर](https://www.twitter.com/jenlooper) इस मॉड्यूल के मूल Python संस्करण को बनाने के लिए ♥️\n",
"\n",
"[`दसानी मडिपल्ली`](https://twitter.com/dasani_decoded) अद्भुत चित्रण बनाने के लिए जो मशीन लर्निंग अवधारणाओं को अधिक व्याख्यात्मक और समझने में आसान बनाते हैं।\n",
"\n",
"खुशहाल सीखना,\n",
"\n",
"[एरिक](https://twitter.com/ericntay), गोल्ड Microsoft Learn स्टूडेंट एंबेसडर।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**अस्वीकरण**: \nयह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।\n"
]
}
],
"metadata": {
"anaconda-cloud": "",
"kernelspec": {
"display_name": "R",
"language": "R",
"name": "ir"
},
"language_info": {
"codemirror_mode": "r",
"file_extension": ".r",
"mimetype": "text/x-r-source",
"name": "R",
"pygments_lexer": "r",
"version": "3.4.1"
},
"coopTranslator": {
"original_hash": "99c36449cad3708a435f6798cfa39972",
"translation_date": "2025-09-04T02:08:58+00:00",
"source_file": "5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb",
"language_code": "hi"
}
},
"nbformat": 4,
"nbformat_minor": 1
}