# क्लस्टरिङको परिचय क्लस्टरिङ [अनसुपरभाइज्ड लर्निङ](https://wikipedia.org/wiki/Unsupervised_learning) को एक प्रकार हो जसले मान्छे कि डाटासेट लेबल गरिएको छैन वा यसको इनपुटहरू पूर्वनिर्धारित आउटपुटहरूसँग मिलाइएको छैन भन्ने मान्यता राख्छ। यसले विभिन्न एल्गोरिदमहरू प्रयोग गरेर लेबल नगरिएको डाटालाई क्रमबद्ध गर्दछ र डाटामा देखिने ढाँचाहरूको आधारमा समूहहरू प्रदान गर्दछ। [![PSquare द्वारा "No One Like You"](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "PSquare द्वारा 'No One Like You'") > 🎥 माथिको तस्बिरमा क्लिक गर्नुहोस् भिडियो हेर्न। क्लस्टरिङको साथमा मेसिन लर्निङ अध्ययन गर्दा, केही नाइजेरियन डान्स हल ट्र्याक्सको मजा लिनुहोस् - यो PSquare द्वारा २०१४ को अत्यधिक मूल्याङ्कन गरिएको गीत हो। ## [प्री-लेक्चर क्विज](https://ff-quizzes.netlify.app/en/ml/) ### परिचय [क्लस्टरिङ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डाटा अन्वेषणको लागि धेरै उपयोगी छ। हेर्नुहोस् कि यसले नाइजेरियन दर्शकहरूले संगीत कसरी उपभोग गर्छन् भन्ने प्रवृत्ति र ढाँचाहरू पत्ता लगाउन मद्दत गर्न सक्छ कि सक्दैन। ✅ क्लस्टरिङको उपयोगबारे सोच्न एक मिनेट लिनुहोस्। वास्तविक जीवनमा, क्लस्टरिङ तब हुन्छ जब तपाईंसँग कपडाको थुप्रो हुन्छ र तपाईंले आफ्नो परिवारका सदस्यहरूको कपडा छुट्याउनुपर्छ 🧦👕👖🩲। डाटा साइन्समा, क्लस्टरिङ तब हुन्छ जब प्रयोगकर्ताको प्राथमिकताहरू विश्लेषण गर्ने प्रयास गरिन्छ, वा कुनै लेबल नगरिएको डाटासेटको विशेषताहरू निर्धारण गरिन्छ। क्लस्टरिङ, एक प्रकारले, अराजकतालाई बुझ्न मद्दत गर्दछ, जस्तै मोजाको दराज। [![ML को परिचय](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "क्लस्टरिङको परिचय") > 🎥 माथिको तस्बिरमा क्लिक गर्नुहोस् भिडियो हेर्न: MIT का John Guttag ले क्लस्टरिङको परिचय दिन्छन्। व्यावसायिक सेटिङमा, क्लस्टरिङ बजार विभाजन जस्ता कुराहरू निर्धारण गर्न प्रयोग गर्न सकिन्छ, उदाहरणका लागि कुन उमेर समूहले कुन वस्तुहरू किन्छ। अर्को उपयोग अनियमितता पत्ता लगाउने हो, सम्भवतः क्रेडिट कार्ड लेनदेनको डाटासेटबाट ठगी पत्ता लगाउन। वा तपाईंले मेडिकल स्क्यानहरूको ब्याचमा ट्युमरहरू निर्धारण गर्न क्लस्टरिङ प्रयोग गर्न सक्नुहुन्छ। ✅ बैंकिङ, ई-कमर्स, वा व्यापार सेटिङमा तपाईंले 'जङ्गलमा' क्लस्टरिङलाई कसरी भेट्नुभएको छ भनेर सोच्न एक मिनेट लिनुहोस्। > 🎓 रोचक कुरा, क्लस्टर विश्लेषणको उत्पत्ति १९३० को दशकमा मानवशास्त्र र मनोविज्ञानको क्षेत्रमा भएको थियो। तपाईं कल्पना गर्न सक्नुहुन्छ कि यसलाई कसरी प्रयोग गरिएको हुन सक्छ? वैकल्पिक रूपमा, तपाईंले यसलाई खोज परिणामहरू समूह गर्न प्रयोग गर्न सक्नुहुन्छ - किनमेल लिङ्कहरू, तस्बिरहरू, वा समीक्षाहरू द्वारा, उदाहरणका लागि। क्लस्टरिङ उपयोगी हुन्छ जब तपाईंसँग ठूलो डाटासेट हुन्छ जसलाई तपाईं घटाउन चाहनुहुन्छ र जसमा तपाईं थप सूक्ष्म विश्लेषण गर्न चाहनुहुन्छ, त्यसैले यो प्रविधि अन्य मोडेलहरू निर्माण गर्नु अघि डाटाबारे जान्न प्रयोग गर्न सकिन्छ। ✅ एकपटक तपाईंको डाटा क्लस्टरहरूमा व्यवस्थित भएपछि, तपाईंले यसलाई क्लस्टर आईडी असाइन गर्नुहुन्छ, र यो प्रविधि डाटासेटको गोपनीयता सुरक्षित गर्दा उपयोगी हुन सक्छ; तपाईंले क्लस्टरको अन्य खुलासा गर्ने पहिचानयोग्य डाटाको सट्टा क्लस्टर आईडीद्वारा डाटाको बिन्दुलाई उल्लेख गर्न सक्नुहुन्छ। तपाईंले क्लस्टर आईडीलाई अन्य तत्वहरूको सट्टा पहिचान गर्न प्रयोग गर्ने अन्य कारणहरू सोच्न सक्नुहुन्छ? क्लस्टरिङ प्रविधिहरूको आफ्नो समझलाई यस [लर्न मोड्युल](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) मा गहिरो बनाउनुहोस्। ## क्लस्टरिङको सुरुवात [Scikit-learn ले ठूलो संख्यामा विधिहरू](https://scikit-learn.org/stable/modules/clustering.html) क्लस्टरिङ गर्न प्रदान गर्दछ। तपाईंले कुन प्रकारको चयन गर्नुहुन्छ भन्ने कुरा तपाईंको उपयोग केसमा निर्भर गर्दछ। डकुमेन्टेशन अनुसार, प्रत्येक विधिले विभिन्न फाइदाहरू प्रदान गर्दछ। यहाँ Scikit-learn द्वारा समर्थित विधिहरू र तिनीहरूको उपयुक्त उपयोग केसहरूको सरल तालिका छ: | विधिको नाम | उपयोग केस | | :--------------------------- | :--------------------------------------------------------------------- | | K-Means | सामान्य उद्देश्य, प्रेरक | | Affinity propagation | धेरै, असमान क्लस्टरहरू, प्रेरक | | Mean-shift | धेरै, असमान क्लस्टरहरू, प्रेरक | | Spectral clustering | थोरै, समान क्लस्टरहरू, ट्रान्सडक्टिभ | | Ward hierarchical clustering | धेरै, बाध्य क्लस्टरहरू, ट्रान्सडक्टिभ | | Agglomerative clustering | धेरै, बाध्य, गैर-युक्लिडियन दूरीहरू, ट्रान्सडक्टिभ | | DBSCAN | गैर-समतल ज्यामिति, असमान क्लस्टरहरू, ट्रान्सडक्टिभ | | OPTICS | गैर-समतल ज्यामिति, असमान क्लस्टरहरू भिन्न घनत्वका साथ, ट्रान्सडक्टिभ | | Gaussian mixtures | समतल ज्यामिति, प्रेरक | | BIRCH | ठूलो डाटासेट आउटलायरहरूसँग, प्रेरक | > 🎓 हामी कसरी क्लस्टरहरू बनाउँछौं भन्ने कुरा डाटाका बिन्दुहरूलाई समूहमा कसरी जम्मा गरिन्छ भन्ने कुरासँग धेरै सम्बन्धित छ। केही शब्दावलीलाई बुझौं: > > 🎓 ['ट्रान्सडक्टिभ' बनाम 'प्रेरक'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > > ट्रान्सडक्टिभ इनफरेन्स अवलोकन गरिएको प्रशिक्षण केसहरूबाट प्राप्त हुन्छ जुन विशिष्ट परीक्षण केसहरूसँग मिल्छ। प्रेरक इनफरेन्स प्रशिक्षण केसहरूबाट प्राप्त हुन्छ जुन सामान्य नियमहरूमा नक्सा गरिन्छ र त्यसपछि मात्र परीक्षण केसहरूमा लागू गरिन्छ। > > उदाहरण: कल्पना गर्नुहोस् कि तपाईंको डाटासेट आंशिक रूपमा मात्र लेबल गरिएको छ। केही चीजहरू 'रेकर्ड्स', केही 'सीडीहरू', र केही खाली छन्। तपाईंको काम खाली ठाउँहरूको लागि लेबलहरू प्रदान गर्नु हो। यदि तपाईं प्रेरक दृष्टिकोण चयन गर्नुहुन्छ भने, तपाईंले 'रेकर्ड्स' र 'सीडीहरू' खोज्न मोडेल प्रशिक्षण गर्नुहुन्छ, र ती लेबलहरूलाई तपाईंको लेबल नगरिएको डाटामा लागू गर्नुहुन्छ। यस दृष्टिकोणले वास्तवमा 'क्यासेट्स' वर्गीकरण गर्न कठिनाइ हुनेछ। ट्रान्सडक्टिभ दृष्टिकोण, अर्कोतर्फ, यस अज्ञात डाटालाई अधिक प्रभावकारी रूपमा ह्यान्डल गर्दछ किनभने यसले समान वस्तुहरूलाई समूहमा राख्न काम गर्दछ र त्यसपछि समूहलाई लेबल लागू गर्दछ। यस अवस्थामा, क्लस्टरहरूले 'गोल संगीत चीजहरू' र 'चौकोर संगीत चीजहरू' प्रतिबिम्बित गर्न सक्छ। > > 🎓 ['गैर-समतल' बनाम 'समतल' ज्यामिति](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > > गणितीय शब्दावलीबाट व्युत्पन्न, गैर-समतल बनाम समतल ज्यामिति बिन्दुहरू बीचको दूरीलाई 'समतल' ([युक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) वा 'गैर-समतल' (गैर-युक्लिडियन) ज्यामितीय विधिहरू द्वारा मापन गर्ने कुरा हो। > >'समतल' यस सन्दर्भमा युक्लिडियन ज्यामिति (जसको केही भाग 'प्लेन' ज्यामिति भनेर पढाइन्छ) लाई जनाउँछ, र गैर-समतल गैर-युक्लिडियन ज्यामितिलाई जनाउँछ। मेसिन लर्निङसँग ज्यामिति के सम्बन्ध छ? खैर, गणितमा आधारित दुई क्षेत्रहरूका रूपमा, क्लस्टरहरूमा बिन्दुहरू बीचको दूरी मापन गर्न सामान्य तरिका हुनुपर्छ, र डाटाको प्रकृतिमा निर्भर गर्दै यो 'समतल' वा 'गैर-समतल' तरिकामा गर्न सकिन्छ। [युक्लिडियन दूरीहरू](https://wikipedia.org/wiki/Euclidean_distance) दुई बिन्दुहरू बीचको रेखा खण्डको लम्बाइको रूपमा मापन गरिन्छ। [गैर-युक्लिडियन दूरीहरू](https://wikipedia.org/wiki/Non-Euclidean_geometry) वक्रको साथमा मापन गरिन्छ। यदि तपाईंको डाटा, दृश्यात्मक रूपमा, प्लेनमा अवस्थित छैन जस्तो देखिन्छ, तपाईंले यसलाई ह्यान्डल गर्न विशेष एल्गोरिदम प्रयोग गर्न आवश्यक हुन सक्छ। > ![समतल बनाम गैर-समतल ज्यामिति इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) > इन्फोग्राफिक [Dasani Madipalli](https://twitter.com/dasani_decoded) द्वारा > > 🎓 ['दूरीहरू'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > > क्लस्टरहरू तिनीहरूको दूरी म्याट्रिक्सद्वारा परिभाषित गरिन्छ, जस्तै बिन्दुहरू बीचको दूरी। यो दूरी केही तरिकामा मापन गर्न सकिन्छ। युक्लिडियन क्लस्टरहरू बिन्दु मानहरूको औसतद्वारा परिभाषित गरिन्छ, र 'सेंट्रोइड' वा केन्द्र बिन्दु समावेश गर्दछ। दूरीहरू त्यसैले त्यो सेंट्रोइडको दूरीद्वारा मापन गरिन्छ। गैर-युक्लिडियन दूरीहरू 'क्लस्ट्रोइड्स' लाई जनाउँछ, अन्य बिन्दुहरू नजिकको बिन्दु। क्लस्ट्रोइड्स विभिन्न तरिकामा परिभाषित गर्न सकिन्छ। > > 🎓 ['बाध्य'](https://wikipedia.org/wiki/Constrained_clustering) > > [बाध्य क्लस्टरिङ](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) यस अनसुपरभाइज्ड विधिमा 'सेमी-सुपरभाइज्ड' लर्निङलाई परिचय गराउँछ। बिन्दुहरू बीचको सम्बन्धहरू 'लिंक गर्न सकिँदैन' वा 'लिंक गर्नुपर्छ' भनेर झण्डा लगाइन्छ ताकि केही नियमहरू डाटासेटमा लागू गरिन्छ। > >उदाहरण: यदि एल्गोरिदमलाई लेबल नगरिएको वा सेमी-लेबल गरिएको डाटाको ब्याचमा स्वतन्त्र रूपमा सेट गरिन्छ भने, यसले उत्पादन गर्ने क्लस्टरहरू खराब गुणस्तरका हुन सक्छ। माथिको उदाहरणमा, क्लस्टरहरूले 'गोल संगीत चीजहरू' र 'चौकोर संगीत चीजहरू' र 'त्रिकोणीय चीजहरू' र 'कुकीहरू' समूह गर्न सक्छ। यदि केही बाधाहरू, वा नियमहरू लागू गरिन्छ ("वस्तु प्लास्टिकबाट बनेको हुनुपर्छ", "वस्तुले संगीत उत्पादन गर्न सक्षम हुनुपर्छ") यसले एल्गोरिदमलाई राम्रो विकल्पहरू बनाउन मद्दत गर्न सक्छ। > > 🎓 'घनत्व' > > 'शोरयुक्त' डाटालाई 'घनत्वयुक्त' मानिन्छ। प्रत्येक क्लस्टरमा बिन्दुहरू बीचको दूरी, जाँच गर्दा, अधिक वा कम घनत्वयुक्त, वा 'भीडभाड' हुन सक्छ, र यस प्रकारको डाटालाई उपयुक्त क्लस्टरिङ विधि प्रयोग गरेर विश्लेषण गर्न आवश्यक छ। [यो लेख](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) ले असमान क्लस्टर घनत्व भएको शोरयुक्त डाटासेट अन्वेषण गर्न K-Means क्लस्टरिङ बनाम HDBSCAN एल्गोरिदम प्रयोग गर्ने भिन्नता प्रदर्शन गर्दछ। ## क्लस्टरिङ एल्गोरिदमहरू क्लस्टरिङका १०० भन्दा बढी एल्गोरिदमहरू छन्, र तिनीहरूको उपयोग डाटाको प्रकृतिमा निर्भर गर्दछ। मुख्य एल्गोरिदमहरूबारे छलफल गरौं: - **हायरार्किकल क्लस्टरिङ**। यदि कुनै वस्तु नजिकको वस्तुसँग यसको निकटताद्वारा वर्गीकृत गरिन्छ, टाढाको वस्तुसँग होइन, क्लस्टरहरू तिनीहरूको सदस्यहरूको अन्य वस्तुहरूसँगको दूरीद्वारा बनाइन्छ। Scikit-learn को agglomerative क्लस्टरिङ हायरार्किकल हो। ![हायरार्किकल क्लस्टरिङ इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/hierarchical.png) > इन्फोग्राफिक [Dasani Madipalli](https://twitter.com/dasani_decoded) द्वारा - **सेंट्रोइड क्लस्टरिङ**। यो लोकप्रिय एल्गोरिदमले 'k', वा बनाउने क्लस्टरहरूको संख्या चयन गर्न आवश्यक छ, त्यसपछि एल्गोरिदमले क्लस्टरको केन्द्र बिन्दु निर्धारण गर्दछ र त्यस बिन्दुको वरिपरि डाटा जम्मा गर्दछ। [K-means क्लस्टरिङ](https://wikipedia.org/wiki/K-means_clustering) सेंट्रोइड क्लस्टरिङको लोकप्रिय संस्करण हो। केन्द्र नजिकको औसतद्वारा निर्धारण गरिन्छ, त्यसैले नाम। ![सेंट्रोइड क्लस्टरिङ इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/centroid.png) > इन्फोग्राफिक [Dasani Madipalli](https://twitter.com/dasani_decoded) द्वारा - **डिस्ट्रिब्युसन-आधारित क्लस्टरिङ**। सांख्यिकीय मोडलिङमा आधारित, डिस्ट्रिब्युसन-आधारित क्लस्टरिङले डाटा बिन्दु क्लस्टरमा पर्ने सम्भावना निर्धारण गर्न केन्द्रित गर्दछ, र त्यस अनुसार असाइन गर्दछ। Gaussian मिश्रण विधिहरू यस प्रकारमा पर्छन्। - **डेंसिटी-आधारित क्लस्टरिङ**। डाटा बिन्दुहरू तिनीहरूको घनत्व, वा एकअर्काको वरिपरि समूहद्वारा क्लस्टरहरूमा असाइन गरिन्छ। समूहबाट टाढा रहेका डाटा बिन्दुहरू आउटलायरहरू वा शोर मानिन्छ। DBSCAN, Mean-shift र OPTICS यस प्रकारको क्लस्टरिङमा पर्छन्। - **ग्रिड-आधारित क्लस्टरिङ**। बहु-आयामिक डाटासेटहरूको लागि, ग्रिड बनाइन्छ र डाटालाई ग्रिडको कोषहरूमा विभाजन गरिन्छ, यसरी क्लस्टरहरू बनाइन्छ। ## अभ्यास - आफ्नो डाटालाई क्लस्टर गर्नुहोस् क्लस्टरिङ प्रविधि उचित दृश्यात्मकताबाट धेरै सहयोग प्राप्त गर्दछ, त्यसैले हाम्रो संगीत डाटालाई दृश्यात्मक बनाउन सुरु गरौं। यो अभ्यासले हामीलाई यो डाटाको प्रकृतिका लागि क्लस्टरिङको विधिहरू प्रभावकारी रूपमा प्रयोग गर्न निर्णय गर्न मद्दत गर्नेछ। 1. यस फोल्डरमा [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) फाइल खोल्नुहोस्। 1. राम्रो डाटा दृश्यात्मकताको लागि `Seaborn` प्याकेज आयात गर्नुहोस्। ```python !pip install seaborn ``` 1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) बाट गीत डाटा थप्नुहोस्। गीतहरूको बारेमा केही डाटासहित डाटाफ्रेम लोड गर्नुहोस्। पुस्तकालयहरू आयात गरेर र डाटा डम्प गरेर यो डाटालाई अन्वेषण गर्न तयार हुनुहोस्: ```python import matplotlib.pyplot as plt import pandas as pd df = pd.read_csv("../data/nigerian-songs.csv") df.head() ``` डाटाको पहिलो केही लाइनहरू जाँच गर्नुहोस्: | | नाम | एल्बम | कलाकार | कलाकारको शीर्ष विधा | रिलिज मिति | लम्बाइ | लोकप्रियता | नृत्ययोग्यता | ध्वन्यात्मकता | ऊर्जा | वाद्ययन्त्रता | जीवन्तता | आवाजको स्तर | भाषणता | टेम्पो | समय हस्ताक्षर | | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | 1. `info()` प्रयोग गरेर डेटा फ्रेमको जानकारी प्राप्त गर्नुहोस्: ```python df.info() ``` नतिजा यस प्रकार देखिन्छ: ```output RangeIndex: 530 entries, 0 to 529 Data columns (total 16 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 name 530 non-null object 1 album 530 non-null object 2 artist 530 non-null object 3 artist_top_genre 530 non-null object 4 release_date 530 non-null int64 5 length 530 non-null int64 6 popularity 530 non-null int64 7 danceability 530 non-null float64 8 acousticness 530 non-null float64 9 energy 530 non-null float64 10 instrumentalness 530 non-null float64 11 liveness 530 non-null float64 12 loudness 530 non-null float64 13 speechiness 530 non-null float64 14 tempo 530 non-null float64 15 time_signature 530 non-null int64 dtypes: float64(8), int64(4), object(4) memory usage: 66.4+ KB ``` 1. `isnull()` प्रयोग गरेर खाली मानहरू दोहोरो जाँच गर्नुहोस् र सुनिश्चित गर्नुहोस् कि योग 0 छ: ```python df.isnull().sum() ``` राम्रो देखिन्छ: ```output name 0 album 0 artist 0 artist_top_genre 0 release_date 0 length 0 popularity 0 danceability 0 acousticness 0 energy 0 instrumentalness 0 liveness 0 loudness 0 speechiness 0 tempo 0 time_signature 0 dtype: int64 ``` 1. डेटा वर्णन गर्नुहोस्: ```python df.describe() ``` | | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | | ----- | ------------ | ----------- | ---------- | ------------ | ------------ | -------- | ---------------- | -------- | --------- | ----------- | ---------- | -------------- | | count | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | | mean | 2015.390566 | 222298.1698 | 17.507547 | 0.741619 | 0.265412 | 0.760623 | 0.016305 | 0.147308 | -4.953011 | 0.130748 | 116.487864 | 3.986792 | | std | 3.131688 | 39696.82226 | 18.992212 | 0.117522 | 0.208342 | 0.148533 | 0.090321 | 0.123588 | 2.464186 | 0.092939 | 23.518601 | 0.333701 | | min | 1998 | 89488 | 0 | 0.255 | 0.000665 | 0.111 | 0 | 0.0283 | -19.362 | 0.0278 | 61.695 | 3 | | 25% | 2014 | 199305 | 0 | 0.681 | 0.089525 | 0.669 | 0 | 0.07565 | -6.29875 | 0.0591 | 102.96125 | 4 | | 50% | 2016 | 218509 | 13 | 0.761 | 0.2205 | 0.7845 | 0.000004 | 0.1035 | -4.5585 | 0.09795 | 112.7145 | 4 | | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | > 🤔 यदि हामी क्लस्टरिङमा काम गरिरहेका छौं, जुन एक अनसुपरभाइज्ड विधि हो जसलाई लेबल गरिएको डेटा आवश्यक पर्दैन, किन हामी यो डेटा लेबलसहित देखाउँदैछौं? डेटा अन्वेषण चरणमा, तिनीहरू उपयोगी हुन्छन्, तर क्लस्टरिङ एल्गोरिदमहरू काम गर्न आवश्यक छैन। तपाईंले स्तम्भ शीर्षकहरू हटाएर डेटा स्तम्भ नम्बरद्वारा उल्लेख गर्न सक्नुहुन्छ। डेटाको सामान्य मानहरू हेर्नुहोस्। ध्यान दिनुहोस् कि लोकप्रियता '0' हुन सक्छ, जसले कुनै रैंकिंग नभएका गीतहरू देखाउँछ। चाँडै ती हटाउँ। 1. बारप्लट प्रयोग गरेर सबैभन्दा लोकप्रिय विधाहरू पत्ता लगाउनुहोस्: ```python import seaborn as sns top = df['artist_top_genre'].value_counts() plt.figure(figsize=(10,7)) sns.barplot(x=top[:5].index,y=top[:5].values) plt.xticks(rotation=45) plt.title('Top genres',color = 'blue') ``` ![सबैभन्दा लोकप्रिय](../../../../5-Clustering/1-Visualize/images/popular.png) ✅ यदि तपाईं थप शीर्ष मानहरू हेर्न चाहनुहुन्छ भने, शीर्ष `[:5]` लाई ठूलो मानमा परिवर्तन गर्नुहोस्, वा सबै हेर्न हटाउनुहोस्। ध्यान दिनुहोस्, जब शीर्ष विधा 'Missing' भनेर वर्णन गरिएको छ, यसको मतलब Spotify ले यसलाई वर्गीकृत गरेको छैन, त्यसैले यसलाई हटाऔं। 1. हराएको डेटा हटाउनुहोस्: ```python df = df[df['artist_top_genre'] != 'Missing'] top = df['artist_top_genre'].value_counts() plt.figure(figsize=(10,7)) sns.barplot(x=top.index,y=top.values) plt.xticks(rotation=45) plt.title('Top genres',color = 'blue') ``` अब विधाहरू पुनः जाँच गर्नुहोस्: ![सबै विधाहरू](../../../../5-Clustering/1-Visualize/images/all-genres.png) 1. तीन शीर्ष विधाहरूले यो डेटासेटलाई धेरै हदसम्म हावी गर्छन्। `afro dancehall`, `afropop`, र `nigerian pop` मा ध्यान केन्द्रित गरौं, साथै डेटासेटलाई 0 लोकप्रियता मान भएको कुनै पनि कुरा हटाउन फिल्टर गरौं (जसको मतलब यो डेटासेटमा लोकप्रियता वर्गीकृत गरिएको छैन र हाम्रो उद्देश्यका लागि शोर मान्न सकिन्छ): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] df = df[(df['popularity'] > 0)] top = df['artist_top_genre'].value_counts() plt.figure(figsize=(10,7)) sns.barplot(x=top.index,y=top.values) plt.xticks(rotation=45) plt.title('Top genres',color = 'blue') ``` 1. डेटा कुनै विशेष रूपमा बलियो तरिकामा सम्बन्धित छ कि छैन भनेर छिटो परीक्षण गर्नुहोस्: ```python corrmat = df.corr(numeric_only=True) f, ax = plt.subplots(figsize=(12, 9)) sns.heatmap(corrmat, vmax=.8, square=True) ``` ![सम्बन्धहरू](../../../../5-Clustering/1-Visualize/images/correlation.png) `energy` र `loudness` बीचको मात्र बलियो सम्बन्ध छ, जुन धेरै आश्चर्यजनक छैन, किनकि ठूलो संगीत सामान्यतया धेरै ऊर्जावान हुन्छ। अन्यथा, सम्बन्धहरू तुलनात्मक रूपमा कमजोर छन्। यो डेटा क्लस्टरिङ एल्गोरिदमले के बनाउन सक्छ हेर्न रोचक हुनेछ। > 🎓 ध्यान दिनुहोस् कि सम्बन्धले कारणता संकेत गर्दैन! हामीसँग सम्बन्धको प्रमाण छ तर कारणताको प्रमाण छैन। [एक रमाइलो वेबसाइट](https://tylervigen.com/spurious-correlations) ले यस बिन्दुलाई जोड दिने केही दृश्यहरू प्रदान गर्दछ। के यो डेटासेटमा गीतको लोकप्रियता र नृत्ययोग्यताको धारणा वरिपरि कुनै अभिसरण छ? एक FacetGrid देखाउँछ कि त्यहाँ केन्द्रित वृत्तहरू छन् जुन विधा बिना पनि लाइन अप हुन्छ। के यो हुन सक्छ कि नाइजेरियन स्वादले यस विधाको लागि नृत्ययोग्यताको निश्चित स्तरमा अभिसरण गर्छ? ✅ विभिन्न डेटा बिन्दुहरू (energy, loudness, speechiness) र थप वा फरक संगीत विधाहरू प्रयास गर्नुहोस्। तपाईं के पत्ता लगाउन सक्नुहुन्छ? डेटा बिन्दुहरूको सामान्य फैलावट हेर्न `df.describe()` तालिका हेर्नुहोस्। ### अभ्यास - डेटा वितरण के यी तीन विधाहरू नृत्ययोग्यताको धारणा मा लोकप्रियताको आधारमा महत्त्वपूर्ण रूपमा फरक छन्? 1. लोकप्रियता र नृत्ययोग्यताको लागि हाम्रो शीर्ष तीन विधाहरूको डेटा वितरण जाँच गर्नुहोस्: ```python sns.set_theme(style="ticks") g = sns.jointplot( data=df, x="popularity", y="danceability", hue="artist_top_genre", kind="kde", ) ``` तपाईंले केन्द्रित वृत्तहरू पत्ता लगाउन सक्नुहुन्छ जुन सामान्य अभिसरण बिन्दु वरिपरि वितरण देखाउँछ। > 🎓 ध्यान दिनुहोस् कि यो उदाहरणले डेटा निरन्तर सम्भाव्यता घनत्व वक्र प्रयोग गरेर प्रतिनिधित्व गर्ने KDE (Kernel Density Estimate) ग्राफ प्रयोग गर्दछ। यो हामीलाई धेरै वितरणहरूसँग काम गर्दा डेटा व्याख्या गर्न अनुमति दिन्छ। सामान्यतया, तीन विधाहरू लोकप्रियता र नृत्ययोग्यताको सन्दर्भमा ढिलोसँग मिल्छन्। यो ढिलो-संरेखित डेटामा क्लस्टर निर्धारण चुनौतीपूर्ण हुनेछ: ![वितरण](../../../../5-Clustering/1-Visualize/images/distribution.png) 1. स्क्याटर प्लट बनाउनुहोस्: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ .map(plt.scatter, "popularity", "danceability") \ .add_legend() ``` उही अक्षहरूको स्क्याटरप्लटले अभिसरणको समान ढाँचा देखाउँछ। ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) सामान्यतया, क्लस्टरिङको लागि, तपाईं डेटा क्लस्टरहरू देखाउन स्क्याटरप्लटहरू प्रयोग गर्न सक्नुहुन्छ, त्यसैले यो प्रकारको दृश्यलाई मास्टर गर्नु धेरै उपयोगी छ। अर्को पाठमा, हामी यस फिल्टर गरिएको डेटा लिनेछौं र k-means क्लस्टरिङ प्रयोग गरेर यस डेटामा रोचक तरिकामा ओभरल्याप गर्ने समूहहरू पत्ता लगाउनेछौं। --- ## 🚀 चुनौती अर्को पाठको तयारीमा, उत्पादन वातावरणमा तपाईंले पत्ता लगाउन सक्ने विभिन्न क्लस्टरिङ एल्गोरिदमहरूको बारेमा चार्ट बनाउनुहोस्। क्लस्टरिङले कस्ता समस्याहरू समाधान गर्न खोजिरहेको छ? ## [पाठ-पछिको क्विज](https://ff-quizzes.netlify.app/en/ml/) ## समीक्षा र आत्म अध्ययन क्लस्टरिङ एल्गोरिदमहरू लागू गर्नु अघि, जस्तै हामीले सिकेका छौं, तपाईंको डेटासेटको प्रकृति बुझ्नु राम्रो विचार हो। यस विषयमा थप पढ्नुहोस् [यहाँ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) [यो उपयोगी लेख](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) ले विभिन्न डेटा आकारहरू दिइएको विभिन्न क्लस्टरिङ एल्गोरिदमहरू कसरी व्यवहार गर्छन् भनेर तपाईंलाई मार्गदर्शन गर्दछ। ## असाइनमेन्ट [क्लस्टरिङको लागि अन्य दृश्यहरूको अनुसन्धान गर्नुहोस्](assignment.md) --- **अस्वीकरण**: यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको हो। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।