{ "cells": [ { "cell_type": "markdown", "source": [ "## **स्पोटिफाईबाट संकलित नाइजेरियन संगीत - एक विश्लेषण**\n", "\n", "क्लस्टरिङ [अनसुपरभाइज्ड लर्निङ](https://wikipedia.org/wiki/Unsupervised_learning) को प्रकार हो जसले मान्छे कि डाटासेट लेबल गरिएको छैन वा यसको इनपुटहरू पूर्वनिर्धारित आउटपुटहरूसँग मिलाइएको छैन भन्ने मान्यता राख्छ। यसले विभिन्न एल्गोरिदमहरू प्रयोग गरेर लेबल नगरिएको डाटालाई वर्गीकृत गर्दछ र डाटामा देखिने ढाँचाहरूको आधारमा समूहहरू प्रदान गर्दछ।\n", "\n", "[**पूर्व-व्याख्यान क्विज**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **परिचय**\n", "\n", "[क्लस्टरिङ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डाटा अन्वेषणका लागि धेरै उपयोगी छ। नाइजेरियन दर्शकहरूले संगीत कसरी उपभोग गर्छन् भन्ने प्रवृत्ति र ढाँचाहरू पत्ता लगाउन यसले मद्दत गर्न सक्छ कि भनेर हेरौं।\n", "\n", "> ✅ क्लस्टरिङको प्रयोगबारे सोच्न एक मिनेट समय लिनुहोस्। वास्तविक जीवनमा, क्लस्टरिङ तब हुन्छ जब तपाईंले कपडाको थुप्रो छान्नु पर्छ र परिवारका सदस्यहरूको कपडा छुट्याउनु पर्छ 🧦👕👖🩲। डाटा विज्ञानमा, क्लस्टरिङ तब हुन्छ जब प्रयोगकर्ताको प्राथमिकता विश्लेषण गर्न वा कुनै लेबल नगरिएको डाटासेटको विशेषताहरू निर्धारण गर्न प्रयास गरिन्छ। क्लस्टरिङ, एक प्रकारले, अराजकतालाई बुझ्न मद्दत गर्दछ, जस्तै मोजाको दराज।\n", "\n", "व्यावसायिक सेटिङमा, क्लस्टरिङ बजार विभाजन निर्धारण गर्न प्रयोग गर्न सकिन्छ, जस्तै कुन उमेर समूहले कुन वस्तुहरू किन्छ। अर्को प्रयोग अनियमितता पत्ता लगाउन हो, सम्भवतः क्रेडिट कार्ड लेनदेनको डाटासेटबाट ठगी पत्ता लगाउन। वा तपाईंले मेडिकल स्क्यानहरूको समूहमा ट्युमरहरू निर्धारण गर्न क्लस्टरिङ प्रयोग गर्न सक्नुहुन्छ।\n", "\n", "✅ बैंकिङ, ई-कमर्स, वा व्यवसाय सेटिङमा तपाईंले 'जङ्गलमा' क्लस्टरिङलाई कसरी भेट्नुभएको छ भनेर सोच्न एक मिनेट समय लिनुहोस्।\n", "\n", "> 🎓 रोचक कुरा, क्लस्टर विश्लेषण १९३० को दशकमा मानवशास्त्र र मनोविज्ञानका क्षेत्रहरूमा उत्पत्ति भएको थियो। तपाईं कल्पना गर्न सक्नुहुन्छ कि यसलाई कसरी प्रयोग गरिएको हुन सक्छ?\n", "\n", "वैकल्पिक रूपमा, तपाईं यसलाई खोज परिणामहरू समूह गर्न प्रयोग गर्न सक्नुहुन्छ - किनमेल लिङ्कहरू, छविहरू, वा समीक्षाहरू द्वारा, उदाहरणका लागि। क्लस्टरिङ उपयोगी हुन्छ जब तपाईंसँग ठूलो डाटासेट हुन्छ जसलाई तपाईं घटाउन चाहनुहुन्छ र जसमा तपाईं थप सूक्ष्म विश्लेषण गर्न चाहनुहुन्छ, त्यसैले यो प्रविधि अन्य मोडेलहरू निर्माण गर्नु अघि डाटाबारे जान्न प्रयोग गर्न सकिन्छ।\n", "\n", "✅ एकपटक तपाईंको डाटा क्लस्टरहरूमा व्यवस्थित भएपछि, तपाईं यसलाई क्लस्टर आइडी असाइन गर्नुहुन्छ, र यो प्रविधि डाटासेटको गोपनीयता सुरक्षित गर्दा उपयोगी हुन सक्छ; तपाईं क्लस्टर आइडीद्वारा डाटा पोइन्टलाई सन्दर्भ गर्न सक्नुहुन्छ, क्लस्टरका अन्य खुलासा गर्ने पहिचानयोग्य डाटाको सट्टा। तपाईं अन्य कारणहरू सोच्न सक्नुहुन्छ किन तपाईं क्लस्टर आइडीलाई क्लस्टरका अन्य तत्वहरूको सट्टा पहिचान गर्न सन्दर्भ गर्नुहुन्छ?\n", "\n", "### क्लस्टरिङ सुरु गर्दै\n", "\n", "> 🎓 हामी कसरी क्लस्टरहरू बनाउँछौं भन्ने कुरा डाटा पोइन्टहरूलाई समूहमा कसरी जम्मा गरिन्छ भन्ने कुरासँग धेरै सम्बन्धित छ। केही शब्दावली बुझौं:\n", ">\n", "> 🎓 ['ट्रान्सडक्टिभ' बनाम 'इन्डक्टिभ'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> ट्रान्सडक्टिभ इनफरेन्स अवलोकन गरिएको प्रशिक्षण केसहरूबाट प्राप्त हुन्छ जुन विशिष्ट परीक्षण केसहरूसँग मिल्छ। इन्डक्टिभ इनफरेन्स प्रशिक्षण केसहरूबाट प्राप्त हुन्छ जुन सामान्य नियमहरूमा नक्सा गरिन्छ र त्यसपछि मात्र परीक्षण केसहरूमा लागू गरिन्छ।\n", ">\n", "> उदाहरण: कल्पना गर्नुहोस् कि तपाईंसँग आंशिक रूपमा लेबल गरिएको डाटासेट छ। केही चीजहरू 'रेकर्ड्स', केही 'सीडीहरू', र केही खाली छन्। तपाईंको काम खाली ठाउँहरूको लागि लेबलहरू प्रदान गर्नु हो। यदि तपाईंले इन्डक्टिभ दृष्टिकोण रोज्नुहुन्छ भने, तपाईं 'रेकर्ड्स' र 'सीडीहरू' खोज्न मोडेल प्रशिक्षण गर्नुहुन्छ, र ती लेबलहरूलाई तपाईंको लेबल नगरिएको डाटामा लागू गर्नुहुन्छ। यस दृष्टिकोणले वास्तवमा 'क्यासेट्स' वर्गीकरण गर्न समस्या हुनेछ। ट्रान्सडक्टिभ दृष्टिकोण, अर्कोतर्फ, यस अज्ञात डाटालाई अधिक प्रभावकारी रूपमा ह्यान्डल गर्दछ किनभने यसले समान वस्तुहरूलाई सँगै समूह गर्न काम गर्दछ र त्यसपछि समूहलाई लेबल लागू गर्दछ। यस अवस्थामा, क्लस्टरहरूले 'गोल संगीत चीजहरू' र 'चौकोर संगीत चीजहरू' प्रतिबिम्बित गर्न सक्छ।\n", ">\n", "> 🎓 ['नन-फ्ल्याट' बनाम 'फ्ल्याट' ज्यामिति](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> गणितीय शब्दावलीबाट व्युत्पन्न, नन-फ्ल्याट बनाम फ्ल्याट ज्यामिति क्लस्टरहरूमा पोइन्टहरू बीचको दूरीलाई 'फ्ल्याट' ([युक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) वा 'नन-फ्ल्याट' (नन-युक्लिडियन) ज्यामितीय विधिहरूद्वारा मापन गर्ने सन्दर्भ गर्दछ।\n", ">\n", "> 'फ्ल्याट' यस सन्दर्भमा युक्लिडियन ज्यामिति (जसको केही भाग 'प्लेन' ज्यामिति भनेर पढाइन्छ) लाई जनाउँछ, र नन-फ्ल्याट नन-युक्लिडियन ज्यामितिलाई जनाउँछ। ज्यामिति र मेसिन लर्निङसँग के सम्बन्ध छ? खैर, गणितमा आधारित दुई क्षेत्रहरूका रूपमा, क्लस्टरहरूमा पोइन्टहरू बीचको दूरी मापन गर्ने सामान्य तरिका हुनुपर्छ, र यो डाटाको प्रकृतिको आधारमा 'फ्ल्याट' वा 'नन-फ्ल्याट' तरिकामा गर्न सकिन्छ। [युक्लिडियन दूरीहरू](https://wikipedia.org/wiki/Euclidean_distance) दुई पोइन्टहरू बीचको रेखा खण्डको लम्बाइको रूपमा मापन गरिन्छ। [नन-युक्लिडियन दूरीहरू](https://wikipedia.org/wiki/Non-Euclidean_geometry) वक्रको साथमा मापन गरिन्छ। यदि तपाईंको डाटा, दृश्यात्मक रूपमा, प्लेनमा अवस्थित छैन जस्तो देखिन्छ, तपाईंले यसलाई ह्यान्डल गर्न विशेष एल्गोरिदम प्रयोग गर्न आवश्यक हुन सक्छ।\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"