{ "cells": [ { "cell_type": "markdown", "source": [ "## **Spotify से प्राप्त नाइजीरियाई संगीत - एक विश्लेषण**\n", "\n", "क्लस्टरिंग [अनसुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Unsupervised_learning) का एक प्रकार है, जो मानता है कि डेटा सेट लेबल रहित है या इसके इनपुट्स को पहले से परिभाषित आउटपुट्स के साथ मिलाया नहीं गया है। यह विभिन्न एल्गोरिदम का उपयोग करके लेबल रहित डेटा को वर्गीकृत करता है और डेटा में पहचाने गए पैटर्न के अनुसार समूह प्रदान करता है।\n", "\n", "[**प्री-लेक्चर क्विज**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **परिचय**\n", "\n", "[क्लस्टरिंग](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डेटा एक्सप्लोरेशन के लिए बहुत उपयोगी है। आइए देखें कि क्या यह नाइजीरियाई दर्शकों के संगीत उपभोग के तरीकों में रुझान और पैटर्न खोजने में मदद कर सकता है।\n", "\n", "> ✅ क्लस्टरिंग के उपयोगों के बारे में सोचने के लिए एक मिनट लें। असल जिंदगी में, क्लस्टरिंग तब होती है जब आपके पास कपड़ों का ढेर होता है और आपको अपने परिवार के सदस्यों के कपड़े अलग करने होते हैं 🧦👕👖🩲। डेटा साइंस में, क्लस्टरिंग तब होती है जब उपयोगकर्ता की प्राथमिकताओं का विश्लेषण करने या किसी लेबल रहित डेटा सेट की विशेषताओं को निर्धारित करने की कोशिश की जाती है। क्लस्टरिंग, एक तरह से, अराजकता को समझने में मदद करती है, जैसे मोजे की दराज।\n", "\n", "पेशेवर सेटिंग में, क्लस्टरिंग का उपयोग बाजार विभाजन, यह निर्धारित करने के लिए कि कौन सी आयु वर्ग कौन सी वस्तुएं खरीदती हैं, जैसे चीजों को निर्धारित करने के लिए किया जा सकता है। एक अन्य उपयोग अनियमितता का पता लगाना हो सकता है, जैसे कि क्रेडिट कार्ड लेनदेन के डेटा सेट से धोखाधड़ी का पता लगाना। या आप इसे मेडिकल स्कैन के बैच में ट्यूमर का पता लगाने के लिए उपयोग कर सकते हैं।\n", "\n", "✅ एक मिनट सोचें कि आपने बैंकिंग, ई-कॉमर्स, या व्यवसाय सेटिंग में 'क्लस्टरिंग' को 'वास्तविक जीवन' में कैसे देखा होगा।\n", "\n", "> 🎓 दिलचस्प बात यह है कि क्लस्टर विश्लेषण की शुरुआत 1930 के दशक में मानवशास्त्र और मनोविज्ञान के क्षेत्रों में हुई थी। क्या आप कल्पना कर सकते हैं कि इसका उपयोग कैसे किया गया होगा?\n", "\n", "इसके अलावा, आप इसे खोज परिणामों को समूहित करने के लिए उपयोग कर सकते हैं - जैसे शॉपिंग लिंक, छवियां, या समीक्षाएं। क्लस्टरिंग तब उपयोगी होती है जब आपके पास एक बड़ा डेटा सेट होता है जिसे आप कम करना चाहते हैं और जिस पर आप अधिक गहन विश्लेषण करना चाहते हैं, इसलिए इस तकनीक का उपयोग अन्य मॉडलों के निर्माण से पहले डेटा के बारे में जानने के लिए किया जा सकता है।\n", "\n", "✅ एक बार जब आपका डेटा क्लस्टर्स में व्यवस्थित हो जाता है, तो आप इसे एक क्लस्टर आईडी असाइन करते हैं, और यह तकनीक डेटा सेट की गोपनीयता बनाए रखने में उपयोगी हो सकती है; आप क्लस्टर के अधिक खुलासा करने वाले पहचान योग्य डेटा के बजाय क्लस्टर आईडी द्वारा डेटा पॉइंट का उल्लेख कर सकते हैं। क्या आप अन्य कारणों के बारे में सोच सकते हैं कि आप इसे पहचानने के लिए क्लस्टर आईडी का उपयोग क्यों करेंगे?\n", "\n", "### क्लस्टरिंग के साथ शुरुआत\n", "\n", "> 🎓 हम क्लस्टर्स कैसे बनाते हैं, इसका बहुत कुछ इस बात से लेना-देना है कि हम डेटा पॉइंट्स को समूहों में कैसे इकट्ठा करते हैं। आइए कुछ शब्दावली को समझें:\n", ">\n", "> 🎓 ['ट्रांसडक्टिव' बनाम 'इंडक्टिव'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> ट्रांसडक्टिव इनफेरेंस उन देखे गए प्रशिक्षण मामलों से प्राप्त होता है जो विशिष्ट परीक्षण मामलों से मेल खाते हैं। इंडक्टिव इनफेरेंस उन प्रशिक्षण मामलों से प्राप्त होता है जो सामान्य नियमों से मेल खाते हैं, जिन्हें केवल बाद में परीक्षण मामलों पर लागू किया जाता है।\n", ">\n", "> उदाहरण: कल्पना करें कि आपके पास एक डेटा सेट है जो केवल आंशिक रूप से लेबल किया गया है। कुछ चीजें 'रिकॉर्ड्स' हैं, कुछ 'सीडी' हैं, और कुछ खाली हैं। आपका काम खाली स्थानों के लिए लेबल प्रदान करना है। यदि आप इंडक्टिव दृष्टिकोण चुनते हैं, तो आप 'रिकॉर्ड्स' और 'सीडी' की तलाश में एक मॉडल को प्रशिक्षित करेंगे और उन लेबल्स को अपने लेबल रहित डेटा पर लागू करेंगे। यह दृष्टिकोण उन चीजों को वर्गीकृत करने में कठिनाई करेगा जो वास्तव में 'कैसेट्स' हैं। दूसरी ओर, ट्रांसडक्टिव दृष्टिकोण इस अज्ञात डेटा को अधिक प्रभावी ढंग से संभालता है क्योंकि यह समान वस्तुओं को एक साथ समूहित करने और फिर समूह को एक लेबल लागू करने का काम करता है। इस मामले में, क्लस्टर्स 'गोल संगीत चीजें' और 'चौकोर संगीत चीजें' को दर्शा सकते हैं।\n", ">\n", "> 🎓 ['नॉन-फ्लैट' बनाम 'फ्लैट' ज्योमेट्री](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> गणितीय शब्दावली से लिया गया, नॉन-फ्लैट बनाम फ्लैट ज्योमेट्री पॉइंट्स के बीच की दूरी को 'फ्लैट' ([यूक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) या 'नॉन-फ्लैट' (नॉन-यूक्लिडियन) ज्योमेट्रिकल तरीकों से मापने को संदर्भित करता है।\n", ">\n", "> 'फ्लैट' इस संदर्भ में यूक्लिडियन ज्योमेट्री (जिसके कुछ हिस्से 'प्लेन' ज्योमेट्री के रूप में पढ़ाए जाते हैं) को संदर्भित करता है, और नॉन-फ्लैट नॉन-यूक्लिडियन ज्योमेट्री को संदर्भित करता है। मशीन लर्निंग में ज्योमेट्री का क्या काम? खैर, गणित में जड़ें होने के कारण, पॉइंट्स के बीच की दूरी को मापने का एक सामान्य तरीका होना चाहिए, और इसे 'फ्लैट' या 'नॉन-फ्लैट' तरीके से किया जा सकता है, डेटा की प्रकृति के आधार पर। [यूक्लिडियन डिस्टेंस](https://wikipedia.org/wiki/Euclidean_distance) को दो पॉइंट्स के बीच की लाइन सेगमेंट की लंबाई के रूप में मापा जाता है। [नॉन-यूक्लिडियन डिस्टेंस](https://wikipedia.org/wiki/Non-Euclidean_geometry) को एक वक्र के साथ मापा जाता है। यदि आपका डेटा, विज़ुअलाइज़ किया गया, एक प्लेन पर मौजूद नहीं लगता है, तो आपको इसे संभालने के लिए एक विशेष एल्गोरिदम का उपयोग करने की आवश्यकता हो सकती है।\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"