{ "cells": [ { "cell_type": "markdown", "source": [ "## **स्पॉटिफायवरून संकलित नायजेरियन संगीत - एक विश्लेषण**\n", "\n", "क्लस्टरिंग हा [अनसुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Unsupervised_learning) चा एक प्रकार आहे, जो गृहीत धरतो की डेटासेट लेबल नसलेला आहे किंवा त्याच्या इनपुट्सना पूर्वनिर्धारित आउटपुट्सशी जुळवलेले नाही. हा विविध अल्गोरिदम्सचा वापर करून लेबल नसलेल्या डेटामधून गट तयार करतो आणि डेटामधील नमुन्यांनुसार गट तयार करतो.\n", "\n", "[**पूर्व-व्याख्यान क्विझ**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **परिचय**\n", "\n", "[क्लस्टरिंग](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डेटा एक्सप्लोरेशनसाठी खूप उपयुक्त आहे. नायजेरियन प्रेक्षक संगीत कसे ऐकतात यामध्ये ट्रेंड्स आणि नमुने शोधण्यात ते कसे मदत करू शकते ते पाहूया.\n", "\n", "> ✅ क्लस्टरिंगच्या उपयोगांबद्दल विचार करण्यासाठी एक मिनिट घ्या. वास्तविक जीवनात, क्लस्टरिंग तेव्हा घडते जेव्हा तुमच्याकडे कपड्यांचा ढीग असतो आणि तुम्हाला तुमच्या कुटुंबातील सदस्यांचे कपडे वेगळे करायचे असतात 🧦👕👖🩲. डेटा सायन्समध्ये, क्लस्टरिंग वापरकर्त्याच्या पसंतींचे विश्लेषण करताना किंवा कोणत्याही लेबल नसलेल्या डेटासेटच्या वैशिष्ट्यांचा निर्धार करताना घडते. एका प्रकारे, क्लस्टरिंग गोंधळ समजून घेण्यास मदत करते, जसे की सॉक्स ड्रॉवर.\n", "\n", "व्यावसायिक सेटिंगमध्ये, क्लस्टरिंगचा उपयोग बाजार विभागणीसाठी, कोणत्या वयोगटातील लोक कोणती उत्पादने खरेदी करतात हे ठरवण्यासाठी केला जाऊ शकतो. आणखी एक उपयोग म्हणजे अनियमितता शोधणे, कदाचित क्रेडिट कार्ड व्यवहारांच्या डेटासेटमधून फसवणूक शोधण्यासाठी. किंवा तुम्ही वैद्यकीय स्कॅन्सच्या बॅचमधून ट्युमर्स शोधण्यासाठी क्लस्टरिंग वापरू शकता.\n", "\n", "✅ बँकिंग, ई-कॉमर्स किंवा व्यवसायाच्या सेटिंगमध्ये तुम्ही 'क्लस्टरिंग' कसे अनुभवले आहे याचा विचार करा.\n", "\n", "> 🎓 मनोरंजक गोष्ट म्हणजे, क्लस्टर विश्लेषणाची सुरुवात 1930 च्या दशकात मानववंशशास्त्र आणि मानसशास्त्राच्या क्षेत्रांमध्ये झाली. तुम्ही कल्पना करू शकता की ते कसे वापरले गेले असेल?\n", "\n", "याशिवाय, तुम्ही शोध परिणाम गटबद्ध करण्यासाठी - खरेदीसाठी लिंक्स, प्रतिमा किंवा पुनरावलोकने यासाठी क्लस्टरिंग वापरू शकता. जेव्हा तुमच्याकडे मोठा डेटासेट असतो ज्याला तुम्हाला कमी करायचे असते आणि ज्यावर तुम्हाला अधिक सखोल विश्लेषण करायचे असते, तेव्हा क्लस्टरिंग उपयुक्त ठरते. त्यामुळे इतर मॉडेल्स तयार करण्यापूर्वी डेटाबद्दल शिकण्यासाठी ही तंत्र वापरली जाऊ शकते.\n", "\n", "✅ एकदा तुमचा डेटा क्लस्टर्समध्ये आयोजित झाला की, तुम्ही त्याला क्लस्टर आयडी असाइन करता. ही तंत्र डेटासेटची गोपनीयता जपण्यासाठी उपयुक्त ठरते; तुम्ही क्लस्टरमधील अधिक उघड करणाऱ्या ओळखण्याजोग्या डेटाऐवजी क्लस्टर आयडीने डेटा पॉइंटचा संदर्भ घेऊ शकता. क्लस्टर आयडीचा संदर्भ घेण्याचे इतर कोणते कारण असू शकते याचा विचार करा.\n", "\n", "### क्लस्टरिंग सुरू करणे\n", "\n", "> 🎓 क्लस्टर्स कसे तयार करायचे हे मुख्यतः डेटा पॉइंट्सना गटांमध्ये कसे एकत्र करायचे यावर अवलंबून असते. चला काही शब्दसंग्रह समजून घेऊया:\n", ">\n", "> 🎓 ['ट्रान्सडक्टिव्ह' विरुद्ध 'इंडक्टिव्ह'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> ट्रान्सडक्टिव्ह इनफरन्स हे विशिष्ट चाचणी प्रकरणांशी जुळणाऱ्या निरीक्षित प्रशिक्षण प्रकरणांमधून व्युत्पन्न केले जाते. इंडक्टिव्ह इनफरन्स हे प्रशिक्षण प्रकरणांमधून व्युत्पन्न केले जाते जे सामान्य नियमांशी जुळतात आणि नंतर चाचणी प्रकरणांवर लागू केले जातात.\n", ">\n", "> उदाहरण: कल्पना करा की तुमच्याकडे फक्त अर्धवट लेबल असलेला डेटासेट आहे. काही गोष्टी 'रेकॉर्ड्स', काही 'सीडीज' आहेत, आणि काही रिकाम्या आहेत. तुमचे काम म्हणजे रिकाम्यांसाठी लेबल्स प्रदान करणे. जर तुम्ही इंडक्टिव्ह दृष्टिकोन निवडला, तर तुम्ही 'रेकॉर्ड्स' आणि 'सीडीज' शोधण्यासाठी एक मॉडेल प्रशिक्षण द्याल आणि तुमच्या लेबल नसलेल्या डेटावर ती लेबल्स लागू कराल. हा दृष्टिकोन प्रत्यक्षात 'कॅसेट्स' असलेल्या गोष्टी वर्गीकृत करण्यात अडचण निर्माण करेल. ट्रान्सडक्टिव्ह दृष्टिकोन, दुसरीकडे, अशा अज्ञात डेटाला अधिक प्रभावीपणे हाताळतो कारण तो समान वस्तूंना एकत्र गटबद्ध करण्यासाठी कार्य करतो आणि नंतर गटाला लेबल लागू करतो. या प्रकरणात, क्लस्टर्स 'गोल संगीत गोष्टी' आणि 'चौरस संगीत गोष्टी' प्रतिबिंबित करू शकतात.\n", ">\n", "> 🎓 ['नॉन-फ्लॅट' विरुद्ध 'फ्लॅट' भूमिती](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> गणितीय शब्दसंग्रहातून व्युत्पन्न, नॉन-फ्लॅट विरुद्ध फ्लॅट भूमिती म्हणजे पॉइंट्समधील अंतर मोजण्याचा संदर्भ 'फ्लॅट' ([युक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) किंवा 'नॉन-फ्लॅट' (नॉन-युक्लिडियन) भूमितीय पद्धतींनी घेतला जातो.\n", ">\n", "> 'फ्लॅट' या संदर्भात युक्लिडियन भूमितीला (ज्याचा काही भाग 'प्लेन' भूमिती म्हणून शिकवला जातो) संदर्भ दिला जातो, आणि नॉन-फ्लॅट म्हणजे नॉन-युक्लिडियन भूमिती. मशीन लर्निंगशी भूमितीचा काय संबंध? गणितावर आधारित दोन क्षेत्रे म्हणून, क्लस्टर्समधील पॉइंट्समधील अंतर मोजण्यासाठी एक सामान्य मार्ग असणे आवश्यक आहे, आणि ते 'फ्लॅट' किंवा 'नॉन-फ्लॅट' पद्धतीने केले जाऊ शकते, डेटाच्या स्वरूपावर अवलंबून. [युक्लिडियन अंतर](https://wikipedia.org/wiki/Euclidean_distance) दोन पॉइंट्समधील रेषेच्या लांबीप्रमाणे मोजले जाते. [नॉन-युक्लिडियन अंतर](https://wikipedia.org/wiki/Non-Euclidean_geometry) वक्रावर मोजले जाते. जर तुमचा डेटा, व्हिज्युअलायझेशन केल्यावर, प्लेनवर अस्तित्वात नसल्यासारखा दिसत असेल, तर तुम्हाला त्यासाठी एक विशेष अल्गोरिदम वापरण्याची गरज असू शकते.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"