chore(i18n): sync translations with latest source changes (chunk 1/1, 9 changes)

update-translations
localizeflow[bot] 3 days ago
parent 712688625c
commit 50cd0f0c82

@ -1,7 +1,7 @@
{
"1-Introduction/1-intro-to-ML/README.md": {
"original_hash": "69389392fa6346e0dfa30f664b7b6fec",
"translation_date": "2025-09-04T21:08:16+00:00",
"original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0",
"translation_date": "2026-05-26T22:59:55+00:00",
"source_file": "1-Introduction/1-intro-to-ML/README.md",
"language_code": "bn"
},
@ -240,8 +240,8 @@
"language_code": "bn"
},
"5-Clustering/1-Visualize/README.md": {
"original_hash": "730225ea274c9174fe688b21d421539d",
"translation_date": "2025-09-04T21:03:31+00:00",
"original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd",
"translation_date": "2026-05-26T22:59:29+00:00",
"source_file": "5-Clustering/1-Visualize/README.md",
"language_code": "bn"
},

@ -1,150 +1,157 @@
# মেশিন লার্নিং পরিচিতি
# মেশিন লার্নিং এর পরিচয়
## [ূর্ব-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ml/)
## [্রী-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ml/)
---
[![শুরু থেকে মেশিন লার্নিং - শিক্ষার্থীদের জন্য মেশিন লার্নিং পরিচিতি](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "শুরু থেকে মেশিন লার্নিং - শিক্ষার্থীদের জন্য মেশিন লার্নিং পরিচিতি")
[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners")
> 🎥 উপরের ছবিতে ক্লিক করুন এই পাঠের একটি সংক্ষিপ্ত ভিডিও দেখার জন্য
> 🎥 এই লেসনের মাধ্যমে কাজ করার জন্য সংক্ষিপ্ত ভিডিওটি দেখতে উপরের ছবিতে ক্লিক করুন
শুরু থেকে মেশিন লার্নিং নিয়ে এই কোর্সে আপনাকে স্বাগতম! আপনি যদি এই বিষয়ের সম্পূর্ণ নতুন শিক্ষার্থী হন, অথবা একজন অভিজ্ঞ মেশিন লার্নিং প্র্যাকটিশনার হিসেবে কিছু বিষয় ঝালাই করতে চান, আমরা আপনাকে এখানে পেয়ে আনন্দিত। আমরা চাই একটি বন্ধুত্বপূর্ণ শিক্ষার পরিবেশ তৈরি করতে এবং আপনার [মতামত](https://github.com/microsoft/ML-For-Beginners/discussions) মূল্যায়ন, উত্তর প্রদান এবং অন্তর্ভুক্ত করতে।
এই ক্লাসিকাল মেশিন লার্নিং কোর্সে আপনাকে স্বাগতম, যা বিশেষ করে শিক্ষানবীশদের জন্য তৈরি! আপনি যদি এই বিষয়ে সম্পূর্ণ নতুন হন, অথবা একজন অভিজ্ঞ এমএল প্র্যাকটিশনার হয়ে থাকেন এবং কোন একটি বিষয়ে রিভিউ করতে চান, আমরা আনন্দিত আপনার সাথে যুক্ত হতে পেরে! আমরা আপনার এমএল অধ্যয়নের জন্য একটি বন্ধুত্বপূর্ণ সূচনা স্থান তৈরি করতে চাই এবং আপনার [প্রতিক্রিয়া](https://github.com/microsoft/ML-For-Beginners/discussions) মূল্যায়ন, সাড়া এবং অন্তর্ভুক্ত করতে ইচ্ছুক
[![মেশিন লার্নিং পরিচিতি](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "মেশিন লার্নিং পরিচিতি")
[![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML")
> 🎥 উপরের ছবিতে ক্লিক করুন একটি ভিডিও দেখার জন্য: MIT-এর জন গুটাগ মেশিন লার্নিং পরিচিতি প্রদান করছেন
> 🎥 উপরের ছবিতে ক্লিক করে ভিডিওটি দেখুন: MIT থেকে জন গুটট্যাগ মেশিন লার্নিং পরিচয় করিয়ে দিচ্ছেন
---
## মেশিন লার্নিং শুরু করা
এই পাঠ্যক্রম শুরু করার আগে, আপনার কম্পিউটারটি প্রস্তুত করে নোটবুকগুলো লোকালভাবে চালানোর জন্য প্রস্তুত করতে হবে
এই পাঠ্যক্রম শুরু করার আগে, আপনার কম্পিউটার সেটআপ করা এবং লোকালি নোটবুক চালানোর জন্য প্রস্তুত থাকা প্রয়োজন
- **আপনার মেশিন কনফিগার করুন এই ভিডিওগুলোর সাহায্যে**। [Python ইনস্টল](https://youtu.be/CXZYvNRIAKM) এবং [টেক্সট এডিটর সেটআপ](https://youtu.be/EU8eayHWoZg) করার পদ্ধতি শিখতে নিচের লিঙ্কগুলো ব্যবহার করুন।
- **Python শিখুন**। [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) সম্পর্কে একটি মৌলিক ধারণা থাকা প্রয়োজন, যা ডেটা সায়েন্টিস্টদের জন্য উপযোগী একটি প্রোগ্রামিং ভাষা এবং আমরা এই কোর্সে এটি ব্যবহার করব
- **Node.js এবং JavaScript শিখুন**আমরা এই কোর্সে কয়েকবার JavaScript ব্যবহার করব ওয়েব অ্যাপ তৈরি করার জন্য, তাই আপনার [node](https://nodejs.org) এবং [npm](https://www.npmjs.com/) ইনস্টল করা প্রয়োজন, এবং [Visual Studio Code](https://code.visualstudio.com/) Python এবং JavaScript ডেভেলপমেন্টের জন্য প্রস্তুত রাখতে হবে
- **GitHub অ্যাকাউন্ট তৈরি করুন**যেহেতু আপনি আমাদের [GitHub](https://github.com) এ খুঁজে পেয়েছেন, আপনার হয়তো ইতিমধ্যেই একটি অ্যাকাউন্ট আছে, কিন্তু যদি না থাকে, একটি অ্যাকাউন্ট তৈরি করুন এবং এই পাঠ্যক্রমটি নিজের জন্য ফর্ক করুন। (আমাদের একটি স্টার দিতে ভুলবেন না 😊)
- **Scikit-learn অন্বেষণ করুন**। [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) এর সাথে পরিচিত হন, একটি ML লাইব্রেরি যা আমরা এই পাঠগুলোতে উল্লেখ করব
- **ভিডিওগুলোর মাধ্যমে আপনার যন্ত্রপাতি কনফিগার করুন**। আপনার সিস্টেমে [পাইথন ইনস্টলেশন কিভাবে করবেন](https://youtu.be/CXZYvNRIAKM) এবং বিকাশের জন্য [টেক্সট এডিটর সেটআপ](https://youtu.be/EU8eayHWoZg) শেখার জন্য নিম্নলিখিত লিঙ্কগুলো ব্যবহার করুন।
- **পাইথন শিখুন**। এ ভাষাটি ডাটা সায়েন্টিস্টদের জন্য উপযোগী একটি প্রোগ্রামিং ভাষা, যেটি আমরা এই কোর্সে ব্যবহার করি। [পাইথন শেখার একটি মৌলিক ধারণা থাকা সুপারিশকৃত](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott)।
- **Node.js এবং JavaScript শিখুন**এই কোর্সের কিছু অংশে আমরা JavaScript ব্যবহার করব যখন ওয়েব অ্যাপ তৈরি করব, তাই আপনার কাছে [node](https://nodejs.org) এবং [npm](https://www.npmjs.com/) ইনস্টল করা থাকা দরকার এবং Python ও JavaScript উভয়ের উন্নয়নের জন্য [Visual Studio Code](https://code.visualstudio.com/) পাওয়া উচিত
- **GitHub অ্যাকাউন্ট তৈরি করুন**আপনি যদি ইতোমধ্যে এখানে [GitHub](https://github.com) এ এসে থাকেন, সম্ভবত আপনার একটি অ্যাকাউন্ট আছে, তবে না থাকলে তৈরি করুন এবং এই পাঠ্যক্রম ফর্ক করে নিজের জন্য ব্যবহার করুন। (অবশ্যই, আমাদের একটি স্টার দিতে ভুলবেন না 😊)
- **Scikit-learn অন্বেষণ করুন**এই পাঠে উল্লেখ করা একটি ML লাইব্রেরি [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) সম্পর্কে পরিচিত হন
---
## মেশিন লার্নিং কী?
'মেশিন লার্নিং' শব্দটি আজকের দিনে সবচেয়ে জনপ্রিয় এবং বহুল ব্যবহৃত শব্দগুলোর একটি। আপনি যদি প্রযুক্তির সাথে কিছুটা পরিচিত হন, তাহলে এই শব্দটি অন্তত একবার শুনেছেন এমন সম্ভাবনা রয়েছে। তবে মেশিন লার্নিংয়ের কার্যপ্রণালী বেশিরভাগ মানুষের কাছে রহস্যময়। একজন মেশিন লার্নিং শিক্ষার্থীর জন্য বিষয়টি কখনও কখনও জটিল মনে হতে পারে। তাই এটি কী তা বোঝা এবং ধাপে ধাপে, ব্যবহারিক উদাহরণের মাধ্যমে এটি শেখা গুরুত্বপূর্ণ
'মেশিন লার্নিং' শব্দটি আজকের দিনে সবচেয়ে জনপ্রিয় এবং প্রায়ই ব্যবহৃত শব্দগুলোর মধ্যে অন্যতম। প্রযুক্তির সাথে আপনার কোনো আংশিক পরিচিতি থাকলে, আপনি সম্ভবত এই শব্দটি অন্তত একবার শুনেছেন। যাইহোক, মেশিন লার্নিং এর যান্ত্রিক বিষয়গুলো বেশিরভাগ মানুষের জন্য রহস্যসূচক। একজন মেশিন লার্নিং শিক্ষানবীশের জন্য, বিষয়টি কিছু সময়ে অতিরিক্ত চাপ সৃষ্টিকারী হতে পারে। তাই এটি গুরুত্বপূর্ণ যে আমরা বুঝতে পারি মেশিন লার্নিং আসলে কী, এবং এটি ধাপে ধাপে, ব্যবহারিক উদাহরণের মাধ্যমে শিখি
---
## হাইপ কার্ভ
## জনপ্রিয়তার বক্ররেখা
![মেশিন লার্নিং হাইপ কার্ভ](../../../../1-Introduction/1-intro-to-ML/images/hype.png)
![ml hype curve](../../../../translated_images/bn/hype.07183d711a17aafe.webp)
> Google Trends দেখাচ্ছে 'মেশিন লার্নিং' শব্দটির সাম্প্রতিক 'হাইপ কার্ভ'
> গুগল ট্রেন্ডস 'মেশিন লার্নিং' শব্দের সাম্প্রতিক 'হাইপ কার্ভ' দেখাচ্ছে
---
## একটি রহস্যময় মহাবিশ্ব
## এক রহস্যময় মহাবিশ্ব
আমরা একটি মহাবিশ্বে বাস করি যা রহস্যে ভরপুর। স্টিফেন হকিং, আলবার্ট আইনস্টাইন এবং আরও অনেক মহান বিজ্ঞানী তাদের জীবন উৎসর্গ করেছেন এমন তথ্য খুঁজে বের করতে যা আমাদের চারপাশের পৃথিবীর রহস্য উন্মোচন করে। এটি মানুষের শেখার স্বভাব: একটি শিশু নতুন জিনিস শেখে এবং তাদের চারপাশের পৃথিবীর গঠন সম্পর্কে জ্ঞান অর্জন করে বছর বছর ধরে।
আমরা এমন একটি মহাবিশ্বে বাস করি যেটা মুগ্ধকর রহস্যে পরিপূর্ণ। স্টিফেন হকিং, আলবের্ট আইনস্টাইন এবং আরও অনেক মহান বিজ্ঞানীর জীবন আমাদের চারপাশের বিশ্বের রহস্য উন্মোচনের জন্য অর্থবহ তথ্য অনুসন্ধানে ব্যয় হয়েছে। এটি হচ্ছে মানুষের শেখার অবস্থা: একজন শিশু নতুন কিছু শেখে এবং বছরখানেক ধরে তাদের বয়সে সেগুলোর গঠন আবিষ্কার করে।
---
## শিশুর মস্তিষ্ক
একটি শিশুর মস্তিষ্ক এবং ইন্দ্রিয় তাদের চারপাশের তথ্য গ্রহণ করে এবং ধীরে ধীরে জীবনের লুকানো প্যাটার্নগুলো শিখে যা তাদের শেখা প্যাটার্নগুলো চিহ্নিত করার জন্য যৌক্তিক নিয়ম তৈরি করতে সাহায্য করে। মানুষের মস্তিষ্কের শেখার প্রক্রিয়া মানুষকে এই পৃথিবীর সবচেয়ে উন্নত জীব হিসেবে তৈরি করে। লুকানো প্যাটার্নগুলো আবিষ্কার করে ক্রমাগত শেখা এবং তারপর সেই প্যাটার্নগুলোতে উদ্ভাবন করা আমাদেরকে আমাদের জীবনের পুরো সময় ধরে আরও উন্নত হতে সাহায্য করে। এই শেখার ক্ষমতা এবং বিকাশের সক্ষমতা একটি ধারণার সাথে সম্পর্কিত যাকে বলা হয় [মস্তিষ্কের প্লাস্টিসিটি](https://www.simplypsychology.org/brain-plasticity.html)। উপরিভাগে, আমরা মানুষের মস্তিষ্কের শেখার প্রক্রিয়া এবং মেশিন লার্নিংয়ের ধারণার মধ্যে কিছু অনুপ্রেরণামূলক মিল দেখতে পারি।
একটি শিশুর মস্তিষ্ক ও ইন্দ্রিয় পরিবেশের ঘটনা উপলব্ধি করে এবং জীবনযাত্রার গোপন প্যাটার্নগুলো শেখে, যা শিশুকে শিখানো প্যাটার্ন চিন্হিত করার জন্য যৌক্তিক নিয়ম তৈরি করতে সহায়তা করে। মানব মস্তিষ্কের শেখার প্রক্রিয়া মানুষকে এই পৃথিবীর সবচেয়ে জটিল জীবিত সত্তা করে তোলে। গোপন প্যাটার্ন আবিষ্কার করে অবিরত শেখা এবং সেই প্যাটার্নের উপর উদ্ভাবন আমাদের পুরো জীবনকালে নিজেদের আরও ভালো করে তুলতে সক্ষম করে। এই শেখার সক্ষমতা ও বিকাশমান ক্ষমতা একটি ধারণা [ব্রেন প্লাস্টিসিটি](https://www.simplypsychology.org/brain-plasticity.html) নামে পরিচিত। ওপর থেকে দেখলে, আমরা মানুষের মস্তিষ্কের শেখার প্রক্রিয়া এবং মেশিন লার্নিং এর ধারণাগুলোর মধ্যে কিছু অনুপ্রেরণাদায়ক সাদৃশ্য আঁকতে পারি।
---
## মানুষের মস্তিষ্ক
## মান মস্তিষ্ক
[মানুষের মস্তিষ্ক](https://www.livescience.com/29365-human-brain.html) বাস্তব পৃথিবী থেকে তথ্য গ্রহণ করে, প্রাপ্ত তথ্য প্রক্রিয়া করে, যৌক্তিক সিদ্ধান্ত নেয় এবং পরিস্থিতির উপর ভিত্তি করে নির্দিষ্ট কাজ সম্পাদন করে। এটিকে আমরা বুদ্ধিমত্তার সাথে আচরণ করা বলি। যখন আমরা একটি মেশিনে বুদ্ধিমত্তার আচরণের প্রক্রিয়ার অনুকরণ প্রোগ্রাম করি, তখন এটিকে কৃত্রিম বুদ্ধিমত্তা (AI) বলা হয়
[মান মস্তিষ্ক](https://www.livescience.com/29365-human-brain.html) বাস্তব বিশ্ব থেকে জিনিসগুলি উপলব্ধি করে, প্রাপ্ত তথ্য প্রক্রিয়া করে, যুক্তিসংগত সিদ্ধান্ত নেয় এবং পরিস্থিতির উপর ভিত্তি করে নির্দিষ্ট কাজ সম্পাদন করে। এটাকেই আমরা বুদ্ধিমত্তাসম্পন্ন আচরণ বলা হয়। যখন আমরা একটি বুদ্ধিমত্তাসম্পন্ন আচরণ প্রক্রিয়ার নকল একটি যন্ত্রে প্রোগ্রাম করি, তা কৃত্রিম বুদ্ধিমত্তা (AI) নামে পরিচিত
---
## কিছু পরিভাষা
যদিও শব্দগুলো বিভ্রান্তিকর হতে পারে, মেশিন লার্নিং (ML) কৃত্রিম বুদ্ধিমত্তার একটি গুরুত্বপূর্ণ উপসেট। **ML বিশেষ অ্যালগরিদম ব্যবহার করে প্রাপ্ত তথ্য থেকে অর্থপূর্ণ তথ্য এবং লুকানো প্যাটার্ন খুঁজে বের করার মাধ্যমে যৌক্তিক সিদ্ধান্ত গ্রহণ প্রক্রিয়াকে সমর্থন করার উপর গুরুত্ব দেয়।**
যদিও শব্দগুলো বিভ্রান্তিকর হতে পারে, মেশিন লার্নিং (ML) হলো কৃত্রিম বুদ্ধিমত্তার একটি গুরুত্বপূর্ণ উপশ্রেণী। **ML বিশেষায়িত অ্যালগরিদম ব্যবহার করে প্রাপ্ত ডাটা থেকে অর্থবহ তথ্য আবিষ্কার এবং লুকানো প্যাটার্ন খুঁজে উদ্ধার করার মাধ্যমে যুক্তিসংগত সিদ্ধান্ত গ্রহণ প্রক্রিয়াকে সমর্থন করে**
---
## AI, ML, ডিপ লার্নিং
## AI, ML, গভীর শিক্ষা
![AI, ML, ডিপ লার্নিং, ডেটা সায়েন্স](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png)
![AI, ML, deep learning, data science](../../../../translated_images/bn/ai-ml-ds.537ea441b124ebf6.webp)
> AI, ML, ডিপ লার্নিং এবং ডেটা সায়েন্সের মধ্যে সম্পর্ক দেখানো একটি ডায়াগ্রাম। [জেন লুপার](https://twitter.com/jenlooper) দ্বারা তৈরি ইনফোগ্রাফিক, [এই গ্রাফিক](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) দ্বারা অনুপ্রাণিত।
> AI, ML, গভীর শিক্ষা, এবং ডাটা সায়েন্সের সম্পর্ক দেখানো একটি চিত্র। ইনফোগ্রাফিক [Jen Looper](https://twitter.com/jenlooper) দ্বারা, এই [গ্রাফিক থেকে অনুপ্রাণিত](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining)
---
## কাভার করার ধারণাগুলো
## কভার করার বিষয়সমূহ
এই পাঠ্যক্রমে, আমরা শুধুমাত্র মেশিন লার্নিংয়ের মৌলিক ধারণাগুলো কাভার করব যা একজন শিক্ষার্থীর জানা প্রয়োজন। আমরা 'ক্লাসিকাল মেশিন লার্নিং' নিয়ে আলোচনা করব, প্রধানত Scikit-learn ব্যবহার করে, একটি চমৎকার লাইব্রেরি যা অনেক শিক্ষার্থী মৌলিক বিষয়গুলো শেখার জন্য ব্যবহার করে। কৃত্রিম বুদ্ধিমত্তা বা ডিপ লার্নিংয়ের বিস্তৃত ধারণাগুলো বুঝতে, মেশিন লার্নিংয়ের শক্তিশালী মৌলিক জ্ঞান অপরিহার্য, এবং আমরা এটি এখানে প্রদান করতে চাই
এই পাঠ্যক্রমে আমরা শুধুমাত্র মেশিন লার্নিং এর মূল ধারণাগুলো কভার করব যা একজন শিক্ষানবীশের জানা জরুরি। আমরা প্রধানত 'ক্লাসিকাল মেশিন লার্নিং' নিয়ে আলোচনা করব Scikit-learn ব্যবহার করে, যা অনেক শিক্ষার্থী মৌলিক জ্ঞান অর্জনের জন্য ব্যবহার করে। কৃত্রিম বুদ্ধিমত্তা বা গভীর শিক্ষার বিস্তৃত ধারণাগুলো বুঝতে, মেশিন লার্নিং এর শক্তিশালী মূল জ্ঞান অপরিহার্য, তাই আমরা এটিকে এখানে অফার করতে চাচ্ছি
---
## এই কোর্সে আপনি শিখবেন:
- মেশিন লার্নিংয়ের মৌলিক ধারণা
- মেশিন লার্নিংয়ের ইতিহাস
- মেশিন লার্নিং এবং ন্যায্যতা
- রিগ্রেশন মেশিন লার্নিং কৌশল
- ক্লাসিফিকেশন মেশিন লার্নিং কৌশল
- ক্লাস্টারিং মেশিন লার্নিং কৌশল
- প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মেশিন লার্নিং কৌশল
- টাইম সিরিজ পূর্বাভাস মেশিন লার্নিং কৌশল
- মেশিন লার্নিং এর মূল ধারণা
- এমএল এর ইতিহাস
- এমএল এবং ন্যায়পরায়ণতা
- রিগ্রেশন এমএল প্রযুক্তি
- শ্রেণীবিভাগ এমএল প্রযুক্তি
- ক্লাস্টারিং এমএল প্রযুক্তি
- প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এমএল প্রযুক্তি
- টাইম সিরিজ পূর্বাভাস এমএল প্রযুক্তি
- রিইনফোর্সমেন্ট লার্নিং
- মেশিন লার্নিংয়ের বাস্তব জীবনের প্রয়োগ
- এমএল এর বাস্তব জীবনের প্রয়োগসমূহ
---
## আমরা যা কভার করব না
## যা কভার করব না
- ডিপ লার্নিং
- নিউরাল নেটওার্ক
- গভীর শিক্ষা
- নিউরাল নেটওয়ার্ক
- AI
শিক্ষার অভিজ্ঞতা আরও ভালো করার জন্য, আমরা নিউরাল নেটওয়ার্কের জটিলতা, 'ডিপ লার্নিং' - নিউরাল নেটওয়ার্ক ব্যবহার করে বহু-স্তরযুক্ত মডেল তৈরি - এবং AI এড়িয়ে যাব, যা আমরা একটি ভিন্ন পাঠ্যক্রমে আলোচনা করব। আমরা একটি আসন্ন ডেটা সায়েন্স পাঠ্যক্রমও প্রদান করব যা এই বৃহত্তর ক্ষেত্রের সেই দিকটিতে মনোযোগ দবে।
একটি উন্নত শিক্ষার অভিজ্ঞতা দেওয়ার জন্য, আমরা নিউরাল নেটওয়ার্ক, 'গভীর শিক্ষা' - নিউরাল নেটওয়ার্ক ব্যবহার করে বহুস্তরযুক্ত মডেল তৈরির প্রক্রিয়া - এবং AI এর জটিলতা এড়িয়ে চলব, যেগুলো আমরা অন্য একটি কোর্সে আলোচনা করব। আমরা একটি আসন্ন ডাটা সায়েন্স পাঠ্যক্রমও অফার করব যা এই বৃহত্তর ক্ষেত্রের সেই দিকটিতে মনোযোগ দিবে।
---
## কেন মেশিন লার্নিং পড়বেন?
## কেন মেশিন লার্নিং শিখবেন?
সিস্টেমের দৃষ্টিকোণ থেকে, মেশিন লার্নিংকে সংজ্ঞায়িত করা হয় এমন স্বয়ংক্রিয় সিস্টেম তৈরি হিসেবে যা ডেটা থেকে লুকানো প্যাটার্ন শিখতে পারে এবং বুদ্ধিমত্তার সিদ্ধান্ত গ্রহণে সহায়তা করতে পারে।
একটি সিস্টেমের দৃষ্টি থেকে, মেশিন লার্নিং হলো এমন স্বয়ংক্রিয় ব্যবস্থা তৈরির প্রক্রিয়া যা ডাটা থেকে লুকানো প্যাটার্ন শিখতে পারে এবং বুদ্ধিমান সিদ্ধান্ত গ্রহণে সাহায্য করে।
এই অনুপ্রেরণা মানুষের মস্তিষ্ক কীভাবে বাইরের পৃথিবী থেকে প্রাপ্ত ডেটার উপর ভিত্তি করে কিছু জিনিস শিখে তার সাথে সামান্যভাবে সম্পর্কিত
এই অনুপ্রেরণা আংশিকভাবে মানুষের মস্তিষ্কের শেখার পদ্ধতি থেকে উদ্ভূত যা বাইরের বিশ্বের ডাটা থেকে তথ্য গ্রহণ করে
✅ এক মিনিট চিন্তা করুন কেন একটি ব্যবসা মেশিন লার্নিং কৌশল ব্যবহার করতে চাইবে, কঠোরভাবে কোড করা নিয়ম-ভিত্তিক ইঞ্জিন তৈরি করার পরিবর্তে।
✅ এক মিনিট ভাবুন কেন একটি ব্যবসায় মেশিন লার্নিং কৌশল ব্যবহার করতে চাইবে হার্ড-কোডেড নিয়ম ভিত্তিক ইঞ্জিন তৈরির পরিবর্তে।
---
## মেশিন লার্নিংয়ের প্রয়োগ
## কেন ডাটা গুণমান গুরুত্বপূর্ণ
মেশিন লার্নিংয়ের প্রয়োগ এখন প্রায় সর্বত্র, এবং আমাদের সমাজে প্রবাহিত ডেটার মতোই সর্বব্যাপী, যা আমাদের স্মার্টফোন, সংযুক্ত ডিভাইস এবং অন্যান্য সিস্টেম দ্বারা তৈরি হয়। সর্বাধুনিক মেশিন লার্নিং অ্যালগরিদমের বিশাল সম্ভাবনা বিবেচনা করে, গবেষকরা তাদের সক্ষমতা বহুমাত্রিক এবং বহুবিধ বাস্তব জীবনের সমস্যাগুলো সমাধান করতে পরীক্ষা করছেন, এবং ইতিবাচক ফলাফল পাচ্ছেন
উচ্চ মানের ডাটা মডেল কর্মক্ষমতা বাড়ায়। খারাপ বা গোলমালপূর্ণ ডাটা এটি অনুমান ভুলে পরিচালিত করতে পারে, এমনকি যখন উন্নত মেশিন লার্নিং অ্যালগরিদম ব্যবহার করা হয়
---
## প্রয়োগকৃত মেশিন লার্নিংয়ের উদাহরণ
## মেশিন লার্নিং এর প্রয়োগসমূহ
মেশিন লার্নিংয়ের প্রয়োগ এখন প্রায় সর্বত্রই পাওয়া যায়, যেমন ডাটা প্রবাহিত হয় আমাদের সমাজে, স্মার্টফোন, সংযুক্ত ডিভাইস এবং অন্যান্য সিস্টেম থেকে উৎপন্ন। অত্যাধুনিক মেশিন লার্নিং অ্যালগরিদমের মহান সম্ভাব্যতা বিবেচনা করে, গবেষকরা বহুমাত্রিক এবং বহু-বিভাগীয় বাস্তব জীবনের সমস্যাগুলো সমাধানের সক্ষমতা পরীক্ষা করছেন যা ইতিবাচক ফলাফল দিচ্ছে।
---
## প্রয়োগকৃত ML এর উদাহরণ
**আপনি মেশিন লার্নিং বিভিন্নভাবে ব্যবহার করতে পারেন**:
- রোগের সম্ভাবনা পূর্বাভাস দিতে রোগীর মেডিকেল ইতিহাস বা রিপোর্ট থেকে।
- আবহাওয়ার ডেটা ব্যবহার করে আবহাওয়া পূর্বাভাস দিতে।
- একটি টেক্সটের অনুভূতি বুঝতে
- ভুয়া খবর শনাক্ত করতে এবং প্রোপাগান্ডা ছড়ানো বন্ধ করতে
- রোগীর চিকিৎসা ইতিহাস বা প্রতিবেদন থেকে রোগের সম্ভাবনা অনুমান করতে।
- আবহাওয়া ডাটা ব্যবহার করে আবহাওয়ার পূর্বাভাস দিতে।
- একটি লেখার অনুভূতি বোঝার জন্য
- মিথ্যা খবর সনাক্ত করে প্রচার রোধ করার জন্য
অর্থনীতি, ভূবিজ্ঞান, মহাকাশ অনুসন্ধান, বায়োমেডিক্যাল ইঞ্জিনিয়ারিং, কগনিটিভ সায়েন্স এবং এমনকি মানবিক ক্ষেত্রগুলো মেশিন লার্নিংকে তাদের ক্ষেত্রের জটিল, ডেটা-প্রক্রিয়াকরণ ভারী সমস্যাগুলো সমাধান করতে গ্রহণ করেছে।
অর্থনীতি, ভৌত বিজ্ঞান, মহাকাশ অনুসন্ধান, বায়োমেডিকেল ইঞ্জিনিয়ারিং, কগনিটিভ সায়েন্স, এমনকি মানবিক শাস্ত্রের ক্ষেত্রেও মেশিন লার্নিং ব্যবহার হয়েছে তাদের ডোমেইনের কঠিন ও ডাটা-প্রক্রিয়াকরণ ভিত্তিক সমস্যাগুলো সমাধানে।
---
## উপসংহার
মেশিন লার্নিং বাস্তব বা তৈরি ডেটা থেকে অর্থপূর্ণ অন্তর্দৃষ্টি খুঁজে বের করার মাধ্যমে প্যাটার্ন আবিষ্কারের প্রক্রিয়াকে স্বয়ংক্রিয় করে। এটি ব্যবসা, স্বাস্থ্য এবং আর্থিক প্রয়োগসহ অন্যান্য ক্ষেত্রে অত্যন্ত মূল্যবান প্রমাণিত হেছে।
মেশিন লার্নিং বাস্তব জীবনের বা তৈরি ডাটা থেকে অর্থবহ অন্তর্দৃষ্টি খুঁজে পেয়ে প্যাটার্ন আবিষ্কারের প্রক্রিয়া স্বয়ংক্রিয় করে। এটি ব্যবসা, স্বাস্থ্য এবং আর্থিক প্রয়োগসহ বিভিন্ন ক্ষেত্রে অত্যন্ত মূল্যবান প্রমাণিত হয়েছে।
অদূর ভবিষ্যতে, মেশিন লার্নিংয়ের মৌলিক বিষয়গুলো বোঝা যেকোনো ক্ষেত্রের মানুষের জন্য অত্যাবশ্যক হয়ে উঠবে এর ব্যাপক গ্রহণযোগ্যতার কারণে।
ভবিষ্যতে, যেকোনো ক্ষেত্রের মানুষের জন্য মেশিন লার্নিং এর মৌলিক ধারণা জানা প্রয়োজন হয়ে উঠবে এর ব্যাপক গ্রহণযোগ্যতার কারণে।
---
# 🚀 চ্যালেঞ্জ
কাগজে বা [Excalidraw](https://excalidraw.com/) এর মতো একটি অনলাইন অ্যাপ ব্যবহার করে AI, ML, ডিপ লার্নিং এবং ডেটা সায়েন্সের মধ্যে পার্থক্য সম্পর্কে আপনার ধারণা স্কেচ করুন। প্রতিটি কৌশল কোন ধরনের সমস্যার সমাধানে ভালো তা নিয়ে কিছু ধারণা যোগ করুন।
কাগজে বা [Excalidraw](https://excalidraw.com/) এর মতো অনলাইন অ্যাপ ব্যবহার করে AI, ML, গভীর শিক্ষা, এবং ডাটা সায়েন্সের মধ্যে পার্থক্যের আপনার ধারণা আঁকুন। প্রতিটির যথাযথ সমস্যাগুলো সমাধানের কিছু আইডিয়া যোগ করুন।
# [পোস্ট-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ml/)
---
# পর্যালোচনা এবং স্ব-অধ্যয়
# পর্যালোচনা ও স্ব-অধ্যয়
ক্লাউডে কীভাবে ML অ্যালগরিদম নিয়ে কাজ করতে পারেন তা শিখতে এই [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) অনুসরণ করুন।
ক্লাউডে ML অ্যালগরিদম নিয়ে কাজ করার আরও তথ্যের জন্য, এই [লার্নিং পথ](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) অনুসরণ করুন।
মেশিন লার্নিংয়ের মৌলিক বিষয়গুলো সম্পর্কে জানতে একটি [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) গ্রহণ করুন।
ML এর মৌলিক বিষয়ে একটি [লার্নিং পথ](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) গ্রহণ করুন।
---
# অ্যাসাইনমেন্ট
[শুরু করুন](assignment.md)
[শুরু করুন ও চলুন](assignment.md)
---
**অস্বীকৃতি**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**অস্বীকৃতি**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। যদিও আমরা শুদ্ধতার জন্য চেষ্টা করি, অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল নথিটি তার স্বভাষায় কর্তৃত্বপূর্ণ উৎস হিসেবে বিবেচিত হওয়া উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদের ব্যবহারে প্রয়োজনীয় ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়বদ্ধ নই।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -1,116 +1,116 @@
# ক্লাস্টারিং পরিচিতি
# ক্লাস্টারিং এর পরিচিতি
ক্লাস্টারিং হলো [অপরীক্ষিত শিক্ষণ](https://wikipedia.org/wiki/Unsupervised_learning) এর একটি ধরন, যা ধরে নেয় যে একটি ডেটাসেট লেবেলবিহীন বা এর ইনপুট পূর্বনির্ধারিত আউটপুটের সাথে মেলানো হয়নি। এটি বিভিন্ন অ্যালগরিদম ব্যবহার করে লেবেলবিহীন ডেটা বিশ্লেষণ করে এবং ডেটাতে পাওয়া প্যাটার্ন অনুযায়ী গ্রুপিং প্রদান করে।
ক্লাস্টারিং হল [Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning) এর একটি প্রকার যা ধরে নেয় যে একটি ডেটাসেট লেবেলবিহীন বা তার ইনপুটগুলি পূর্ব নির্ধারিত আউটপুটগুলির সাথে মিলানো হয়নি। এটা বিভিন্ন অ্যালগরিদম ব্যবহার করে লেবেলবিহীন ডেটার মধ্য থেকে বিশ্লেষণ করে এবং ডেটার মধ্যে থাকা প্যাটার্ন অনুসারে গ্রুপ তৈরি করে।
[![PSquare এর No One Like You](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "PSquare এর No One Like You")
[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare")
> 🎥 উপরের ছবিতে ক্লিক করুন একটি ভিডিওর জন্য। ক্লাস্টারিং দিয়ে মেশিন লার্নিং শেখার সময়, কিছু নাইজেরিয়ান ডান্স হল ট্র্যাক উপভোগ করুন - এটি PSquare এর ২০১৪ সালের একটি উচ্চ রেটেড গান
> 🎥 উপরের ছবিতে ক্লিক করুন একটি ভিডিওর জন্য। আপনি যখন মেশিন লার্নিং এর ক্লাস্টারিং নিয়ে অধ্যয়ন করবেন, তখন কিছু নাইজেরিয়ান ডান্স হল ট্র্যাক উপভোগ করুন - এটি PSquare এর 2014 সালের অন্যতম উচ্চ রেটিং সঙ্গীত
## [পূর্ব-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ml/)
### পরিচিতি
[ক্লাস্টারিং](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ডেটা এক্সপ্লোরেশনের জন্য খুবই কার্যকর। চলুন দেখি এটি নাইজেরিয়ান দর্শকরা কীভাবে সঙ্গীত উপভোগ করেন তার প্রবণতা এবং প্যাটার্ন আবিষ্কার করতে সাহায্য করতে পারে কিনা
[ক্লাস্টারিং](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ডেটা অনুসন্ধানের জন্য খুবই উপকারী। চলুন দেখি এটা কীভাবে নাইজেরিয়ান শ্রোতাদের সঙ্গীত ভোগের ধরণ এবং প্যাটার্ন আবৃত্তি করতে সাহায্য করতে পারে।
✅ ক্লাস্টারিং এর ব্যবহার নিয়ে এক মিনিট চিন্তা করুন। বাস্তব জীবনে, ক্লাস্টারিং ঘটে যখন আপনার কাছে একটি কাপড়ের স্তূপ থাকে এবং আপনাকে পরিবারের সদস্যদের কাপড় আলাদা করতে হয় 🧦👕👖🩲। ডেটা সায়েন্সে, ক্লাস্টারিং ঘটে যখন ব্যবহারকারীর পছন্দ বিশ্লেষণ করার চেষ্টা করা হয়, বা কোনো লেবেলবিহীন ডেটাসেটের বৈশিষ্ট্য নির্ধারণ করা হয়। একভাবে, ক্লাস্টারিং বিশৃঙ্খলার মধ্যে অর্থ খুঁজে পেতে সাহায্য করে, যেমন একটি মোজার ড্রয়ার।
✅ ক্লাস্টারিং এর ব্যবহার নিয়ে এক মিনিট ভাবুন। বাস্তবে, ক্লাস্টারিং ঘটে যখন আপনার কাছে একটি ধরণের জামাকাপড় থাকে এবং আপনাকে পরিবারের সদস্যদের কাপড় আলাদা করতে হয় 🧦👕👖🩲। ডেটা সায়েন্সে, ক্লাস্টারিং হয় যখন ব্যবহারকারীর পছন্দ বিশ্লেষণ করা হয়, বা কোন লেবেলবিহীন ডেটাসেটের বৈশিষ্ট্য নির্ধারণ করা হয়। ক্লাস্টারিং, একভাবে, বিশৃঙ্খলাকে সুসংগঠিত করতে সাহায্য করে, যেমন একটি মোজা ড্রয়ার।
[![মেশিন লার্নিং পরিচিতি](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "ক্লাস্টারিং পরিচিতি")
[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering")
> 🎥 উপরের ছবিতে ক্লিক করুন একটি ভিডিওর জন্য: MIT এর John Guttag ক্লাস্টারিং পরিচিতি প্রদান করছেন।
> 🎥 উপরের ছবিতে ক্লিক করুন একটি ভিডিওর জন্য: MIT এর জন গট্টাগ ক্লাস্টারিং পরিচয় করিয়ে দিচ্ছেন
পেশাগত ক্ষেত্রে, ক্লাস্টারিং ব্যবহার করা যেতে পারে যেমন মার্কেট সেগমেন্টেশন নির্ধারণ করা, উদাহরণস্বরূপ, কোন বয়সের গ্রুপ কী আইটেম কিনছে তা নির্ধারণ করা। আরেকটি ব্যবহার হতে পারে অস্বাভাবিকতা সনাক্তকরণ, হয়তো ক্রেডিট কার্ড লেনদেনের ডেটাসেট থেকে প্রতারণা সনাক্ত করতে। অথবা আপনি ক্লাস্টারিং ব্যবহার করতে পারেন মেডিক্যাল স্ক্যানের একটি ব্যাচ থেকে টিউমার নির্ধারণ করতে।
একটি পেশাগত পরিবেশে, ক্লাস্টারিং ব্যবহার করা যেতে পারে বাজার বিভাজন নির্ধারণ করতে, যেমন কোন বয়স গোষ্ঠী কোন পণ্য কিনে, ইত্যাদি। আরেকটি ব্যবহার হতে পারে অ্যানোমালি ডিটেকশন, যেমন ক্রেডিট কার্ড লেনদেনের ডেটাসেটে ছলনার সনাক্তকরণ। অথবা আপনি ক্লাস্টারিং ব্যবহার করতে পারেন একটি মেডিকেল স্ক্যানের ব্যাচ থেকে টিউমার চিহ্নিত করতে।
✅ এক মিনিট চিন্তা করুন কীভাবে আপনি 'প্রাকৃতিকভাবে' ক্লাস্টারিং এর মুখোমুখি হয়েছেন, ব্যাংকিং, ই-কমার্স, বা ব্যবসায়িক ক্ষেত্রে
✅ এক মিনিট ভাবুন আপনি কীভাবে ক্লাস্টারিং ‘প্রকৃত জীবনে’ টাকার, ই-কমার্স বা ব্যবসায়িক ক্ষেত্রে দেখেছেন
> 🎓 মজার বিষয় হলো, ক্লাস্টার বিশ্লেষণ ১৯৩০ এর দশকে নৃতত্ত্ব এবং মনোবিজ্ঞানের ক্ষেত্রে উদ্ভূত হয়েছিল। কল্পনা করুন এটি কীভাবে ব্যবহার করা হতে পারে?
> 🎓 আকর্ষণীয়ভাবে, ক্লাস্টার বিশ্লেষণ ১৯৩০-এর দশকে মানববিজ্ঞান ও মনোবিজ্ঞানের ক্ষেত্রে এসেছে। আপনি কী ভাবতে পারেন এটা কিভাবে ব্যবহৃত হতে পারে?
অন্যদিকে, এটি ব্যবহার করা যেতে পারে সার্চ রেজাল্ট গ্রুপিং এর জন্য - যেমন শপিং লিঙ্ক, ছবি, বা রিভিউ। ক্লাস্টারিং কার্যকর যখন আপনার কাছে একটি বড় ডেটাসেট থাকে যা আপনি কমাতে চান এবং যার উপর আপনি আরও সূক্ষ্ম বিশ্লেষণ করতে চান, তাই এই কৌশলটি অন্যান্য মডেল তৈরি করার আগে ডেটা সম্পর্কে জানার জন্য ব্যবহার করা যেতে পারে।
অন্যদিকে, আপনি এই পদ্ধতি ব্যবহার করতে পারেন সার্চ ফলাফল গুচ্ছবদ্ধ করতে - যেমন শপিং লিঙ্ক, ছবি, বা রিভিউ দ্বারা আলাদা করা। ক্লাস্টারিং বিশেষত কাজের যখন আপনার বড় একটি ডেটাসেট থাকে যা আপনি ছোট করতে চান এবং আরও সূক্ষ্ম বিশ্লেষণ করতে চান, তাই এই পদ্ধতি অন্যান্য মডেল তৈরি হওয়ার আগে ডেটা সম্পর্কে শিখতে সাহায্য করে।
একবার আপনার ডেটা ক্লাস্টারে সংগঠিত হলে, আপনি এটিকে একটি ক্লাস্টার আইডি বরাদ্দ করেন, এবং এই কৌশলটি একটি ডেটাসেটের গোপনীয়তা সংরক্ষণে কার্যকর হতে পারে; আপনি ক্লাস্টারের আরও প্রকাশযোগ্য সনাক্তযোগ্য ডেটার পরিবর্তে একটি ডেটা পয়েন্টকে তার ক্লাস্টার আইডি দ্বারা উল্লেখ করতে পারেন। আপনি কি অন্য কারণ চিন্তা করতে পারেন কেন আপনি একটি ক্লাস্টার আইডি ব্যবহার করবেন ক্লাস্টারের অন্যান্য উপাদানগুলির পরিবর্তে এটি সনাক্ত করতে?
✅ আপনার ডেটা ক্লাস্টারে সংগঠিত হলে, আপনি এটি একটি ক্লাস্টার আইডি প্রদান করেন, এবং এই পদ্ধতি একটি ডেটাসেটের গোপনীয়তা সংরক্ষণে সাহায্যী হতে পারে; আপনি কোন ডেটা পয়েন্টকে তার ক্লাস্টার আইডি দ্বারা উল্লেখ করতে পারেন যা বেশি তথ্যপ্রদানকারী শনাক্তযোগ্য ডেটার বদলে। আপনি কি অন্য কোনো কারণ ভাবতে পারেন কেন আপনি ক্লাস্টার আইডি ব্যবহার করবেন ক্লাস্টারের অন্যান্য উপাদানের বদলে?
ক্লাস্টারিং কৌশল সম্পর্কে আপনার জ্ঞান গভীর করুন এই [শেখার মডিউলে](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott)।
এই [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) এ ক্লাস্টারিং টেকনিকের গভীর জ্ঞান অর্জন করুন
## ক্লাস্টারিং শুরু করা
## ক্লাস্টারিং শুরু
[Scikit-learn একটি বড় পরিসরের](https://scikit-learn.org/stable/modules/clustering.html) পদ্ধতি প্রদান করে ক্লাস্টারিং সম্পাদনের জন্য। আপনি কোনটি বেছে নেবেন তা আপনার ব্যবহার ক্ষেত্রে নির্ভর করবে। ডকুমেন্টেশন অনুযায়ী, প্রতিটি পদ্ধতির বিভিন্ন সুবিধা রয়েছে। এখানে Scikit-learn দ্বারা সমর্থিত পদ্ধতিগুলির একটি সরলীকৃত টেবিল এবং তাদের উপযুক্ত ব্যবহার ক্ষেত্র দেওয়া হলো:
[Scikit-learn অনেক পদ্ধতি](https://scikit-learn.org/stable/modules/clustering.html) প্রদান করে ক্লাস্টার র জন্য। আপনি যেটি নির্বাচন করবেন তা আপনার ব্যবহার অনুযায়ী নির্ভর করবে। ডকুমেন্টেশন অনুযায়ী, প্রতিটি পদ্ধতির বিভিন্ন সুবিধা আছে। এখানে সিম্প্লিফায়েড টেবিল দেওয়া হলো Scikit-learn দ্বারা সমর্থিত পদ্ধতিগুলির এবং তাদের যথাযথ ব্যবহারের ক্ষেত্র:
| পদ্ধতির নাম | ব্যবহার ক্ষেত্র |
| পদ্ধতির নাম | ব্যবহারের ক্ষেত্র |
| :--------------------------- | :--------------------------------------------------------------------- |
| K-Means | সাধারণ উদ্দেশ্য, ইনডাকটিভ |
| Affinity propagation | অনেক, অসম ক্লাস্টার, ইনডাকটিভ |
| Mean-shift | অনেক, অসম ক্লাস্টার, ইনডাকটিভ |
| Spectral clustering | কম, সম ক্লাস্টার, ট্রান্সডাকটিভ |
| Ward hierarchical clustering | অনেক, সীমাবদ্ধ ক্লাস্টার, ট্রান্সডাকটিভ |
| Agglomerative clustering | অনেক, সীমাবদ্ধ, অ-ইউক্লিডিয়ান দূরত্ব, ট্রান্সডাকটিভ |
| DBSCAN | অ-সমতল জ্যামিতি, অসম ক্লাস্টার, ট্রান্সডাকটিভ |
| OPTICS | অ-সমতল জ্যামিতি, অসম ক্লাস্টার পরিবর্তনশীল ঘনত্বের সাথে, ট্রান্সডাকটিভ |
| Gaussian mixtures | সমতল জ্যামিতি, ইনডাকটিভ |
| BIRCH | বড় ডেটাসেট আউটলায়ার সহ, ইনডাকটিভ |
> 🎓 আমরা কীভাবে ক্লাস্টার তৈরি করি তা অনেকাংশে নির্ভর করে কীভাবে আমরা ডেটা পয়েন্টগুলোকে গ্রুপে সংগ্রহ করি। চলুন কিছু শব্দভাণ্ডার বিশ্লেষণ করি:
| K-Means | সাধারণ উদ্দেশ্য, inductive |
| Affinity propagation | অনেক, অসম ক্লাস্টার, inductive |
| Mean-shift | অনেক, অসম ক্লাস্টার, inductive |
| Spectral clustering | কম, সমান ক্লাস্টার, transductive |
| Ward hierarchical clustering | অনেক, সীমাবদ্ধ ক্লাস্টার, transductive |
| Agglomerative clustering | অনেক, সীমাবদ্ধ, non Euclidean দূরত্বের ক্ষেত্রে, transductive |
| DBSCAN | non-flat জ্যামিতি, অসম ক্লাস্টার, transductive |
| OPTICS | non-flat জ্যামিতি, ভিন্ন ঘনত্ব সহ অসম ক্লাস্টার, transductive |
| Gaussian mixtures | সমতল জ্যামিতি, inductive |
| BIRCH | বড় ডেটাসেট আউটলাইয়ার সহ, inductive |
> 🎓 আমরা ক্লাস্টার কিভাবে তৈরি করি তার অনেক কিছু নির্ভর করে আমরা ডেটা পয়েন্টগুলি কিভাবে গ্রুপে সংগ্রহ করি তার উপর। কিছু শব্দভান্ডার দেখে নিই:
>
> 🎓 ['ট্রান্সডাকটিভ' বনাম 'ইনডাকটিভ'](https://wikipedia.org/wiki/Transduction_(machine_learning))
> 🎓 ['Transductive' বনাম 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))
>
> ট্রান্সডাকটিভ ইনফারেন্স পর্যবেক্ষিত প্রশিক্ষণ কেস থেকে নির্ধারিত হয় যা নির্দিষ্ট টেস্ট কেসের সাথে মানচিত্র করে। ইনডাকটিভ ইনফারেন্স প্রশিক্ষণ কেস থেকে নির্ধারিত হয় যা সাধারণ নিয়মে মানচিত্র করে এবং তারপর টেস্ট কেসে প্রয়োগ করা হয়
> Transductive inference পর্যবেক্ষণকৃত প্রশিক্ষণ কেস থেকে উদ্ভূত যা নির্দিষ্ট টেস্ট কেসের সাথে মানানসই হয়। Inductive inference হলো প্রশিক্ষণ কেস থেকে উদ্ভূত সাধারণ নিয়ম যা পরে টেস্ট কেসে প্রয়োগ করা হয়
>
> উদাহরণ: কল্পনা করুন আপনার কাছে একটি ডেটাসেট আছে যা আংশিকভাবে লেবেলযুক্ত। কিছু জিনিস 'রেকর্ড', কিছু 'সিডি', এবং কিছু ফাঁকা। আপনার কাজ হলো ফাঁকাগুলোর জন্য লেবেল প্রদান করা। যদি আপনি ইনডাকটিভ পদ্ধতি বেছে নেন, আপনি একটি মডেল প্রশিক্ষণ করবেন 'রেকর্ড' এবং 'সিডি' খুঁজে বের করার জন্য এবং সেই লেবেলগুলো আপনার লেবেলবিহীন ডেটায় প্রয়োগ করবেন। এই পদ্ধতি 'ক্যাসেট' হিসেবে জিনিসগুলো শ্রেণীবদ্ধ করতে সমস্যায় পড়বে। অন্যদিকে, একটি ট্রান্সডাকটিভ পদ্ধতি এই অজানা ডেটা আরও কার্যকরভাবে পরিচালনা করে কারণ এটি একই ধরনের আইটেমগুলোকে একসাথে গ্রুপ করার চেষ্টা করে এবং তারপর একটি গ্রুপে লেবেল প্রয়োগ করে। এই ক্ষেত্রে, ক্লাস্টারগুলো 'গোলাকার সঙ্গীত জিনিস' এবং 'চৌকো সঙ্গীত জিনিস' প্রতিফলিত করতে পারে
> উদাহরণ: ধরা যাক আপনার ডেটাসেট আংশিকভাবে লেবেল দেওয়া। কিছু 'রেকর্ড', কিছু 'সিডি', আর কিছু ফাঁকা। আপনার কাজ ফাঁকাগুলো লেবেল দেওয়া। inductive পদ্ধতি বেছে নিলে আপনি একটি মডেল প্রশিক্ষণ দেবেন 'রেকর্ড' ও 'সিডি' খুঁজে পেতে এবং লেবেল প্রয়োগ করতে। এই পদ্ধতি অসুবিধা পাবে প্রকৃত 'ক্যাসেট' সনাক্ত করতে। অপরদিকে, transductive পদ্ধতি এই অজানা ডেটাকে আরও কার্যকরভাবে গোষ্ঠীভুক্ত করে এবং গোষ্ঠীতে লেবেল প্রয়োগ করে। এখানে ক্লাস্টারগুলি হতে পারে 'বৃত্তাকৃত সঙ্গীতজিনিস' এবং 'বর্গাকৃত সঙ্গীতজিনিস'
>
> 🎓 ['অ-সমতল' বনাম 'সমতল' জ্যামিতি](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
> 🎓 ['Non-flat' বনাম 'flat' জ্যামিতি](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
>
> গাণিতিক শব্দভাণ্ডার থেকে উদ্ভূত, অ-সমতল বনাম সমতল জ্যামিতি পয়েন্টগুলোর মধ্যে দূরত্ব পরিমাপের পদ্ধতি বোঝায়, যা হয় 'সমতল' ([ইউক্লিডিয়ান](https://wikipedia.org/wiki/Euclidean_geometry)) বা 'অ-সমতল' (অ-ইউক্লিডিয়ান) জ্যামিতিক পদ্ধতিতে করা হয়
> গাণিতিক পরিভাষা থেকে উদ্ভূত, non-flat বনাম flat জ্যামিতি বোঝায় পয়েন্টগুলোর মধ্যবর্তী দূরত্ব পরিমাপ ফ্ল্যাট ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) বা non-flat (non-Euclidean) জ্যামিতিক পদ্ধতি দ্বারা
>
>'সমতল' এই প্রসঙ্গে ইউক্লিডিয়ান জ্যামিতি বোঝায় (যার কিছু অংশ 'প্লেন' জ্যামিতি হিসেবে শেখানো হয়), এবং অ-সমতল অ-ইউক্লিডিয়ান জ্যামিতি বোঝায়। মেশিন লার্নিং এর সাথে জ্যামিতির কী সম্পর্ক? যেহেতু দুটি ক্ষেত্রই গণিতের উপর ভিত্তি করে, পয়েন্টগুলোর মধ্যে দূরত্ব পরিমাপের একটি সাধারণ উপায় থাকতে হবে, এবং এটি ডেটার প্রকৃতির উপর নির্ভর করে 'সমতল' বা 'অ-সমতল' পদ্ধতিতে করা যেতে পারে। [ইউক্লিডিয়ান দূরত্ব](https://wikipedia.org/wiki/Euclidean_distance) দুটি পয়েন্টের মধ্যে একটি রেখাংশের দৈর্ঘ্য হিসেবে পরিমাপ করা হয়। [অ-ইউক্লিডিয়ান দূরত্ব](https://wikipedia.org/wiki/Non-Euclidean_geometry) একটি বক্ররেখা বরাবর পরিমাপ করা হয়। যদি আপনার ডেটা, ভিজ্যুয়ালাইজড, একটি প্লেনে না থাকে, তাহলে এটি পরিচালনা করার জন্য একটি বিশেষ অ্যালগরিদম ব্যবহার করতে হতে পারে।
>'Flat' এই প্রসঙ্গে Euclidean জ্যামিতির জন্য ব্যবহৃত হয় (যা plane জ্যামিতির অংশ), আর non-flat non-Euclidean জ্যামিতি নির্দেশ করে। মেশিন লার্নিং এর সাথে জ্যামিতির সম্পর্ক কী? গাণিতিক দুই ক্ষেত্র হিসাবে, ক্লাস্টারগুলির পয়েন্টগুলির মধ্যবর্তী দূরত্ব পরিমাপের একটি সাধারণ পদ্ধতি থাকতে হবে, যা হতে পারে 'flat' বা 'non-flat', ডেটার প্রকৃতির উপর নির্ভর করে। [Euclidean দূরত্ব](https://wikipedia.org/wiki/Euclidean_distance) হলো দুই পয়েন্টের মধ্যে সরলরেখার দৈর্ঘ্য। [Non-Euclidean দূরত্ব](https://wikipedia.org/wiki/Non-Euclidean_geometry) একটি বক্ররেখার沿 পরিমাপ করা হয়। যদি আপনার ডেটা প্লেনে না থাকে এমন মনে হয়, তাহলে বিশেষ অ্যালগরিদম লাগতে পারে তা পরিচালনা করতে।
>
![সমতল বনাম অ-সমতল জ্যামিতি ইনফোগ্রাফিক](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png)
![Flat vs Nonflat Geometry Infographic](../../../../translated_images/bn/flat-nonflat.d1c8c6e2a96110c1.webp)
> ইনফোগ্রাফিক: [Dasani Madipalli](https://twitter.com/dasani_decoded)
>
> 🎓 ['দূরত্ব'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)
> 🎓 ['Distances'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)
>
> ক্লাস্টারগুল তাদের দূরত্ব ম্যাট্রিক্স দ্বারা সংজ্ঞায়িত হয়, যেমন পয়েন্টগুলোর মধ্যে দূরত্ব। এই দূরত্ব কয়েকটি উপায়ে পরিমাপ করা যেতে পারে। ইউক্লিডিয়ান ক্লাস্টারগুলো পয়েন্ট মানগুলোর গড় দ্বারা সংজ্ঞায়িত হয় এবং একটি 'সেন্ট্রয়েড' বা কেন্দ্র বিন্দু থাকে। দূরত্বগুলো সেই সেন্ট্রয়েডের দূরত্ব দ্বারা পরিমাপ করা হয়। অ-ইউক্লিডিয়ান দূরত্ব 'ক্লাস্ট্রয়েড' বোঝায়, যা অন্যান্য পয়েন্টগুলোর সবচেয়ে কাছাকাছি বিন্দু। ক্লাস্ট্রয়েড বিভিন্ন উপায়ে সংজ্ঞায়িত করা যেতে পারে।
> ক্লাস্টারগুলি তাদের দূরত্ব ম্যাট্রিক্স দ্বারা সংজ্ঞায়িত, অর্থাৎ পয়েন্টগুলোর মধ্যবর্তী দূরত্ব। এই দূরত্ব কয়েকটি পদ্ধতিতে নির্ণয় করা যায়। Euclidean ক্লাস্টারগুলি পয়েন্ট মানের গড় দ্বারা সংজ্ঞায়িত হয় এবং একটি 'সেন্ট্রয়েড' বা কেন্দ্র পয়েন্ট থাকে। দূরত্ব পরিমাপ হয় সেই সেন্ট্রয়েডের প্রতি দূরত্ব হিসেবে। Non-Euclidean দূরত্বগুলো 'ক্লাস্ট্রয়েড' নির্দেশ করে, যা অন্যান্য পয়েন্টের সবচেয়ে কাছাকাছি পয়েন্ট। ক্লাস্ট্রয়েড বিভিন্নভাবে সংজ্ঞায়িত হতে পারে।
>
> 🎓 ['সীমাবদ্ধ'](https://wikipedia.org/wiki/Constrained_clustering)
> 🎓 ['Constrained'](https://wikipedia.org/wiki/Constrained_clustering)
>
> [সীমাবদ্ধ ক্লাস্টারিং](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) এই অপরীক্ষিত পদ্ধতিতে 'আংশিক-পরীক্ষিত' শিক্ষণ প্রবর্তন করে। পয়েন্টগুলোর মধ্যে সম্পর্কগুলো 'লিঙ্ক করা যাবে না' বা 'লিঙ্ক করতে হবে' হিসেবে চিহ্নিত করা হয়, তাই কিছু নিয়ম ডেটাসেটে প্রয়োগ করা হয়
> [Constrained Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) এ 'semi-supervised' লার্নিং প্রয়োগ করা হয় এই unsupervised পদ্ধতির মধ্যে। পয়েন্টের সম্পর্ক 'cannot link' বা 'must-link' হিসাবে নির্দিষ্ট করা হয় যাতে কিছু নিয়ম ডেটাতে প্রয়োগ হয়
>
> উদাহরণ: যদি একটি অ্যালগরিদমকে একটি লেবেলবিহীন বা আংশিক-লেবেলযুক্ত ডেটার ব্যাচে মুক্ত করা হয়, এটি যে ক্লাস্টার তৈরি করবে তা নিম্নমানের হতে পারে। উপরের উদাহরণে, ক্লাস্টারগুলো 'গোলাকার সঙ্গীত জিনিস', 'চৌকো সঙ্গীত জিনিস', 'ত্রিভুজাকার জিনিস', এবং 'কুকি' গ্রুপ করতে পারে। যদি কিছু সীমাবদ্ধতা বা অনুসরণ করার নিয়ম দেওয়া হয় ("আইটেমটি প্লাস্টিকের তৈরি হতে হবে", "আইটেমটি সঙ্গীত তৈরি করতে সক্ষম হতে হবে") এটি অ্যালগরিদমকে আরও ভালো পছন্দ করতে সাহায্য করতে পারে
>উদাহরণ: একটি অ্যালগরিদম যদি একটি লেবেলবিহীন বা অর্ধ লেবেলযুক্ত ডেটার উপর মুক্তভাবে কাজ করে, তবে তৈরি ক্লাস্টারগুলি কম মানের হতে পারে। উপরের উদাহরণে, ক্লাস্টার হতে পারে 'বৃত্তাকার সঙ্গীত জিনিস', 'বর্গাকার সঙ্গীত জিনিস', 'ত্রিভুজাকার জিনিস' এবং 'কুকিজ'। নিয়ম বা সীমাবদ্ধতা যেমন ("আইটেমটি প্লাস্টিকের হতে হবে", "আইটেমটিকে সঙ্গীত তৈরি করতে সক্ষম হতে হবে") থাকলে অ্যালগরিদমের সিদ্ধান্ত ভালো হয়
>
> 🎓 'ঘনত্ব'
> 🎓 ঘনত্ব 'Density'
>
> 'শব্দযুক্ত' ডেটাকে 'ঘন' বলে মনে করা হয়। প্রতিটি ক্লাস্টারের পয়েন্টগুলোর মধ্যে দূরত্ব পরীক্ষা করলে দেখা যেতে পারে যে এটি বেশি বা কম ঘন, বা 'ভিড়যুক্ত', এবং তাই এই ডেটা উপযুক্ত ক্লাস্টারিং পদ্ধতি দিয়ে বিশ্লেষণ করা প্রয়োজন। [এই নিবন্ধটি](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) একটি শব্দযুক্ত ডেটাসেটের অসম ক্লাস্টার ঘনত্ব বিশ্লেষণ করতে K-Means ক্লাস্টারিং বনাম HDBSCAN অ্যালগরিদম ব্যবহারের পার্থক্য প্রদর্শন করে
> 'নোয়িজি' ডেটা 'dense' হিসেবে বিবেচিত। প্রতিটি ক্লাস্টারের মধ্যবর্তী পয়েন্টের দূরত্ব বিশ্লেষণ করলে তা বেশ ঘন হতে পারে বা কম, অর্থাৎ 'crowded'। তাই এই ধরনের ডেটার উপযুক্ত ক্লাস্টারিং পদ্ধতি ব্যবহার জরুরি। [এই প্রবন্ধ](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) দেখায় কিভাবে K-Means ক্লাস্টারিং ও HDBSCAN অ্যালগরিদম ব্যবহার করে একটি গোলমেলপূর্ণ ডেটাসেটের অসম ঘনত্ব বিশ্লেষণ করা যায়
## ক্লাস্টারিং অ্যালগরিদম
ক্লাস্টারিং অ্যালগরিদমের সংখ্যা ১০০ এরও বেশি, এবং তাদের ব্যবহার ডেটার প্রকৃতির উপর নির্ভর করে। চলুন কিছু প্রধান অ্যালগরিদম আলোচনা করি:
একশোর বেশি ক্লাস্টারিং অ্যালগরিদম আছে, এবং তাদরে ব্যবহার নির্ভর করে ডেটার প্রকৃতির উপর। কিছু প্রধান পদ্ধতিগুলো আলোচনা করা যাক:
- **হায়ারারকিকাল ক্লাস্টারিং**। যদি একটি বস্তু তার নিকটবর্তী বস্তুর সাথে তার দূরত্বের ভিত্তিতে শ্রেণীবদ্ধ হয়, দূরের বস্তুর সাথে নয়, ক্লাস্টারগুলো তাদের সদস্যদের দূরত্বের ভিত্তিতে গঠিত হয়। Scikit-learn এর agglomerative ক্লাস্টারিং হায়ারারকিকাল
- **Hierarchical clustering**। যদি একটি বস্তুকে তার নিকটস্থ বস্তুর কাছাকাছি অবস্থানের ভিত্তিতে শ্রেণীবদ্ধ করা হয়, দূরবর্তী বস্তু নয়, তাহলে সদস্যদের দূরত্ব অনুসারে ক্লাস্টার গঠন হয়। Scikit-learn এর agglomerative clustering হলো hierarchical
![হায়ারারকিকাল ক্লাস্টারিং ইনফোগ্রাফিক](../../../../5-Clustering/1-Visualize/images/hierarchical.png)
![Hierarchical clustering Infographic](../../../../translated_images/bn/hierarchical.bf59403aa43c8c47.webp)
> ইনফোগ্রাফিক: [Dasani Madipalli](https://twitter.com/dasani_decoded)
- **সেন্ট্রয়েড ক্লাস্টারিং**। এই জনপ্রিয় অ্যালগরিদম 'k', বা তৈরি করার ক্লাস্টারের সংখ্যা নির্বাচন করার প্রয়োজন হয়, এরপর অ্যালগরিদম একটি ক্লাস্টারের কেন্দ্র বিন্দু নির্ধারণ করে এবং সেই বিন্দুর চারপাশে ডেটা সংগ্রহ করে। [K-means ক্লাস্টারিং](https://wikipedia.org/wiki/K-means_clustering) সেন্ট্রয়েড ক্লাস্টারিং এর একটি জনপ্রিয় সংস্করণ। কেন্দ্রটি নিকটতম গড় দ্বারা নির্ধারিত হয়, তাই নামটি। ক্লাস্টারের বর্গ দূরত্ব কমানো হয়
- **Centroid clustering**। এই জনপ্রিয় অ্যালগরিদমে 'k' বা ক্লাস্টারের সংখ্যা নির্বাচন করতে হয়, তারপর অ্যালগরিদম নির্ধারণ করে একটি ক্লাস্টারের কেন্দ্র এবং সেই কেন্দ্রের চারপাশে ডেটা জড়ো করে। [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) হলো centroid clustering এর একটি জনপ্রিয় ধরন। কেন্দ্রটি নিকটতম গড় দ্বারা নির্ধারিত হয়, তাই এর নাম। ক্লাস্টার থেকে বর্গাকার দূরত্ব সর্বনিম্ন হয়
![সেন্ট্রয়েড ক্লাস্টারিং ইনফোগ্রাফিক](../../../../5-Clustering/1-Visualize/images/centroid.png)
![Centroid clustering Infographic](../../../../translated_images/bn/centroid.097fde836cf6c918.webp)
> ইনফোগ্রাফিক: [Dasani Madipalli](https://twitter.com/dasani_decoded)
- **বিতরণ-ভিত্তিক ক্লাস্টারিং**। পরিসংখ্যানগত মডেলিং এর উপর ভিত্তি করে, বিতরণ-ভিত্তিক ক্লাস্টারিং একটি ডেটা পয়েন্ট একটি ক্লাস্টারের অন্তর্ভুক্ত হওয়ার সম্ভাবনা নির্ধারণ করে এবং সেই অনুযায়ী বরাদ্দ করে। Gaussian মিশ্রণ পদ্ধতি এই ধরনের অন্তর্ভুক্ত।
- **Distribution-based clustering**। পরিসাংখ্যিক মডেলিং নিয়ে গঠিত, distribution-based clustering তথ্য বিন্দুর ক্লাস্টারে অন্তর্ভুক্তির সম্ভাবনা নির্ধারণের ওপর ভিত্তি করে এবং সেসব অনুযায়ী নির্ধারণ করে। Gaussian mixture পদ্ধতি এর অন্তর্ভুক্ত।
- **ঘনত্ব-ভিত্তিক ক্লাস্টারিং**। ডেটা পয়েন্টগুলো তাদের ঘনত্বের ভিত্তিতে ক্লাস্টারে বরাদ্দ করা হয়, বা তাদের একে অপরের চারপাশে গ্রুপিং এর ভিত্তিতে। গ্রুপ থেকে দূরে থাকা ডেটা পয়েন্টগুলোকে আউটলায়ার বা শব্দ হিসেবে বিবেচনা করা হয়। DBSCAN, Mean-shift এবং OPTICS এই ধরনের অন্তর্ভুক্ত
- **Density-based clustering**। ডেটা পয়েন্টগুলো তাদের ঘনত্ব বা নিজেদের চারপাশে গুচ্ছিত হওয়ার ওপর ভিত্তি করে ক্লাস্টারে বরাদ্দ পায়। গুচ্ছ থেকে দূরে থাকা ডেটা পয়েন্ট আউটলার বা গোলমেল হিসেবে বিবেচিত হয়। DBSCAN, Mean-shift এবং OPTICS এই ধরনের ক্লাস্টারিং
- **গ্রিড-ভিত্তিক ক্লাস্টারিং**। বহু-মাত্রিক ডেটাসেটের জন্য, একটি গ্রিড তৈরি করা হয় এবং ডেটা গ্রিডের কোষগুলোর মধ্যে বিভক্ত করা হয়, ফলে ক্লাস্টার তৈরি হয়
- **Grid-based clustering**। মাল্টি ডাইমেনশনাল ডেটাসেটের জন্য একটি গ্রিড তৈরি করা হয় এবং ডেটাকে গ্রিডের সেলে ভাগ করা হয়, ফলে ক্লাস্টার তৈরি হয়
## অনুশীলন - আপনার ডেটা ক্লাস্টার করুন
ক্লাস্টারিং একটি কৌশল হিসেবে সঠিক ভিজ্যুয়ালাইজেশনের মাধ্যমে অনেক সাহায্য পায়, তাই চলুন আমাদের সঙ্গীত ডেটা ভিজ্যুয়ালাইজ করে শুরু করি। এই অনুশীলনটি আমাদের সিদ্ধান্ত নিতে সাহায্য করবে যে এই ডেটার প্রকৃতির জন্য কোন ক্লাস্টারিং পদ্ধতি সবচেয়ে কার্যকর হবে
ক্লাস্টারিং পদ্ধতিতে উপযুক্ত ভিজ্যুয়ালাইজেশন অত্যন্ত সহায়ক, তাই চলুন শুরু করি আমাদের সঙ্গীত ডেটা ভিজ্যুয়ালাইজ করে। এই অনুশীলন আমাদের সাহায্য করবে সিদ্ধান্ত নিতে কোন ক্লাস্টারিং পদ্ধতি এই ডেটার প্রকৃতির জন্য সবচেয়ে কার্যকর
1. এই ফোল্ডারে [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) ফাইলটি খুলুন।
1. এই ফোল্ডারে [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) ফাইলটি খুলুন।
1. ভালো ডেটা ভিজ্যুয়ালাইজেশনের জন্য `Seaborn` প্যাকেজ আমদানি করুন।
1. ভাল ডেটা ভিজ্যুয়ালাইজেশনের জন্য `Seaborn` প্যাকেজ ইমপোর্ট করুন।
```python
!pip install seaborn
```
1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) থেকে গান ডেটা যোগ করুন। গানগুলোর ডেটা নিয়ে একটি ডেটাফ্রেম লোড করুন। লাইব্রেরি আমদানি করে এবং ডেটা ডাম্প করে এই ডেটা এক্সপ্লোর করার জন্য প্রস্তুত হন:
1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) থেকে গান ডেটা যোগ করুন। গানের কিছু তথ্য নিয়ে একটি ডেটা ফ্রেম লোড করুন। ডেটা অনুসন্ধানের জন্য লাইব্রেরি ইমপোর্ট করে ডেটা প্রদর্শন করুন:
```python
import matplotlib.pyplot as plt
@ -120,21 +120,23 @@
df.head()
```
ডেটার প্রথম কেকটি লাইন পরীক্ষা করুন:
ডেটার প্রথম কয়েকটি লাইন পরীক্ষা করুন:
| | নাম | অ্যালবাম | শিল্পী | শিল্পীর প্রধান ঘরানা | প্রকাশের তারিখ | দৈর্ঘ্য | জনপ্রিয়তা | নাচের ক্ষমতা | অ্যাকোস্টিকনেস | শক্তি | ইনস্ট্রুমেন্টালনেস | লাইভনেস | শব্দের মাত্রা | বক্তৃতার ক্ষমতা | টেম্পো | সময়ের সিগনেচার |
| --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | --------------
| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 |
| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 |
| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 |
| | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature |
| --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- |
| 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 |
| 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 |
| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 |
| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 |
| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 |
1. ডেটাফ্রেম সম্পর্কে কিছু তথ্য পেতে `info()` কল করুন:
1. ডেটাফ্রেম সম্পর্কে কিছু তথ্য পান, `info()` কল করে:
```python
df.info()
```
আউটপুট দেখতে এমন হবে:
আউটপুট এরুপ দেখাবে:
```output
<class 'pandas.core.frame.DataFrame'>
@ -162,13 +164,13 @@
memory usage: 66.4+ KB
```
1. নাল মানগুলোর জন্য ডাবল-চেক করুন, `isnull()` কল করে এবং নিশ্চিত করুন যে যোগফল 0:
1. null মানের জন্য আবার যাচাই করুন, `isnull()` কল করে এবং মোট যোগফল 0 হওয়া যাচাই করুন:
```python
df.isnull().sum()
```
সবকিছু ঠিকঠাক:
দেখতে ভালো লাগছে:
```output
name 0
@ -207,11 +209,11 @@
| 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 |
| max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 |
> 🤔 যদি আমরা ক্লাস্টারিং নিয়ে কাজ করি, যা একটি আনসুপারভাইজড পদ্ধতি এবং লেবেলড ডেটার প্রয়োজন হয় না, তাহলে কেন আমরা এই ডেটা লেবেলসহ দেখাচ্ছি? ডেটা এক্সপ্লোরেশনের পর্যায়ে এগুলো কাজে লাগে, কিন্তু ক্লাস্টারিং অ্যালগরিদমের কাজের জন্য এগুলো প্রয়োজনীয় নয়। আপনি চাইলে কলাম হেডারগুলো সরিয়ে ডেটাকে কলাম নম্বর দিয়ে উল্লেখ করতে পারেন।
> 🤔 আমরা যদি লেবেলবিহীন ডেটা প্রয়োজন হয় এমন একটি অবিচ্ছিন্ন পদ্ধতি, ক্লাস্টারিং এর কাজ করি, তাহলে কেন আমরা এই লেবেলযুক্ত ডেটা দেখাচ্ছি? ডেটা অনুসন্ধানের পর্যায়ে এগুলো কাজে লাগতে পারে, তবে ক্লাস্টারিং অ্যালগরিদমগুলো কাজ করতে এই লেবেলগুলি প্রয়োজন হয় না। আপনি চাইলে কলাম হেডারগুলোও সরিয়ে দিতে পারেন এবং ডেটাতে কলাম নম্বর দ্বারা উল্লেখ করতে পারেন।
ডেটার সাধারণ মানগুলো দেখুন। লক্ষ্য করুন যে জনপ্রিয়তা '0' হতে পারে, যা এমন গানগুলো দেখায় যেগুলোর কোনো র‍্যাংকিং নেই। আসুন এগুলো শীঘ্রই সরিয়ে ফেলি
ডেটার সাধারণ মানগুলি দেখুন। লক্ষ্য করুন যে popularity মান হতে পারে, যা দেখায় যে কিছু গানের কোন র‍্যাঙ্কিং নেই। চলুন এবার এগুলো সরিয়ে দিই
1. বারপ্লট ব্যবহার করে সবচেয়ে জনপ্রিয় ঘরানাগুলো খুঁজে বের করুন:
1. সবচেয়ে জনপ্রিয় জেনার খুঁজে বের করতে একটি বারপ্লট ব্যবহার করুন:
```python
import seaborn as sns
@ -223,13 +225,13 @@
plt.title('Top genres',color = 'blue')
```
![most popular](../../../../5-Clustering/1-Visualize/images/popular.png)
![সবচেয়ে জনপ্রিয়](../../../../translated_images/bn/popular.9c48d84b3386705f.webp)
✅ যদি আপনি আরও শীর্ষ মান দেখতে চান, তাহলে `[:5]`-কে বড় মানে পরিবর্তন করুন, অথবা সরিয়ে ফেলুন সব দেখতে
✅ যদি আপনি আরও শীর্ষ মান দেখতে চান, তাহলে শীর্ষ `[:5]` বৃদ্ধি করুন বা পুরো অংশ সরিয়ে ফেলুন
লক্ষ্য করুন, যখন শীর্ষ ঘরানা 'Missing' হিসেবে বর্ণিত হয়, তখন এর অর্থ হলো Spotify এটি শ্রেণীবদ্ধ করেনি, তাই আসুন এটি সরিয়ে ফেলি
মনে রাখবেন, যখন শীর্ষ জেনার 'Missing' হিসেবে বর্ণিত হয়, তা মানে স্পটিফাই সেটিকে শ্রেণীবদ্ধ করতে পারেনি, তাই চলুন এটি থেকে মুক্তি পাওয়া যাক
1. মিসিং ডেটা সরিয়ে ফেলুন ফিল্টারিং করে
1. মিসিং ডেটা ফিল্টার করে সরিয়ে দিন
```python
df = df[df['artist_top_genre'] != 'Missing']
@ -240,11 +242,11 @@
plt.title('Top genres',color = 'blue')
```
খন ঘরানাগুলো পুনরায় পরীক্ষা করুন:
বার আবার জেনারগুলি যাচাই করুন:
![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png)
![সব জেনার](../../../../translated_images/bn/all-genres.1d56ef06cefbfcd6.webp)
1. এই ডেটাসেটে শীর্ষ তিনটি ঘরানা স্পষ্টভাবে আধিপত্য বিস্তার করে। আসুন `afro dancehall`, `afropop`, এবং `nigerian pop`-এর উপর মনোযোগ দিই, এবং অতিরিক্তভাবে ডেটাসেট থেকে এমন কিছু সরিয়ে ফেলি যার জনপ্রিয়তা মান 0 (যার অর্থ এটি ডেটাসেটে জনপ্রিয়তা দিয়ে শ্রেণীবদ্ধ হয়নি এবং আমাদের উদ্দেশ্যে এটি শোরগোল হিসেবে বিবেচিত হতে পারে):
1. দূর্ভাগ্যবশত, শীর্ষ তিনটি জেনার এই ডেটাসেটে আধিপত্য বিস্তার করে। আসুন আমরা `afro dancehall`, `afropop`, এবং `nigerian pop` উপর ফোকাস করি, এবং অতিরিক্তভাবে 0 popularity মান সহ ডেটা ফিল্টার করি (অর্থাৎ যেগুলোর popularity ডেটাসেটে শ্রেণীবদ্ধ হয়নি এবং আমাদের দৃষ্টিতে এটি নয়েজ হিসাবে বিবেচিত হতে পারে):
```python
df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')]
@ -256,7 +258,7 @@
plt.title('Top genres',color = 'blue')
```
1. দ্রুত পরীক্ষা করুন ডেটা কোনো বিশেষভাবে শক্তিশালী উপায়ে সম্পর্কিত কিনা:
1. দ্রুত একটি পরীক্ষা করুন দেখতে ডেটা কোন বিশেষ দৃঢ় সম্পর্ক আছে কিনা:
```python
corrmat = df.corr(numeric_only=True)
@ -264,21 +266,21 @@
sns.heatmap(corrmat, vmax=.8, square=True)
```
![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png)
![সম্পর্ক](../../../../translated_images/bn/correlation.a9356bb798f5eea5.webp)
একমাত্র শক্তিশালী সম্পর্ক হলো `energy` এবং `loudness`-এর মধ্যে, যা খুবই স্বাভাবিক, কারণ জোরে বাজানো গান সাধারণত বেশ শক্তিশালী হয়। অন্যথায়, সম্পর্কগুলো তুলনামূলকভাবে দুর্বল। এটি দেখতে আকর্ষণীয় হবে যে একটি ক্লাস্টারিং অ্যালগরিদম এই ডেটা থেকে কী বের করতে পারে।
একমাত্র দৃঢ় সম্পর্ক হল `energy` এবং `loudness` এর মাঝে, যা তাই আশ্চর্য নয়, কারণ জোরালো গান সাধারণত যথেষ্ট শক্তিশালী হয়। অন্যান্য সম্পর্কগুলি তুলনামূলকভাবে দুর্বল। দেখা দরকার ক্লাস্টারিং অ্যালগরিদম এই ডেটা থেকে কী ধরনের তথ্য বের করতে পারে।
> 🎓 মনে রাখুন, সম্পর্ক মানেই কারণ নয়! আমাদের কাছে সম্পর্কের প্রমাণ আছে, কিন্তু কারণের প্রমাণ নেই। একটি [মজার ওয়েবসাইট](https://tylervigen.com/spurious-correlations) কিছু ভিজ্যুয়াল দেখায় যা এই বিষয়টি জোর দিয়ে তুলে ধরে
> 🎓 লক্ষ করুন যে সম্পর্ক মানে কারণ নয়! আমরা সম্পর্কের প্রমাণ পাই কিন্তু কারণ প্রমাণ পাই না। একটি [বিনোদনমূলক ওয়েবসাইট](https://tylervigen.com/spurious-correlations) কিছু চিত্র দেখায় যা এই বিষয়টি জোর দেয়
এই ডেটাসেটে একটি গানের জনপ্রিয়তা এবং নাচের যোগ্যতার মধ্যে কোনো মিল আছে কি? একটি FacetGrid দেখায় যে ঘরানার পার্থক্য ছাড়াই কিছু কেন্দ্রীভূত বৃত্ত রয়েছে। এটি কি হতে পারে যে নাইজেরিয়ান রুচি এই ঘরানার জন্য একটি নির্দিষ্ট নাচের যোগ্যতার স্তরে মিলিত হয়?
এই ডেটাসেটে গানটির জনপ্রিয়তা এবং নাচের যোগ্যতার মধ্যে কি কোনো মিল পাওয়া যায়? একটি FacetGrid দেখায় যে, যেকোনো জেনার নির্বিশেষে, এখানে সমকেন্দ্রিক বৃত্ত আঁকা হয়েছে। হতে পারে নাইজেরিয়ান স্বাদ একটি নির্দিষ্ট নাচের যোগ্যতার স্তরে সম্মিলিত হচ্ছে এই জেনারে?
✅ বিভিন্ন ডেটাপয়েন্ট (energy, loudness, speechiness) এবং আরও বা ভিন্ন সঙ্গীত ঘরানা চেষ্টা করুন। আপনি কী আবিষ্কার করতে পারেন? ডেটার সাধারণ বিস্তৃতি দেখতে `df.describe()` টেবিলটি দেখুন।
✅ বিভিন্ন ডেটা পয়েন্ট (energy, loudness, speechiness) এবং আরও বা ভিন্ন সঙ্গীত শৈলী চেষ্টা করুন। আপনি কী জানতে পারেন? সার্বিক ডেটা পয়েন্টের বিস্তৃতির জন্য `df.describe()` টেবিলটি দেখুন।
### অনুশীলন - ডেটা বিতরণ
জনপ্রিয়তার উপর ভিত্তি করে নাচের যোগ্যতার ধারণায় এই তিনটি ঘরানা কি উল্লেখযোগ্যভাবে ভিন্ন?
এই তিনটি জেনার পার্থক্যপূর্ণভাবে তাদের নাচের যোগ্যতার ধারণা ব্যক্ত করে কি না, জনপ্রিয়তার ভিত্তিতে?
1. আমাদের শীর্ষ তিনটি ঘরানার ডেটা বিতরণ পরীক্ষা করুন জনপ্রিয়তা এবং নাচের যোগ্যতার জন্য একটি প্রদত্ত x এবং y অক্ষ বরাবর।
1. আমাদের শীর্ষ তিনটি জেনারের জনপ্রিয়তা এবং নাচের যোগ্যতার ডেটা বিতরণ নিরীক্ষণ করুন নির্দিষ্ট x এবং y অক্ষ বরাবর।
```python
sns.set_theme(style="ticks")
@ -290,13 +292,13 @@
)
```
আপনি একটি সাধারণ মিলন বিন্দুর চারপাশে কেন্দ্রীভূত বৃত্ত আবিষ্কার করতে পারেন, যা পয়েন্টগুলোর বিতরণ দেখায়
আপনি সাধারণ সম্মিলিত বিন্দুর চারপাশে সমকেন্দ্রিক বৃত্ত দেখতে পাবেন, যা পয়েন্টগুলির বিতরণ দেখাচ্ছে
> 🎓 লক্ষ্য করুন, এই উদাহরণটি একটি KDE (Kernel Density Estimate) গ্রাফ ব্যবহার করে যা ডেটাকে একটি ধারাবাহিক সম্ভাব্য ঘনত্ব বক্ররেখা দিয়ে উপস্থাপন করে। এটি আমাদের একাধিক বিতরণ নিয় কাজ কার সময় ডেটা ব্যাখ্যা করতে সাহায্য করে।
> 🎓 লক্ষ্য করুন এই উদাহরণে KDE (Kernel Density Estimate) গ্রাফ ব্যবহার করা হয়েছে যা ধারাবাহিক সম্ভাব্যতা ঘনত্ব বক্ররেখা দ্বারা ডেটা উপস্থাপন করে। এটি আমাদের একাধিক বিতরণের ডেটা ব্যাখ্যা করতে সাহায্য করে।
সাধারণভাবে, তিনটি ঘরানা জনপ্রিয়তা এবং নাচের যোগ্যতার ক্ষেত্রে আলগাভাবে মিলিত হয়। এই আলগা-সংযুক্ত ডেটায় ক্লাস্টার নির্ধারণ করা একটি চ্যালেঞ্জ হবে:
সাধারনত, এই তিনটি জেনার তাদের জনপ্রিয়তা এবং নাচের যোগ্যতার দিক থেকে আলাদাভাবে হালকাভাবে সঙ্গতিপূর্ণ। এই ঢিলেঢালা সঙ্গতিপূর্ণ ডেটায় ক্লাস্টার নির্ধারণ করা একটি চ্যালেঞ্জ হবে:
![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png)
![বিতরণ](../../../../translated_images/bn/distribution.9be11df42356ca95.webp)
1. একটি স্ক্যাটার প্লট তৈরি করুন:
@ -306,31 +308,33 @@
.add_legend()
```
একই অক্ষের একটি স্ক্যাটারপ্লট একটি মিলিত প্যাটার্ন দেখা
একই অক্ষের স্ক্যাটারপ্লট একটি অনুরূপ সম্মিলিত প্যাটার্ন দেখায়
![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png)
![Facetgrid](../../../../translated_images/bn/facetgrid.9b2e65ce707eba1f.webp)
সাধারণভাবে, ক্লাস্টারিংয়ের জন্য, আপনি ডেটার ক্লাস্টার দেখানোর জন্য স্ক্যাটারপ্লট ব্যবহার করতে পারেন, তাই এই ধরনের ভিজ্যুয়ালাইজেশন আয়ত্ত করা খুবই কার্যকর। পরবর্তী পাঠে, আমরা এই ফিল্টার করা ডেটা নিয়ে কাজ করব এবং k-means ক্লাস্টারিং ব্যবহার করে এই ডেটায় এমন গ্রুপ আবিষ্কার করব যা আকর্ষণীয়ভাবে ওভারল্যাপ করে।
সাধারণত, ক্লাস্টারিং এর জন্য, আপনি ক্লাস্টার প্রদর্শনের জন্য স্ক্যাটারপ্লট ব্যবহার করতে পারেন, তাই এই ধরনের ভিজ্যুয়ালাইজেশন আয়ত্ত করা খুবই উপকারী। পরবর্তী পাঠে, আমরা এই ফিল্টার করা ডেটা নিয়ে k-means ক্লাস্টারিং ব্যবহার করব এমন গোষ্ঠী আবিষ্কার করতে যা আকর্ষণীয়ভাবে একত্রিত হয়েছে।
---
## 🚀চ্যালেঞ্জ
পরবর্তী পাঠের প্রস্তুতির জন্য, একটি চার্ট তৈরি করুন বিভিন্ন ক্লাস্টারিং অ্যালগরিদম সম্পর্কে যা আপনি আবিষ্কার করতে পারেন এবং প্রোডাকশন পরিবেশে ব্যবহার করতে পারেন। ক্লাস্টারিং ক ধরনের সমস্যার সমাধান করােষটা করছে?
পরবর্তী পাঠের প্রস্তুতিতে, আপনি বিভিন্ন ক্লাস্টারিং অ্যালগরিদম নিয়ে একটি চার্ট তৈরি করুন যা আপনি আবিষ্কার করতে পারেন এবং প্রোডাকশন পরিবেশে ব্যবহার করতে পারেন। ক্লাস্টারিং কোন ধরনের সমস্যার সমাধান করতে চাচ্ছে?
## [পোস্ট-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ml/)
## পর্যালোচনা ও স্ব-অধ্য
## পর্যালোচনা ও স্ব-অধ্যয়
ক্লাস্টারিং অ্যালগরিদম প্রয়োগ করার আগে, আমরা শিখেছি, আপনার ডেটাসেটের প্রকৃতি বোঝা একটি ভালো ধারণা। এই বিষয়ে আরও পড়ুন [এখানে](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)
ক্লাস্টারিং অ্যালগরিদম প্রয়োগের আগে, যেভাবে শিখেছি, আপনার ডেটাসেটের প্রকৃতি বুঝে নেওয়া ভাল। এই বিষয় সম্পর্কে আরও পড়ুন [এখানে](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)
[এই সহায়ক নিবন্ধটি](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) বিভিন্ন ডেটা আকারের ভিত্তিতে বিভিন্ন ক্লাস্টারিং অ্যালগরিদম কীভাবে আচরণ করে তা ব্যাখ্যা করে।
[এই সাহায্যকারী নিবন্ধটি](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) বিভিন্ন ক্লাস্টারিং অ্যালগরিদমের আচরণ কেমন হয় বিভিন্ন ডেটা আকৃতির ক্ষেত্রে, তা ব্যাখ্যা করে।
## অ্যাসাইনমেন্ট
## সাইনমেন্ট
[ক্লাস্টারিংয়ের জন্য অন্যান্য ভিজ্যুয়ালাইজেশন গবেষণা করুন](assignment.md)
[ক্লাস্টারিং এর জন্য অন্যান্য ভিজ্যুয়ালাইজেশন অনুসন্ধান করুন](assignment.md)
---
**অস্বীকৃতি**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**অস্বীকৃতি**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। যদিও আমরা শুদ্ধতার জন্য চেষ্টা করি, অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল নথিটি তার স্বভাষায় কর্তৃত্বপূর্ণ উৎস হিসেবে বিবেচিত হওয়া উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদের ব্যবহারে প্রয়োজনীয় ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়বদ্ধ নই।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -1,7 +1,7 @@
{
"1-Introduction/1-intro-to-ML/README.md": {
"original_hash": "69389392fa6346e0dfa30f664b7b6fec",
"translation_date": "2025-09-06T06:14:20+00:00",
"original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0",
"translation_date": "2026-05-26T23:01:21+00:00",
"source_file": "1-Introduction/1-intro-to-ML/README.md",
"language_code": "mr"
},
@ -240,8 +240,8 @@
"language_code": "mr"
},
"5-Clustering/1-Visualize/README.md": {
"original_hash": "730225ea274c9174fe688b21d421539d",
"translation_date": "2025-09-06T06:09:41+00:00",
"original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd",
"translation_date": "2026-05-26T23:00:53+00:00",
"source_file": "5-Clustering/1-Visualize/README.md",
"language_code": "mr"
},

@ -1,150 +1,157 @@
# मशीन लर्निंगची ओळख
# मशीन शिक्षणाची ओळख
## [पूर्व-व्याख्यान प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ml/)
## [पूर्व-व्याख्यान क्विझ](https://ff-quizzes.netlify.app/en/ml/)
---
[![शिकणाऱ्यांसाठी मशीन लर्निंग - मशीन लर्निंगची सुरुवात](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "शिकणाऱ्यांसाठी मशीन लर्निंग - मशीन लर्निंगची सुरुवात")
[![सुरुवातीसाठी एमएल - सुरुवातीसाठी मशीन शिक्षणाची ओळख](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "सुरुवातीसाठी एमएल - सुरुवातीसाठी मशीन शिक्षणाची ओळख")
> 🎥 वरील प्रतिमेवर क्लिक करा आणि या धड्याचा व्हिडिओ पहा.
> 🎥 या धड्यादरम्यान काम करणाऱ्या लघु व्हिडिओसाठी वरील प्रतिमावर क्लिक करा.
शिकणाऱ्यांसाठी क्लासिकल मशीन लर्निंग या कोर्समध्ये आपले स्वागत आहे! तुम्ही या विषयात पूर्णपणे नवीन असाल किंवा अनुभवी ML व्यावसायिक असाल ज्यांना एखाद्या क्षेत्रात आपले ज्ञान ताजे करायचे असेल, आम्ही तुम्हाला आमच्यासोबत सामील होण्यासाठी आनंदाने स्वागत करतो! आम्ही तुमच्या ML अभ्यासासाठी एक मैत्रीपूर्ण प्रारंभिक ठिकाण तयार करू इच्छितो आणि तुमच्या [प्रतिक्रियेचे](https://github.com/microsoft/ML-For-Beginners/discussions) मूल्यांकन, प्रतिसाद आणि समावेश करण्यास तयार आहोत.
नवशिक्यांसाठी पारंपरिक मशीन शिक्षणाविषयी या कोर्समध्ये आपले स्वागत आहे! आपण या विषयावर पूर्णपणे नवीन असाल किंवा एका अनुभवी एमएल व्यावसायिक असाल आणि एका क्षेत्रात सुधारणा करायची असेल, आम्हाला आपल्याला आमच्यात सामील होत पाहून आनंद होतो! आम्हाला आपला एमएल अभ्यास सुरू करण्यासाठी एक मैत्रीपूर्ण ठिकाण तयार करायचे आहे आणि आपला [प्रतिक्रिया](https://github.com/microsoft/ML-For-Beginners/discussions) मूल्यांकन करण्यासाठी, प्रतिसाद देण्यासाठी आणि समाविष्ट करण्यासाठी आम्हाला आनंद होईल.
[![मशीन लर्निंगची ओळख](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "मशीन लर्निंगची ओळख")
[![एमएलची ओळख](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "एमएलची ओळख")
> 🎥 वरील प्रतिमेवर क्लिक करा: MIT चे जॉन गुट्टाग मशीन लर्निंगची ओळख करून देतात
> 🎥 वरील प्रतिमावर क्लिक करा: एमआयटीचे जॉन गट्टाग मशीन शिक्षणाची ओळख करून देतात
---
## मशीन लर्निंगची सुरुवात
## मशीन शिक्षणासह सुरूवात करणे
या अभ्यासक्रमाला सुरुवात करण्यापूर्वी, तुमचा संगणक स्थानिक स्तरावर नोटबुक चालवण्यासाठी तयार असणे आवश्यक आहे.
या अभ्यासक्रमास सुरू करण्यापूर्वी, आपल्याला आपल्या संगणकास स्थानिकपणे नोटबुक चालविण्यासाठी सेटअप करणे आवश्यक आहे.
- **तुमचे मशीन कॉन्फिगर करा या व्हिडिओंसह**. तुमच्या सिस्टममध्ये [Python कसे इंस्टॉल करायचे](https://youtu.be/CXZYvNRIAKM) आणि विकासासाठी [टेक्स्ट एडिटर कसे सेटअप करायचे](https://youtu.be/EU8eayHWoZg) हे शिकण्यासाठी खालील लिंक वापरा.
- **Python शिका**. [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) या प्रोग्रामिंग भाषेची मूलभूत समज असणे शिफारसीय आहे, जी डेटा सायंटिस्टसाठी उपयुक्त आहे आणि आम्ही या कोर्समध्ये वापरतो.
- **Node.js आणि JavaScript शिका**. आम्ही या कोर्समध्ये वेब अॅप्स तयार करताना काही वेळा JavaScript वापरतो, त्यामुळे तुम्हाला [node](https://nodejs.org) आणि [npm](https://www.npmjs.com/) इंस्टॉल करणे आवश्यक आहे, तसेच Python आणि JavaScript विकासासाठी [Visual Studio Code](https://code.visualstudio.com/) उपलब्ध असणे आवश्यक आहे.
- **GitHub खाते तयार करा**. तुम्ही आम्हाला [GitHub](https://github.com) वर शोधले असल्याने, तुमच्याकडे आधीच खाते असण्याची शक्यता आहे, परंतु नसल्यास, एक तयार करा आणि नंतर तुमच्यासाठी या अभ्यासक्रमाची फोर्क करा. (आम्हाला स्टार देण्यास मोकळे 😊)
- **Scikit-learn एक्सप्लोर करा**. [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) या ML लायब्ररीशी परिचित व्हा, ज्याचा संदर्भ आम्ही या धड्यांमध्ये घेतो.
- **या व्हिडिओंसह आपल्या मशीनचे कॉन्फिगर करा**. आपल्या प्रणालीमध्ये [Python कसे स्थापित करायचे](https://youtu.be/CXZYvNRIAKM) आणि [विकासासाठी एक टेक्स्ट एडिटर कसे सेट करायचे](https://youtu.be/EU8eayHWoZg) शिकण्यासाठी खालील दुवे वापरा.
- **Python शिका**. डेटा वैज्ञानिकांसाठी उपयुक्त प्रोग्रामिंग भाषा असलेली [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) याबद्दल मूलभूत समज असणे देखील शिफारसीय आहे, जी आपण या कोर्समध्ये वापरतो.
- **Node.js आणि JavaScript शिका**. वेब अॅप तयार करताना आपण काही वेळा JavaScript देखील वापरतो, म्हणून आपल्याला [node](https://nodejs.org) आणि [npm](https://www.npmjs.com/) स्थापित करणे आवश्यक आहे, तसेच Python आणि JavaScript विकासासाठी [Visual Studio Code](https://code.visualstudio.com/) उपलब्ध असणे आवश्यक आहे.
- **GitHub खाते तयार करा**. आपण येथे [GitHub](https://github.com) वर आहात, त्यामुळे आपल्याकडे आधीच एक खाते असू शकते, परंतु जर नाही, तर एक तयार करा आणि नंतर हा अभ्यासक्रम आपल्या वापरासाठी फोर्क करा. (आम्हाला स्टार देण्यास देखील मोकळ्या मनान पुढे या 😊)
- **Scikit-learn अभ्यासा**. या धड्यांमध्ये संदर्भित केलेल्या [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) या ML लायब्ररींची आपल्याला माहिती करून घ्या.
---
## मशीन लर्निंग म्हणजे काय?
## मशीन शिक्षण म्हणजे काय?
'मशीन लर्निंग' हा आजच्या काळातील सर्वात लोकप्रिय आणि वारंवार वापरला जाणारा शब्द आहे. तुम्ही तंत्रज्ञानाशी काही प्रमाणात परिचित असाल, मग तुम्ही कोणत्याही क्षेत्रात काम करत असाल, तरी तुम्ही हा शब्द किमान एकदा ऐकला असेल. मात्र, मशीन लर्निंगचे यांत्रिकी बहुतेक लोकांसाठी गूढ आहे. मशीन लर्निंग शिकणाऱ्यांसाठी, हा विषय कधी कधी गोंधळात टाकणारा वाटू शकतो. म्हणूनच, मशीन लर्निंग म्हणजे काय हे समजून घेणे आणि व्यावहारिक उदाहरणांद्वारे ते टप्प्याटप्प्याने शिकणे महत्त्वाचे आहे.
'मशीन शिक्षण' हा सध्याच्या काळातील सर्वात लोकप्रिय आणि वारंवार वापरला जाणारा शब्द आहे. तुम्हाला तंत्रज्ञानाशी थोडीशी ओळख असेल तर हा शब्द तुम्ही किमान कधी ना कधी ऐकला असेल, कोणत्याही क्षेत्रात काम करत असला तरीही. तथापि, मशीन शिक्षणाची यंत्रणा बहुतेक लोकांसाठी अगदी गूढ आहे. एक नवशिक्या म्हणून, हा विषय कधी कधी भलताच जड वाटू शकतो. म्हणून, मशीन शिक्षण प्रत्यक्षात काय आहे हे समजून घेणे महत्त्वाचे आहे आणि ते चरणाने चरणाने, व्यावहारिक उदाहरणांद्वारे शिकणे आवश्यक आहे.
---
## हायप कर्व्ह
## लोकप्रियतेचा वक्र
![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png)
![एमएल लोकप्रियता वक्र](../../../../translated_images/mr/hype.07183d711a17aafe.webp)
> Google Trends 'मशीन लर्निंग' या शब्दाचा अलीकडील 'हायप कर्व्ह' दर्शवते
> Google Trends 'मशीन शिक्षण' या शब्दाचा अलीकडील 'लोकप्रियता वक्र' दर्शविते
---
## एक गूढ विश्व
## एक रहस्यमय विश्व
आपण एका गूढांनी भरलेल्या विश्वात राहतो. स्टीफन हॉकिंग, अल्बर्ट आईन्स्टाईन यांसारख्या महान वैज्ञानिकांनी आणि इतर अनेकांनी आपल्या आजूबाजूच्या जगातील रहस्ये उलगडणारी अर्थपूर्ण माहिती शोधण्यासाठी आपले जीवन समर्पित केले आहे. हे शिकण्याचे मानवी स्वरूप आहे: मानवी मूल नवीन गोष्टी शिकते आणि प्रौढ होईपर्यंत दरवर्षी त्यांच्या जगाची रचना उलगडते.
आपण एका रहस्यमय विश्वात राहतो. स्टिफन हॉकिंग, अल्बर्ट आइनस्टाइन आणि अनेक महान शास्त्रज्ञांनी आपल्या सभोवतालच्या जगाच्या रहस्यांचा शोध लावण्यासाठी आपले जीवन समर्पित केले आहे. हा हा मानव शिक्षणाचा स्थिती आहे: मानव बालक नवीन गोष्टी शिकतो आणि दर वर्षी वाढत जाताना आपल्या जागेची रचना उलगडतो.
---
## मुलाचे मेंदू
## बालकाचे मेंदू
मुलाचा मेंदू आणि संवेदना त्यांच्या आजूबाजूच्या गोष्टींचा अनुभव घेतात आणि हळूहळू जीवनातील लपलेल्या नमुन्यांचा अभ्यास करतात, ज्यामुळे मुलाला शिकलेल्या नमुन्यांची ओळख पटवण्यासाठी तार्किक नियम तयार करण्यात मदत होते. मानवी मेंदूची शिकण्याची प्रक्रिया मानवाला या जगातील सर्वात प्रगत सजीव बनवते. लपलेल्या नमुन्यांचा शोध घेऊन सतत शिकणे आणि त्या नमुन्यांवर नाविन्यपूर्ण काम करणे आपल्याला आयुष्यभर चांगले बनवण्यास सक्षम करते. ही शिकण्याची क्षमता आणि विकसित होण्याची क्षमता [मेंदूची प्लास्टिसिटी](https://www.simplypsychology.org/brain-plasticity.html) या संकल्पनेशी संबंधित आहे. वरवर पाहता, मानवी मेंदूच्या शिकण्याच्या प्रक्रियेतील प्रेरणादायक साम्य आणि मशीन लर्निंगच्या संकल्पनांमध्ये काही साम्य आहे असे आपण म्हणू शकतो.
बालकाचा मेंदू आणि इंद्रिये आपल्या आसपासच्या गोष्टींची माहिती घेतात आणि हळूहळू जीवनातील लपलेले नमुने शिकतात जेणेकरून बालक शिकलेल्या नमुन्यांना ओळखण्यासाठी तर्कशुद्ध नियम तयार करू शकतो. मानवी मेंदूची शिकण्याची प्रक्रिया मानवतेला या जगातील सर्वात प्रगल्भ जीव बनवते. लपलेले नमुने शोधून सतत शिकणे आणि त्यावर नवनिर्मिती करणे आपल्याला आयुष्यभर स्वतःला सुधारत राहण्यास सक्षम करते. ही शिकण्याची क्षमता आणि विकसित होत जाणारी क्षमता [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html) या संकल्पनेशी संबंधित आहे. दिसायला, आपण मानवी मेंदूच्या शिकण्याच्या प्रक्रियेतून आणि मशीन शिक्षणाच्या संकल्पनांमधून काही प्रेरणादायी समानता पाहू शकतो.
---
## मानवी मेंदू
[मानवी मेंदू](https://www.livescience.com/29365-human-brain.html) वास्तविक जगातील गोष्टींचा अनुभव घेतो, अनुभवलेली माहिती प्रक्रिया करतो, तर्कसंगत निर्णय घेतो आणि परिस्थितीनुसार विशिष्ट कृती करतो. याला आपण बुद्धिमान वर्तन म्हणतो. जेव्हा आपण बुद्धिमान वर्तन प्रक्रियेची प्रतिकृती मशीनमध्ये प्रोग्राम करतो, तेव्हा त्याला कृत्रिम बुद्धिमत्ता (AI) म्हणतात.
[मानवी मेंदू](https://www.livescience.com/29365-human-brain.html) वास्तविक जगातून माहिती ग्रहण करतो, ग्रहण केलेली माहिती प्रक्रिया करतो, तर्कसंगत निर्णय घेतो, आणि परिस्थितीनुसार विशिष्ट क्रिया करतो. याला आम्ही बुद्धिमत्तेने वागणे म्हणतो. जेव्हा आम्ही या बुद्धिमान वर्तन प्रक्रियेचे अनुकरण मशीनमध्ये प्रोग्राम करतो, तेव्हा त्या कृत्रिम बुद्धिमत्ता (AI) म्हणतात.
---
## काही परिभाष
## काही संज्ञ
जरी या संज्ञा गोंधळात टाकणाऱ्या असू शकतात, तरी मशीन लर्निंग (ML) ही कृत्रिम बुद्धिमत्तेची एक महत्त्वाची उपशाखा आहे. **ML ही विशेष अल्गोरिदम वापरून अर्थपूर्ण माहिती शोधणे आणि अनुभवलेल्या डेटामधून लपलेले नमुने शोधणे यावर केंद्रित आहे, जे तर्कसंगत निर्णय घेण्याच्या प्रक्रियेला समर्थन देते**.
या संज्ञा गोंधळात टाकणाऱ्या असल्या तरी, मशीन शिक्षण (ML) हे कृत्रिम बुद्धिमत्तेचे महत्त्वपूर्ण उपसमुच्चय आहे. **ML विशिष्ट अल्गोरिदम वापरून अर्थपूर्ण माहिती शोधण्यास आणि ग्रहण केलेल्या डेटामधून लपलेले नमुने शोधण्यास संबंधित आहे जेणेकरून तर्कसंगत निर्णय प्रक्रियेची पुष्टी होऊ शकेल**.
---
## AI, ML, डीप लर्निंग
![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png)
![AI, ML, deep learning, data science](../../../../translated_images/mr/ai-ml-ds.537ea441b124ebf6.webp)
> AI, ML, डीप लर्निंग आणि डेटा सायन्स यांच्यातील संबंध दर्शवणारे एक चित्र. [Jen Looper](https://twitter.com/jenlooper) यांनी प्रेरित होऊन तयार केलेले [हे ग्राफिक](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) आधारित इन्फोग्राफिक.
> AI, ML, डीप लर्निंग आणि डेटा सायन्स यातील नाते दर्शवणारे आकृती. [Jen Looper](https://twitter.com/jenlooper) कडून प्रेरित [हा ग्राफिक](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining)
---
## कव्हर करायचे संकल्पना
## शिकायच्या संकल्पना
या अभ्यासक्रमात, आपण मशीन लर्निंगच्या मुख्य संकल्पनांवर लक्ष केंद्रित करणार आहोत, जे एका नवशिक्याला माहित असणे आवश्यक आहे. आम्ही 'क्लासिकल मशीन लर्निंग' कव्हर करतो, मुख्यतः Scikit-learn वापरून, एक उत्कृष्ट लायब्ररी जी अनेक विद्यार्थी मूलभूत गोष्टी शिकण्यासाठी वापरतात. कृत्रिम बुद्धिमत्ता किंवा डीप लर्निंगच्या व्यापक संकल्पना समजून घेण्यासाठी, मशीन लर्निंगचे मजबूत मूलभूत ज्ञान आवश्यक आहे, आणि म्हणूनच आम्ही ते येथे ऑफर करू इच्छितो.
या अभ्यासक्रमामध्ये, आपण फक्त मशीन शिक्षणाच्या मुख्य संकल्पना समजून घेणार आहोत ज्या नवशिक्यांनी जाणून घ्यायला हव्यात. आपण 'पारंपरिक मशीन शिक्षण' मुख्यतः Scikit-learn वापरून शिकणार आहोत, ही एक उत्कृष्ट लायब्ररी आहे ज्याचा वापर अनेक विद्यार्थ्यांनी मूलभूत गोष्टी शिकण्यासाठी केला आहे. कृत्रिम बुद्धिमत्ता किंवा डीप लर्निंगच्या विस्तृत संकल्पना समजून घेण्यासाठी, मशीन शिक्षणाची मजबूत मूलभूत ओळख अत्यावश्यक आहे, म्हणून आम्ही ती येथे देण्याचा प्रयत्न करतो.
---
## या कोर्समध्ये तुम्ही शिकाल:
## या कोर्समध्ये आपण काय शिकाल:
- मशीन लर्निंगच्या मुख्य संकल्पना
- ML चा इतिहास
- ML आणि न्याय्यता
- रिग्रेशन ML तंत्र
- वर्गीकरण ML तंत्र
- क्लस्टरिंग ML तंत्र
- नैसर्गिक भाषा प्रक्रिया ML तंत्र
- टाइम सिरीज फोरकास्टिंग ML तंत्र
- रिइन्फोर्समेंट लर्निंग
- ML साठी वास्तविक-जगातील अनुप्रयोग
- मशीन शिक्षणाच्या मूलभूत संकल्पना
- एमएलचा इतिहास
- एमएल आणि न्याय
- रिग्रेशन एमएल तंत्रे
- वर्गीकरण एमएल तंत्रे
- क्लस्टरिंग एमएल तंत्रे
- नैसर्गिक भाषा प्रक्रिया एमएल तंत्रे
- टाइम सिरीज फोरकास्टिंग एमएल तंत्रे
- पुनर्बळाचा शिक्षण
- मशीन शिक्षणासाठी प्रत्यक्ष वापर
---
## आम्ही काय कव्हर करणार नाही
## जे आपण कव्हर करणार नाहीत
- डीप लर्निंग
- न्यूरल नेटवर्क्स
- AI
शिकण्याचा अनुभव चांगला होण्यासाठी, आम्ही न्यूरल नेटवर्क्सच्या गुंतागुंती, 'डीप लर्निंग' - न्यूरल नेटवर्क्स वापरून अनेक स्तरांवर मॉडेल तयार करणे - आणि AI टाळणार आहोत, ज्यावर आम्ही वेगळ्या अभ्यासक्रमात चर्चा करू. आम्ही डेटा सायन्सवर लक्ष केंद्रित करण्यासाठी एक आगामी अभ्यासक्रम देखील ऑफर करू.
शिकण्याचा अनुभव चांगला व्हावा म्हणून, आपण न्यूरल नेटवर्क्स, 'डीप लर्निंग' - न्यूरल नेटवर्क्स वापरून अनेक स्तरांचे मॉडेल-बांधणी - आणि AI या गुंतागुंती टाळणार आहोत, ज्यावर आपण वेगळ्या अभ्यासक्रमात चर्चा करणार आहोत. तसेच आपण या मोठ्या क्षेत्रातील डेटा सायन्सला लक्ष केंद्रित करणारा आगामी अभ्यासक्रम सादर करू.
---
## मशीन लर्निंग का शिकावे?
## मशीन शिक्षण का शिकावे?
सिस्टमच्या दृष्टिकोनातून, मशीन लर्निंग ही स्वयंचलित प्रणाली तयार करणे आहे जी डेटामधून लपलेले नमुने शिकून बुद्धिमान निर्णय घेण्यास मदत करते.
सिस्टम्सच्या दृष्टीने, मशीन शिक्षण म्हणजे असे स्वयंचलित सिस्टम्स तयार करणे जे डेटामधून लपलेले नमुने शिकू शकतात ज्यामुळे बुद्धिमान निर्णय घेण्यास मदत होते.
ही प्रेरणा मानवी मेंदू बाह्य जगातून अनुभवलेल्या डेटावर आधारित विशिष्ट गोष्टी कशा शिकतो यावर सैलपणे आधारित आहे.
ही प्रेरणा सैलपणे या प्रकारे आहे की मानवी मेंदू बाहेरून मिळालेल्या डेटावरून विशेष गोष्टी शिकतो.
विचार करा की एखाद्या व्यवसायाला हार्ड-कोडेड नियम-आधारित इंजिन तयार करण्याऐवजी मशीन लर्निंग रणनीती का वापरायच्या असतील.
काही वेळ विचार करा का एखादा व्यवसाय मशीन शिक्षण धोरणे वापरू इच्छितो, त्याऐवजी कडक कोडवर आधारित नियम बनविण्याच्या इंजिनचा वापर करण्याकडे का जातो.
---
## मशीन लर्निंगचे अनुप्रयोग
## डेटा गुणवत्ता महत्त्वाची का?
मशीन लर्निंगचे अनुप्रयोग आता जवळजवळ सर्वत्र आहेत आणि आपल्या समाजांमध्ये वाहणाऱ्या डेटासारखेच सर्वव्यापी आहेत, जे आपल्या स्मार्टफोन, कनेक्टेड डिव्हाइस आणि इतर प्रणालींनी निर्माण केले आहे. अत्याधुनिक मशीन लर्निंग अल्गोरिदमच्या प्रचंड क्षमतेचा विचार करता, संशोधक त्यांच्या बहुआयामी आणि बहुविषयक वास्तविक जीवनातील समस्यांचे समाधान करण्याच्या क्षमतेचा शोध घेत आहेत आणि सकारात्मक परिणाम मिळवत आहेत.
उच्च दर्जाचा डेटा मॉडेलची कार्यक्षमता सुधारतो. खराब किंवा आवाज असलेला डेटा अगदी प्रगत मशीन शिक्षण अल्गोरिदम वापरत असतानाही अचूक भाकितामध्ये अडथळा आणू शकतो.
---
## मशीन शिक्षणाचे उपयोग
मशीन शिक्षणाचे उपयोग आता जवळजवळ सर्वत्र आहेत, आणि आपल्या समाजाभोवती वाहत असलेल्या डेटा प्रमाणेच सर्वत्र आहेत, जे आपल्या स्मार्टफोन, जोडलेल्या उपकरणे आणि इतर प्रणालींमुळे निर्माण होतो. अत्याधुनिक मशीन शिक्षण अल्गोरिदमच्या भव्य संधी पाहता, संशोधकांनी त्यांचा क्षमतेचा शोध लावताना बहुपरिमाणी आणि बहुविध जीवनातील समस्यांचे समाधान अत्युत्तम सकारात्मक परिणामांसह केले आहे.
---
## लागू केलेल्या ML चे उदाहरणे
**तुम्ही मशीन लर्निंग अनेक प्रकारे वापरू शकता**:
**आपण अनेक पद्धतींनी मशीन शिक्षण वापरू शकता**:
- रुग्णाच्या वैद्यकीय इतिहास किंवा अहवालांवरून आजार होण्याची शक्यता भाकीत करण्यासाठी.
- हवामान डेटा वापरून हवामानाच्या घटना भाकीत करण्यासाठी.
- मजकूराचा भाव समजून घेण्यासाठी.
- खोट्या बातम्या ओळखून प्रचाराचा प्रसार थांबवण्यासाठी.
- रुग्णाच्या वैद्यकीय इतिहास किंवा अहवालांवरून रोग होण्याची शक्यता भाकीत करण्यासाठी.
- हवामान डेटा वापरून हवामान घटना भाकीत करण्यासाठी.
- टेक्स्टमधील भावना समजण्यासाठी.
- खोट्या बातम्या शोधण्यासाठी आणि प्रचार थांबवण्यासाठी.
आर्थिक, अर्थशास्त्र, पृथ्वी विज्ञान, अंतराळ अन्वेषण, बायोमेडिकल अभियांत्रिकी, संज्ञानात्मक विज्ञान आणि अगदी मानवतावादी क्षेत्रांनी त्यांच्या क्षेत्रातील कठीण, डेटा-प्रक्रिया जड समस्यांचे समाधान करण्यासाठी मशीन लर्निंग स्वीकारले आहे.
वित्त, अर्थशास्त्र, पृथ्वी विज्ञान, अंतराळ संशोधन, जैववैद्यकीय अभियांत्रण, संज्ञानात्मक विज्ञान, आणि मानवतावादाच्या क्षेत्रांनाही त्यांच्या क्षेत्रातील डेटा-प्रक्रिया जड समस्या सोडवण्यासाठी मशीन शिक्षण स्वीकारले आहे.
---
## निष्कर्ष
मशीन लर्निंग वास्तविक-जगातील किंवा निर्माण केलेल्या डेटामधून अर्थपूर्ण अंतर्दृष्टी शोधून नमुना-शोधण्याची प्रक्रिया स्वयंचलित करते. व्यवसाय, आरोग्य आणि आर्थिक अनुप्रयोगांमध्ये याने स्वतःला अत्यंत मौल्यवान सिद्ध केले आहे.
मशीन शिक्षण वास्तविक किंवा निर्माण केलेल्या डेटामधून अर्थपूर्ण अंतर्दृष्टी शोधून नमुना-शोधण्याची प्रक्रिया स्वयंचलित करते. व्यवसाय, आरोग्य आणि आर्थिक अनुप्रयोगांसह अनेक क्षेत्रांमध्ये याने आपली उपयुक्तता सिद्ध केली आहे.
निकट भविष्यात, मशीन लर्निंगच्या मूलभूत गोष्टी समजून घेणे कोणत्याही क्षेत्रातील लोकांसाठी आवश्यक होणार आहे कारण त्याचा व्यापक स्वीकार होत आहे.
लवकरच, कोणत्याही क्षेत्रातील लोकांसाठी मशीन शिक्षणाच्या मूलभूत गोष्टी समजून घेणे आवश्यक होणार आहे कारण ते मोठ्या प्रमाणावर स्वीकारले जात आहे.
---
# 🚀 आव्हान
कागदावर किंवा [Excalidraw](https://excalidraw.com/) सारख्या ऑनलाइन अॅपचा वापर करून, AI, ML, डीप लर्निंग आणि डेटा सायन्स यांच्यातील फरक समजून घेण्यासाठी तुमचे विचार रेखाटून दाखवा. प्रत्येक तंत्रज्ञान कोणत्या प्रकारच्या समस्यांचे समाधान करण्यात चांगले आहे याबद्दल काही कल्पना जोडा.
कागदावर किंवा [Excalidraw](https://excalidraw.com/) सारख्या ऑनलाइन अॅपमध्ये AI, ML, डीप लर्निंग, आणि डेटा सायन्स यातील फरकाचा आपल्या समजुतीचा आराखडा तयार करा. या प्रत्येक तंत्रज्ञानांनी समाधान करण्यासाठी कोणत्या समस्या चांगल्या प्रकारे हाताळतात याबद्दल काही कल्पना जोडा.
# [व्याख्यानानंतरची प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ml/)
# [व्याख्यानानंतरचा क्विझ](https://ff-quizzes.netlify.app/en/ml/)
---
# पुनरावलोकन आणि स्व-अभ्यास
# पुनरावलोकन आणि स्वतःचा अभ्यास
क्लाडमध्ये ML अल्गोरिदमसह कसे काम कर येईल याबद्दल अधिक जाणून घेण्यासाठी, [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) अनुसरण करा.
क्लाडमध्ये ML अल्गोरिदमसह काम कसे कराये याबद्दल अधिक जाणून घेण्यासाठी, हा [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) वापरा.
ML च्या मूलभूत गोष्टींबद्दल [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) घ्या.
एमएलच्या मूलभूत तत्त्वांबद्दल एक [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) घ्या.
---
# असाइनमेंट
[सुरू करा](assignment.md)
[Get up and running](assignment.md)
---
**अस्वीकरण**:
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**अस्वीकरण**:
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून अनुवादित केला आहे. जरी आम्ही अचूकतेसाठी प्रयत्न करतो, तरी कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेची कमतरता असू शकते. मूळ दस्तऐवज त्याच्या मूळ भाषेत अधिकृत स्रोत मानला पाहिजे. महत्त्वाची माहिती असल्यास, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराच्या वापरामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थलावणीसाठी आम्ही जबाबदार नाही.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -1,108 +1,108 @@
# क्लस्टरिंगची ओळख
# क्लस्टरिंग परिचय
क्लस्टरिंग हा [अनसुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Unsupervised_learning) चा एक प्रकार आहे, जो गृहीत धरतो की डेटासेट लेबल नसलेला आहे किंवा त्याच्या इनपुट्सना पूर्वनिर्धारित आउटपुट्सशी जुळवलेले नाही. हा विविध अल्गोरिदम्सचा वापर करून लेबल नसलेल्या डेटामधून गट तयार करतो, जे डेटामधील पॅटर्न्सवर आधारित असतात.
क्लस्टरिंग हा [अनसुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Unsupervised_learning) चा एक प्रकार आहे जो गृहित धरतो की डेटा सेट अनलेबल्ड आहे किंवा त्याचे इनपुट पूर्वनिर्धारित आउटपुटसह जुळलेले नाहीत. यासाठी विविध अल्गोरिदम वापरून अनलेबल्ड डेटामध्येून सॉर्टिंग केले जाते आणि डेटामध्ये दिसणाऱ्या नमुन्यांनुसार गट तयार केले जातात.
[![PSquare च्या "No One Like You"](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "PSquare च्या 'No One Like You' गाण्याचा व्हिडिओ")
[![नो वन लाईक यू बाय PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "नो वन लाईक यू बाय PSquare")
> 🎥 वरील प्रतिमेवर क्लिक करा व्हिडिओसाठी. क्लस्टरिंगसह मशीन लर्निंग शिकताना, काही नायजेरियन डान्स हॉल गाणी ऐका - हे PSquare चं 2014 मधील खूप लोकप्रिय गाणं आहे.
> 🎥 व्हिडिओसाठी वरच्या चित्रावर क्लिक करा. तुम्ही जेव्हा क्लस्टरिंगसह मशीन लर्निंगचा अभ्यास करत असाल, तेव्हा काही नायजेरियन डान्स हॉल ट्रॅकचा आनंद घ्या - हा PSquare चा २०१४ मधील अत्यंत लोकप्रिय गाणं आहे.
## [ूर्व-व्याख्यान क्विझ](https://ff-quizzes.netlify.app/en/ml/)
## [्रि-लेक्चर क्विझ](https://ff-quizzes.netlify.app/en/ml/)
### परिचय
[क्लस्टरिंग](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डेटाच्या शोधासाठी खूप उपयुक्त आहे. चला पाहूया की नायजेरियन प्रेक्षक संगीत कसे ऐकतात यामध्ये ट्रेंड्स आणि पॅटर्न्स शोधण्यात ते कसे मदत करू शकते.
[क्लस्टरिंग](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) हा डेटा एक्सप्लोरेशनसाठी फार उपयोगी आहे. चला पाहूया की नायजेरियन प्रेक्षक संगीत कसे वापरतात यात तो ट्रेंड्स आणि पॅटर्न शोधण्यात मदत करू शकतो का.
✅ क्लस्टरिंगच्या उपयोगांबद्दल विचार करण्यासाठी एक मिनिट घ्या. वास्तविक जीवनात, क्लस्टरिंग तेव्हा होते जेव्हा तुमच्याकडे कपड्यांचा ढीग असतो आणि तुम्हाला तुमच्या कुटुंबातील सदस्यांचे कपडे वेगळे करायचे असतात 🧦👕👖🩲. डेटा सायन्समध्ये, क्लस्टरिंगचा उपयोग वापरकर्त्याच्या पसंतींचे विश्लेषण करण्यासाठी किंवा कोणत्याही लेबल नसलेल्या डेटासेटच्या वैशिष्ट्यांचा निर्धारण करण्यासाठी होतो. एका प्रकारे, क्लस्टरिंग गोंधळाला समजून घेण्यास मदत करते, जसे की सॉक्सच्या ड्रॉवरला.
✅ क्लस्टरिंगचे उपयोग यावर एक मिनिट विचार करा. प्रत्यक्ष जीवनात, जेव्हा तुमच्याकडे कपड्यांचा ढीग असतो आणि तुम्हाला तुमच्या कुटुंबातील सदस्यांच्या कपड्यांचे वर्गीकरण करावे लागते, तेव्हा क्लस्टरिंग होते 🧦👕👖🩲. डेटा सायन्समध्ये, क्लस्टरिंग वापरली जाते जेव्हा एखाद्या वापरकर्त्याच्या प्राधान्यांचे विश्लेषण करायचे असते, किंवा कोणत्याही अनलेबल्ड डेटा सेटची वैशिष्ट्ये समजून घ्यायची असतात. क्लस्टरिंग, एक प्रकारे, गोंधळाचा अर्थ लावण्यास मदत करते, जसे मोज्यांचा डब्या.
[![मशीन लर्निंगची ओळख](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "क्लस्टरिंगची ओळख")
[![क्लस्टरिंग परिचय](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "क्लस्टरिंग परिचय")
> 🎥 वरील प्रतिमेवर क्लिक करा व्हिडिओसाठी: MIT चे जॉन गुटटॅग क्लस्टरिंगची ओळख करून देतात.
> 🎥 व्हिडिओसाठी वरील चित्रावर क्लिक करा: MIT चे John Guttag क्लस्टरिंग सादर करतात
व्यावसायिक सेटिंगमध्ये, क्लस्टरिंगचा उपयोग बाजार विभागणीसाठी, कोणत्या वयोगटातील लोक कोणती उत्पादने खरेदी करतात हे ठरवण्यासाठी केला जाऊ शकतो. आणखी एक उपयोग म्हणजे अनोमली डिटेक्शन, जसे की क्रेडिट कार्ड व्यवहारांच्या डेटासेटमधून फसवणूक शोधणे. किंवा तुम्ही वैद्यकीय स्कॅन्सच्या बॅचमधून ट्युमर्स शोधण्यासाठी क्लस्टरिंगचा उपयोग करू शकता.
व्यावसायिक वातावरणात, क्लस्टरिंगचा वापर मार्केट सेगमेंटेशन सारख्या गोष्टी ठरवण्यासाठी होतो, उदाहरणार्थ वेगवेगळ्या वयोगटातील लोक कोणत्या वस्तू खरेदी करतात. आणखी एक उपयोग म्हणजे अनोमली डिटेक्शन, कदाचित क्रेडिट कार्ड व्यवहारांच्या डेटामधून फसवणूक ओळखण्यासाठी. किंवा तुम्ही क्लस्टरिंग वापरू शकता वैद्यकीय स्कॅनच्या गटातील ट्यूमर्स ओळखण्यासाठी.
विचार करा की तुम्ही बँकिंग, ई-कॉमर्स किंवा व्यवसायाच्या सेटिंगमध्ये 'क्लस्टरिंग' कधी अनुभवले आहे का?
✅ बँकिंग, ई-कॉमर्स, किंवा व्यवसायाच्या सेटिंगमध्ये तुम्हाला क्लस्टरिंग कशी दिसली असू शकते याचा एक मिनिट विचार करा.
> 🎓 मनोरंजक गोष्ट म्हणजे, क्लस्टर विश्लेषणाची सुरुवात 1930 च्या दशकात मानववंशशास्त्र आणि मानसशास्त्राच्या क्षेत्रांमध्ये झाली. तुम्ही कल्पना करू शकता का की त्याचा उपयोग कसा केला गेला असेल?
> 🎓 रोचक बाब म्हणजे क्लस्टर विश्लेषण १९३० च्या दशकात मानवशास्त्र आणि मानसशास्त्र क्षेत्रातून सुरू झाले. तुम्हाला कसे वापरले गेले असावे असा विचार येतो का?
याशिवाय, तुम्ही शोध परिणाम गटबद्ध करण्यासाठी याचा उपयोग करू शकता - जसे की खरेदीसाठी लिंक्स, प्रतिमा किंवा पुनरावलोकने. जेव्हा तुमच्याकडे मोठा डेटासेट असतो आणि तुम्हाला तो कमी करायचा असतो आणि त्यावर अधिक सखोल विश्लेषण करायचे असते, तेव्हा क्लस्टरिंग उपयुक्त ठरते. त्यामुळे इतर मॉडेल्स तयार करण्यापूर्वी डेटाबद्दल शिकण्यासाठी ही तंत्रे वापरली जाऊ शकतात.
पर्याय, तुम्ही ते शोध परिणामांना गटबद्ध करण्यासाठी वापरू शकता - खरेदी लिंक्स, प्रतिमा, किंवा पुनरावलोकने या प्रमाणे. क्लस्टरिंग उपयोगी आहे जेव्हा तुमच्याकडे मोठा डेटा सेट असतो ज्याला कमी करायचे असते आणि ज्यावर अधिक तपशीलवार विश्लेषण करायचे असते, त्यामुळे ही तंत्रशास्त्र इतर मॉडेल्स तयार करण्यापूर्वी डेटाबद्दल शिकण्यासाठी वापरली जाते.
✅ एकदा तुमचा डेटा क्लस्टर्समध्ये आयोजित झाला की, तुम्ही त्याला क्लस्टर आयडी असाइन करता. ही तंत्रे डेटासेटची गोपनीयता जपण्यासाठी उपयुक्त ठरू शकतात; तुम्ही क्लस्टरमधील इतर घटकांऐवजी डेटा पॉइंटला त्याच्या क्लस्टर आयडीने संदर्भित करू शकता. तुम्ही इतर कोणत्या कारणांसाठी क्लस्टर आयडीचा उपयोग करू शकता याचा विचार करा.
✅ एकदा तुमचा डेटा क्लस्टर्समध्ये आयोजित झाला की, तुम्ही त्याला क्लस्टर आयडी देता, आणि ही तंत्रशास्त्र डेटासेटची गोपनीयता राखण्यासाठी उपयोगी ठरू शकते; तुम्ही डेटा पॉइंटला त्याच्या ओळख पटवणाऱ्या डेटाऐवजी क्लस्टर आयडीने संदर्भित करू शकता. आणखी कोणत्या कारणांमुळे तुम्ही क्लस्टर आयडी वापराल याचा विचार करा.
क्लस्टरिंग तंत्रांचा सखोल अभ्यास करण्यासाठी [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) पहा.
क्लस्टरिंग तंत्रे अधिक सखोल समजून घ्या या [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) मध्ये.
## क्लस्टरिंग सुरू करणे
## क्लस्टरिंगसह प्रारंभ
[Scikit-learn मध्ये](https://scikit-learn.org/stable/modules/clustering.html) क्लस्टरिंग करण्यासाठी अनेक पद्धती आहेत. तुम्ही कोणती पद्धत निवडाल हे तुमच्या उपयोगाच्या प्रकरणावर अवलंबून असेल. डॉक्युमेंटेशननुसार, प्रत्येक पद्धतीचे विविध फायदे आहेत. Scikit-learn द्वारे समर्थित पद्धती आणि त्यांच्या योग्य उपयोग प्रकरणांचे एक साधे टेबल येथे दिले आहे:
[Scikit-learn विविध](https://scikit-learn.org/stable/modules/clustering.html) क्लस्टरिंग पद्धती देते. तुम्ही कोणती पद्धत निवडता हे तुमच्या उपयोग केसवर अवलंबून असते. डॉक्युमेंटेशननुसार प्रत्येक पद्धतीचे विविध फायदे आहेत. खाली Scikit-learn द्वारे समर्थित पद्धती व त्यांच्या योग्य उपयोग केसची साधी तक्ता आहे:
| पद्धतीचे नाव | उपयोग प्रकरण |
| पद्धतीचे नाव | उपयोग केस |
| :--------------------------- | :-------------------------------------------------------------------- |
| K-Means | सामान्य उपयोग, इंडक्टिव |
| Affinity propagation | अनेक, असमान क्लस्टर्स, इंडक्टिव |
| Mean-shift | अनेक, असमान क्लस्टर्स, इंडक्टिव |
| Spectral clustering | काही, समान क्लस्टर्स, ट्रान्सडक्टिव |
| Ward hierarchical clustering | अनेक, मर्यादित क्लस्टर्स, ट्रान्सडक्टिव |
| Agglomerative clustering | अनेक, मर्यादित, नॉन-युक्लिडियन अंतर, ट्रान्सडक्टिव |
| DBSCAN | नॉन-फ्लॅट जिओमेट्री, असमान क्लस्टर्स, ट्रान्सडक्टिव |
| OPTICS | नॉन-फ्लॅट जिओमेट्री, असमान क्लस्टर्स, बदलत्या घनतेसह, ट्रान्सडक्टिव |
| Gaussian mixtures | फ्लॅट जिओमेट्री, इंडक्टिव |
| BIRCH | मोठा डेटासेट, आउटलायर्ससह, इंडक्टिव |
> 🎓 क्लस्टर्स कसे तयार करायचे हे डेटापॉइंट्सना गटांमध्ये कसे एकत्र करायचे यावर अवलंबून असते. चला काही शब्दसंग्रह समजून घेऊया:
| K-Means | सामान्य उपयोग, इंडक्टिव्ह |
| Affinity propagation | अनेक, असमान क्लस्टर्स, इंडक्टिव्ह |
| Mean-shift | अनेक, असमान क्लस्टर्स, इंडक्टिव्ह |
| Spectral clustering | कमी, सम क्लस्टर्स, ट्रान्सडक्तिव्ह |
| Ward hierarchical clustering | अनेक, मर्यादित क्लस्टर्स, ट्रान्सडक्तिव्ह |
| Agglomerative clustering | अनेक, मर्यादित, नॉन युक्लिडियन अंतर, ट्रान्सडक्तिव्ह |
| DBSCAN | नॉन-फ्लॅट भौमिती, असमान क्लस्टर्स, ट्रान्सडक्तिव्ह |
| OPTICS | नॉन-फ्लॅट भौमिती, असमान क्लस्टर्स किंवा घनता, ट्रान्सडक्तिव्ह |
| Gaussian mixtures | फ्लॅट भौमिती, इंडक्टिव्ह |
| BIRCH | खूप मोठा डेटा सेट आणि बाह्य डेटा, इंडक्टिव्ह |
> 🎓 आम्ही क्लस्टर कसे तयार करतो हे यावर अवलंबून असते की आम्ही डेटा पॉइंट्स गटांमध्ये कसे जमवतो. काही शब्दसंग्रह पाहू या:
>
> 🎓 ['ट्रान्सडक्टिव' वि. 'इंडक्टिव'](https://wikipedia.org/wiki/Transduction_(machine_learning))
> 🎓 ['ट्रान्सडक्तिव्ह' विरुद्ध 'इंडक्टिव्ह'](https://wikipedia.org/wiki/Transduction_(machine_learning))
>
> ट्रान्सडक्टिव इनफरन्स हे विशिष्ट टेस्ट केसेसशी जुळणाऱ्या निरीक्षित ट्रेनिंग केसेसवरून तयार होते. इंडक्टिव इनफरन्स हे सामान्य नियमांवरून तयार होते, जे नंतर टेस्ट केसेसवर लागू केले जातात.
> ट्रान्सडक्तिव्ह इनफरन्स म्हणजे निरीक्षित प्रशिक्षण प्रकरणांवरून विशिष्ट चाचणी प्रकरणांशी नकाशा तयार करणे. इंडक्टिव्ह इनफरन्स म्हणजे प्रशिक्षण प्रकरणांवरून सामान्य नियम तयार करणे जे नंतर चाचणी प्रकरणांवर लागू केले जातात.
>
> उदाहरण: समजा तुमच्याकडे अर्धवट लेबल असलेला डेटासेट आहे. काही गोष्टी 'रेकॉर्ड्स', काही 'सीडीज', आणि काही रिकाम्या आहेत. तुमचे काम म्हणजे रिकाम्यांना लेबल देणे. जर तुम्ही इंडक्टिव दृष्टिकोन निवडला, तर तुम्ही 'रेकॉर्ड्स' आणि 'सीडीज' शोधण्यासाठी एक मॉडेल ट्रेन कराल आणि तुमच्या लेबल नसलेल्या डेटावर ती लेबल्स लागू कराल. हा दृष्टिकोन 'कॅसेट्स' वर्गीकृत करण्यात अडचणीत येईल. ट्रान्सडक्टिव दृष्टिकोन मात्र, अशा अज्ञात डेटाला अधिक प्रभावीपणे हाताळतो, कारण तो समान वस्तूंना गटांमध्ये एकत्र करतो आणि नंतर गटाला लेबल लागू करतो. या प्रकरणात, क्लस्टर्स 'गोल संगीत गोष्टी' आणि 'चौरस संगीत गोष्टी' यांचे प्रतिबिंबित करू शकतात.
> उदाहरण: समजा तुमच्याकडे डेटा सेट अर्धवेळा लेबल केलेला आहे. काही गोष्टी 'रेकॉर्ड', काही 'सीडी', आणि काही रिक्त आहेत. तुमचा काम रिक्त जागांसाठी लेबल देणे आहे. जर तुम्ही इंडक्टिव्ह दृष्टिकोन वापरत असाल, तर तुम्ही 'रेकॉर्ड' आणि 'सीडी' शोधून एक मॉडेल तयार कराल आणि नाकारलेल्या डेटाला त्या लेबल्स लावाल. या दृष्टिकोनाने 'कॅसेट्स' वर्गीकरण करताना अडचण येऊ शकते. ट्रान्सडक्तिव्ह पद्धत, दुसरीकडे, या अज्ञात डेटाला अधिक प्रभावीपणे हाताळते कारण ती एकत्र जुळणारे आयटम गटबद्ध करते आणि नंतर त्या गटांना लेबल लावते. या बाबतीत क्लस्टर्स 'गोल आकाराचे संगीतासाठीले आयटम' आणि 'चौरस आकाराचे संगीतासाठीले आयटम' दर्शवू शकतात.
>
> 🎓 ['नॉन-फ्लॅट' वि. 'फ्लॅट' जिओमेट्री](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
> 🎓 ['नॉन-फ्लॅट' विरुद्ध 'फ्लॅट' भौमिती](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
>
> गणितीय संज्ञांमधून व्युत्पन्न, नॉन-फ्लॅट वि. फ्लॅट जिओमेट्री म्हणजे पॉइंट्समधील अंतर मोजण्याच्या पद्धतींना सूचित करते, ज्या 'फ्लॅट' ([युक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) किंवा 'नॉन-फ्लॅट' (नॉन-युक्लिडियन) असतात.
> गणिती संज्ञेतून, नॉन-फ्लॅट वि. फ्लॅट भौमिती म्हणजे पॉइंट्समधील अंतर मोजण्याचे पद्धती आहे - 'फ्लॅट' ([युक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) किंवा 'नॉन-फ्लॅट' (नॉन-युक्लिडियन) भौमितीय पद्धती.
>
>'फ्लॅट' म्हणजे युक्लिडियन जिओमेट्री (ज्याचा काही भाग 'प्लेन' जिओमेट्री म्हणून शिकवला जातो), आणि 'नॉन-फ्लॅट' म्हणजे नॉन-युक्लिडियन जिओमेट्री. मशीन लर्निंगमध्ये जिओमेट्रीचा काय संबंध? गणितावर आधारित या दोन क्षेत्रांमध्ये, क्लस्टर्समधील पॉइंट्समधील अंतर मोजण्यासाठी एक सामान्य पद्धत असणे आवश्यक आहे, आणि ती डेटा निसर्गावर अवलंबून 'फ्लॅट' किंवा 'नॉन-फ्लॅट' पद्धतीने केली जाऊ शकते. [युक्लिडियन अंतर](https://wikipedia.org/wiki/Euclidean_distance) दोन पॉइंट्समधील रेषेच्या लांबीने मोजले जाते. [नॉन-युक्लिडियन अंतर](https://wikipedia.org/wiki/Non-Euclidean_geometry) वक्रावरून मोजले जाते. जर तुमचा डेटा, व्हिज्युअलायझेशननुसार, प्लेनवर दिसत नसेल, तर तुम्हाला त्यासाठी विशेष अल्गोरिदम वापरण्याची गरज असू शकते.
>'फ्लॅट' या संदर्भात युक्लिडियन भौमिती (ज्याला 'प्लेन' भौमिती म्हणून देखील शिकवले जाते) आणि नॉन-फ्लॅट म्हणजे नॉन-युक्लिडियन भौमिती. भौमितीचा मशीन लर्निंगशी काय संबंध? दोन्ही क्षेत्रं गणितावर आधारित असल्याने, क्लस्टर्समधील पॉइंट प्रति पॉइंट अंतर मोजण्यासाठी समान मार्ग हवा, जो 'फ्लॅट' किंवा 'नॉन-फ्लॅट' पद्धतीने केला जातो, डेटा स्वरूपानुसार. [युक्लिडियन अंतर](https://wikipedia.org/wiki/Euclidean_distance) म्हणजे दोन पॉइंट्समधील सरळ रेषेचा लांब. [नॉन-युक्लिडियन अंतर](https://wikipedia.org/wiki/Non-Euclidean_geometry) म्हणजे वक्ररेषेवर मोजले जाते. जर तुमचा डेटा विमानावर नसलेला दर्शवत असेल, तर तुम्हाला विशेष अल्गोरिदम वापरावा लागू शकतो.
>
![फ्लॅट वि. नॉनफ्लॅट जिओमेट्री इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png)
> इन्फोग्राफिक: [दसानी मदीपल्ली](https://twitter.com/dasani_decoded)
![फ्लॅट वि नॉनफ्लॅट भौमिती इन्फोग्राफिक](../../../../translated_images/mr/flat-nonflat.d1c8c6e2a96110c1.webp)
> इन्फोग्राफिक: [Dasani Madipalli](https://twitter.com/dasani_decoded)
>
> 🎓 ['अंतर'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)
>
> क्लस्टर्स त्यांच्या अंतर मॅट्रिक्सद्वारे परिभाषित केले जातात, उदा. पॉइंट्समधील अंतर. हे अंतर काही पद्धतींनी मोजले जाऊ शकते. युक्लिडियन क्लस्टर्स पॉइंट व्हॅल्यूजच्या सरासरीने परिभाषित केले जातात, आणि त्यात 'सेंट्रॉइड' किंवा मध्यबिंदू असतो. अंतर त्या सेंट्रॉइडपर्यंतच्या अंतराने मोजले जाते. नॉन-युक्लिडियन अंतर 'क्लस्ट्रॉइड्स'द्वारे परिभाषित केले जाते, जे इतर पॉइंट्सच्या जवळचे पॉइंट असते. क्लस्ट्रॉइड्स विविध पद्धतींनी परिभाषित केले जाऊ शकतात.
> क्लस्टर्स त्यांच्या अंतर मॅट्रिक्सने ठरवले जातात, उदा. पॉइंट्समधील अंतर. हे अंतर काही पद्धतींनी मोजले जाऊ शकते. युक्लिडियन क्लस्टर्स म्हणजे पॉइंट मूल्यांचा सरासरी आणि 'सेंट्रोइड' (केंद्र बिंदू) यावर आधारित असतात. अंतर सेंट्रोइडपर्यंतच्या अंतराने मोजले जाते. नॉन-युक्लिडियन अंतर म्हणजे 'क्लस्ट्रोइड' ज्याचा उल्लेख पॉइंट कडे-ढकलण्यासाठी जवळचा असतो. क्लस्ट्रोइड विविध प्रकारे परिभाषित केला जाऊ शकतो.
>
> 🎓 ['मर्यादित'](https://wikipedia.org/wiki/Constrained_clustering)
>
> [मर्यादित क्लस्टरिंग](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) 'सेमी-सुपरवाइज्ड' लर्निंगला या अनसुपरवाइज्ड पद्धतीत आणते. पॉइंट्समधील नातेसंबंध 'कनॉट लिंक' किंवा 'मस्ट-लिंक' म्हणून फ्लॅग केले जातात, त्यामुळे डेटासेटवर काही नियम लादले जातात.
> [मर्यादित क्लस्टरिंग](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) या अनसुपरवाइज्ड पद्धतीमध्ये 'सेमी-सुपरवाइज्ड' शिक्षण आणते. पॉइंट्समधील नाते 'कनॉट लिंक' किंवा 'मस्ट लिंक' म्हणून ठरवले जाते, जे डेटासेटवर काही नियम लागू करतात.
>
>उदाहरण: जर एखाद्या अल्गोरिदमला लेबल नसलेल्या किंवा अर्धवट लेबल असलेल्या डेटावर सोडले गेले, तर त्याने तयार केलेले क्लस्टर्स खराब दर्जाचे असू शकतात. वरील उदाहरणात, क्लस्टर्स 'गोल संगीत गोष्टी', 'चौरस संगीत गोष्टी', 'त्रिकोणी गोष्टी' आणि 'कुकीज' असे गट तयार करू शकतात. जर काही मर्यादा, किंवा नियम दिले गेले ("आयटम प्लास्टिकचे असले पाहिजे", "आयटम संगीत तयार करू शकले पाहिजे") तर यामुळे अल्गोरिदमला चांगले निर्णय घेण्यास मदत होऊ शकते.
> उदाहरण: जर एखाद्या अल्गोरिदमला अनलेबल्ड किंवा अर्धवट लेबल केलेल्या डेटावर मोकळा सोडले गेले, तर त्याने तयार केलेले क्लस्टर्स गुणवत्तेपासून कमी असू शकतात. वर दिलेल्या उदाहरणात, क्लस्टर्स 'गोल संगीत आयटम', 'चौरस संगीत आयटम', 'त्रिकोणी आयटम' आणि 'कुकीज' याप्रमाणे असू शकतात. पण काही मर्यादा, जसे "आयटम प्लास्टिकचा असावा", "आयटम संगीत निर्माण करू शकावा" यांसारखे नियम दिल्यास अल्गोरिदमला अधिक चांगले निर्णय घेण्यास मदत होऊ शकते.
>
> 🎓 'घनता'
>
> 'गोंधळलेला' डेटा 'घन' मानला जातो. त्याच्या क्लस्टर्समधील पॉइंट्समधील अंतर अधिक किंवा कमी घन असू शकते, किंवा 'गर्दी' असलेले असू शकते, आणि त्यामुळे अशा डेटाचे विश्लेषण योग्य क्लस्टरिंग पद्धतीने करणे आवश्यक आहे. [हा लेख](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) असमान क्लस्टर घनतेसह गोंधळलेल्या डेटासेटचा शोध घेण्यासाठी K-Means क्लस्टरिंग वि. HDBSCAN अल्गोरिदम्सचा उपयोग कसा करावा हे दर्शवतो.
> 'गोंधळ' असलेला डेटा घन (dense) मानला जातो. त्याच्या क्लस्टर्समधील पॉइंट्समधील अंतर तपासल्यावर ते अधिक किंवा कमी घन असू शकते, त्यामुळे योग्य क्लस्टरिंग पद्धत वापरणे गरजेचे ठरते. [हा लेख](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) K-Means क्लस्टरिंग व HDBSCAN अल्गोरिदमचा वापर करून आवाज असलेल्या डेटामधील असमान घनता कशी वेगळी आहे हे दर्शवितो.
## क्लस्टरिंग अल्गोरिदम्स
## क्लस्टरिंग अल्गोरिदम
क्लस्टरिंगसाठी 100 हून अधिक अल्गोरिदम्स आहेत, आणि त्यांचा उपयोग डेटाच्या स्वरूपावर अवलंबून असतो. चला काही प्रमुख अल्गोरिदम्सबद्दल चर्चा करूया:
१०० पेक्षा जास्त क्लस्टरिंग अल्गोरिदम्स आहेत, आणि त्यांचा वापर डेटाच्या स्वरूपावर अवलंबून असतो. काही महत्त्वाच्या यावर चर्चा करूया:
- **हायरार्किकल क्लस्टरिंग**. जर एखादी वस्तू तिच्या जवळच्या वस्तूशी असलेल्या जवळीकतेने वर्गीकृत केली गेली, तर क्लस्टर्स त्यांच्या सदस्यांच्या इतर वस्तूंशी असलेल्या अंतरावर आधारित तयार होतात. Scikit-learn चा agglomerative clustering हा हायरार्किकल आहे.
- **हायरार्किकल क्लस्टरिंग**. जर एखाद्या ऑब्जेक्टची वर्गवारी जवळच्या ऑब्जेक्टच्या जवळीकनुसार केली जाते, दूरच्या नाही, तर क्लस्टर्स त्यांच्या सदस्यांच्या अंतरानुसार तयार होतात. Scikit-learn ची agglomerative clustering ही हायरार्किकल आहे.
![हायरार्किकल क्लस्टरिंग इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/hierarchical.png)
> इन्फोग्राफिक: [दसानी मदीपल्ली](https://twitter.com/dasani_decoded)
![हायरार्किकल क्लस्टरिंग इन्फोग्राफिक](../../../../translated_images/mr/hierarchical.bf59403aa43c8c47.webp)
> इन्फोग्राफिक: [Dasani Madipalli](https://twitter.com/dasani_decoded)
- **सेंट्रॉइड क्लस्टरिंग**. हा लोकप्रिय अल्गोरिदम 'k', किंवा तयार करायच्या क्लस्टर्सच्या संख्येची निवड करण्याची आवश्यकता करतो, त्यानंतर अल्गोरिदम क्लस्टरचा मध्यबिंदू ठरवतो आणि त्या बिंदूभोवती डेटा गोळा करतो. [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) हा सेंट्रॉइड क्लस्टरिंगचा लोकप्रिय प्रकार आहे. मध्यबिंदू जवळच्या सरासरीने ठरवला जातो, म्हणूनच हे नाव. क्लस्टरपासूनचे चौरस अंतर कमी केले जाते.
- **सेंट्रोइड क्लस्टरिंग**. ही लोकप्रिय पद्धत 'k' निवडण्याची आवश्यकता असते, म्हणजे तयार होणाऱ्या क्लस्टर्सची संख्या, ज्यानंतर अल्गोरिदम एका क्लस्टरचा केंद्र बिंदू ठरवतो आणि त्या बिंदूपाशी डेटा जमवतो. [K-means क्लस्टरिंग](https://wikipedia.org/wiki/K-means_clustering) ही सेंट्रोइड क्लस्टरिंगची एक लोकप्रिय आवृत्ती आहे. केंद्र नजीकच्या सरासरीने ठरवले जाते, त्यामुळे नाव. वर्गापासूनचा वर्गफळ अंतर कमी करावा लागतो.
![सेंट्रॉइड क्लस्टरिंग इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/centroid.png)
> इन्फोग्राफिक: [दसानी मदीपल्ली](https://twitter.com/dasani_decoded)
![सेंट्रोइड क्लस्टरिंग इन्फोग्राफिक](../../../../translated_images/mr/centroid.097fde836cf6c918.webp)
> इन्फोग्राफिक: [Dasani Madipalli](https://twitter.com/dasani_decoded)
- **डिस्ट्रिब्युशन-आधारित क्लस्टरिंग**. सांख्यिकी मॉडेलिंगवर आधारित, डिस्ट्रिब्युशन-आधारित क्लस्टरिंग क्लस्टरशी संबंधित असण्याची शक्यता ठरवते आणि त्यानुसार डेटा पॉइंट असाइन करते. Gaussian mixture पद्धती या प्रकारात येतात.
- **वितरण-आधारित क्लस्टरिंग**. सांख्यिकी मॉडेलिंगवर आधारित, वितरण-आधारित क्लस्टरिंग डेटाचा कुठल्या क्लस्टरशी संबंधित असण्याची शक्यता ठरवते आणि त्यानुसार वर्गीकरण करते. Gaussian mixture पद्धती यामध्ये येतात.
- **डेंसिटी-आधारित क्लस्टरिंग**. डेटा पॉइंट्स त्यांच्या घनतेच्या आधारावर क्लस्टर्समध्ये असाइन केले जातात, किंवा ते एकमेकांभोवती कसे गटबद्ध होतात यावर आधारित असतात. गटापासून दूर असलेले डेटा पॉइंट्स आउटलायर्स किंवा गोंधळ मानले जातात. DBSCAN, Mean-shift आणि OPTICS या प्रकारात येतात.
- **घनता-आधारित क्लस्टरिंग**. डेटा पॉइंट्स त्याच्या घनतेवरून, म्हणजे एकमेकांच्या सभोवताल कसे जमले आहेत त्यावरून वर्गीकृत केले जातात. गटापासून दूर असलेले पॉइंट्स आउटलाईयर्स किंवा आवाज म्हणून ओळखले जातात. DBSCAN, Mean-shift आणि OPTICS या प्रकारच्या क्लस्टरिंगचा भाग आहेत.
- **ग्रिड-आधारित क्लस्टरिंग**. बहु-आयामी डेटासेटसाठी, एक ग्रिड तयार केला जातो आणि डेटा ग्रिडच्या सेल्समध्ये विभागला जातो, ज्यामुळे क्लस्टर्स तयार होतात.
- **ग्रिड-आधारित क्लस्टरिंग**. बहुआयामी डेटासाठी, एक ग्रिड तयार केला जातो आणि डेटा ग्रिडच्या कक्षांमध्ये विभागला जातो, ज्यामुळे क्लस्टर तयार होतात.
## व्यायाम - तुमचा डेटा क्लस्टर करा
क्लस्टरिंग ही तंत्रे योग्य व्हिज्युअलायझेशनने खूप मदत होते, त्यामुळे चला आपल्या संगीत डेटाचे व्हिज्युअलायझेशन करून सुरुवात करूया. हा व्यायाम आपल्याला ठरवण्यास मदत करेल की या डेटाच्या स्वरूपासाठी कोणती क्लस्टरिंग पद्धत सर्वात प्रभावीपणे वापरावी.
क्लस्टरिंगची तंत्रशास्त्र योग्य व्हिज्युअलायझेशनने खूप मदत होते, म्हणून चला आपला संगीत डेटा व्हिज्युअलाइज करून प्रारंभ करूया. हा व्यायाम आम्हाला ठरवायला मदत करेल की क्लस्टरिंगच्या कोणत्या पद्धती आम्हाला या डेटाच्या स्वरूपासाठी सगळ्यात प्रभावी वापरायच्या आहेत.
1. या फोल्डरमधील [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) फाल उघडा.
1. या फोल्डरमधील [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) फाल उघडा.
1. चांगल्या डेटा व्हिज्युअलायझेशनसाठी `Seaborn` पॅकेज आयात करा.
@ -110,7 +110,7 @@
!pip install seaborn
```
1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) मधून गाण्यांचा डेटा जोडा. गाण्यांबद्दल काही डेटासह एक डेटा फ्रेम लोड करा. लायब्ररी आयात करून आणि डेटा डंप करून हा डेटा एक्सप्लोर करण्यासाठी तयार व्हा:
1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) मधून गाण्यांचा डेटा जोडा. गाण्यांविषयी काही डेटा असलेला डेटा फ्रेम लोड करा. हे डेटा एक्सप्लोर करण्यासाठी तयारी करा, लायब्रऱ्या इंपोर्ट करा आणि डेटा आउट करा:
```python
import matplotlib.pyplot as plt
@ -120,20 +120,23 @@
df.head()
```
डेटाच्या पहिल्या काही ओळी तपासा:
डेटा पुढीलप्रमाणे तपासा:
| | नाव | अल्बम | कलाकार | कलाकाराचा टॉप जॉनर | रिलीज डेट | लांबी | लोकप्रियता | डान्सेबिलिटी | अकॉस्टिकनेस | ऊर्जा | इन्स्ट्रुमेंट
| 2 | LITT! | LITT! | AYLØ | इंडी आर&बी | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 |
| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | नायजेरियन पॉप | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 |
| 4 | wanted you | rare. | Odunsi (The Engine) | अफ्रोपॉप | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 |
| | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature |
| --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- |
| 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 |
| 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 |
| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 |
| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 |
| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 |
1. डेटा फ्रेमबद्दल माहिती मिळवा, `info()` कॉल करून:
1. डेटाफ्रेमबद्दल काही माहिती मिळवा, `info()` कॉल करून:
```python
df.info()
```
आउटपुट असे दिसे:
आउटपुट असे दिसे:
```output
<class 'pandas.core.frame.DataFrame'>
@ -161,13 +164,13 @@
memory usage: 66.4+ KB
```
1. शून्य मूल्यांसाठी पुन्हा तपासा, `isnull()` कॉल करून आणि त्याची बेरीज 0 असल्याची खात्री करून:
1. नल व्हॅल्युसाठी डबल-चेक करा, `isnull()` कॉल करून आणि त्याचा योग 0 आहे की नाही हे तपासा:
```python
df.isnull().sum()
```
सर्व काही व्यवस्थित दिसत आहे:
चांगले दिसत आहे:
```output
name 0
@ -206,11 +209,11 @@
| 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 |
| max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 |
> 🤔 जर आपण क्लस्टरिंगसारख्या अनसुपरवाइज्ड पद्धतीसह काम करत असू, ज्यासाठी लेबल केलेल्या डेटाची आवश्यकता नाही, तर आपण हे लेबल्ससह डेटा का दाखवत आहोत? डेटा एक्सप्लोरेशन टप्प्यात ते उपयुक्त ठरतात, परंतु क्लस्टरिंग अल्गोरिदमसाठी ते आवश्यक नाहीत. आपण कॉलम हेडर्स काढून टाकू शकता आणि डेटा कॉलम क्रमांकाने संदर्भित करू शकता.
> 🤔 जर आपण क्लस्टरिंगसह काम करत असू, जे एक अनसुपर्व्हाइज्ड पद्धत आहे जे लेबल केलेल्या डेटाची गरज नाही, तर आपण हा डेटा लेबल्ससह का दाखवत आहोत? डेटाचा अन्वेषण टप्प्यात हे उपयुक्त ठरते, पण क्लस्टरिंग अल्गोरिदमसाठी ते आवश्यक नाही. तुम्ही फक्त कॉलम हेडर्स काढून फक्त कॉलम नंबरने डेटाकडे संदर्भ देऊ शकता.
डेटाच्या सामान्य मूल्यांकडे लक्ष द्या. लक्षात घ्या की लोकप्रियता '0' असू शकते, जी अशा गाण्यांचे प्रतिनिधित्व करते ज्यांना कोणतीही रँकिंग नाही. चला ती लवकरच काढून टाकूया.
डेटाच्या सामान्य मूल्यांकडे पाहा. लक्षात ठेवा की popularity '0' असू शकते, ज्यामुळे गाणी ज्यांना रँकिंग नाही ती दाखवतात. आपण लवकरच ती काढू.
1. बारप्लॉट वापरून सर्वात लोकप्रिय शैली शोधा:
1. सर्वात लोकप्रिय शैली शोधण्यासाठी बारप्लॉट वापरा:
```python
import seaborn as sns
@ -222,13 +225,13 @@
plt.title('Top genres',color = 'blue')
```
![most popular](../../../../5-Clustering/1-Visualize/images/popular.png)
![most popular](../../../../translated_images/mr/popular.9c48d84b3386705f.webp)
जर तुम्हाला आणखी टॉप मूल्ये पाहायची असतील, तर टॉप `[:5]` मोठ्या मूल्याने बदला किंवा सर्व पाहण्यासाठी ते काढून टाका.
अधिक टॉप मूल्ये पाहण्यासाठी, top `[:5]` मध्ये मोठी संख्या वापरा, किंवा ते काढून सर्व पाहा.
लक्षात घ्या, जेव्हा टॉप शैली 'Missing' म्हणून वर्णन केली जाते, याचा अर्थ Spotify ने ती वर्गीकृत केलेली नाही, म्हणून ती काढून टाकूया.
नोट करा, जेव्हा टॉप शैली 'Missing' म्हणून दिली जाते, म्हणजे स्पॉटिफायने त्याची वर्गवारी केलेली नाही, तर ती काढून टाका.
1. गहाळ डेटा फिल्टर करून काढून टाका:
1. मिसिंग डेटा काढून टाका:
```python
df = df[df['artist_top_genre'] != 'Missing']
@ -241,9 +244,9 @@
आता शैली पुन्हा तपासा:
![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png)
![most popular](../../../../translated_images/mr/all-genres.1d56ef06cefbfcd6.webp)
1. आतापर्यंत, टॉप तीन शैली या डेटासेटमध्ये वर्चस्व गाजवतात. चला `afro dancehall`, `afropop`, आणि `nigerian pop` यावर लक्ष केंद्रित करूया, तसेच डेटासेटमधून 0 लोकप्रियता मूल्य असलेले काहीही काढून टाकूया (याचा अर्थ डेटासेटमध्ये लोकप्रियतेसह वर्गीकृत केले गेले नाही आणि आपल्या उद्दिष्टांसाठी ते नॉईज मानले जाऊ शकते):
1. या डेटासेटमध्ये टॉप तीन शैली बहुमत आहेत. आपण `afro dancehall`, `afropop` आणि `nigerian pop` यांवर लक्ष केंद्रित करूया, आणि तसेच 0 popularity मूल्य असलेली कोणतीही नोंद काढून टाकूया (म्हणजे त्यात लोकप्रियता वर्गवारी नव्हती आणि आपल्यासाठी ती नॉईज मानली जाऊ शकते):
```python
df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')]
@ -255,7 +258,7 @@
plt.title('Top genres',color = 'blue')
```
1. डेटा कोणत्याही विशेषतः मजबूत पद्धतीने संबंधित आहे का हे पाहण्यासाठी एक जलद चाचणी करा:
1. डेटा कोणत्याही ठळक प्रकारे संवादित होतो का हे लवकर तपासणी करा:
```python
corrmat = df.corr(numeric_only=True)
@ -263,21 +266,21 @@
sns.heatmap(corrmat, vmax=.8, square=True)
```
![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png)
![correlations](../../../../translated_images/mr/correlation.a9356bb798f5eea5.webp)
`energy` आणि `loudness` यांच्यातील एकमेव मजबूत संबंध आहे, जे आश्चर्यकारक नाही, कारण जोरात संगीत सहसा खूप उर्जावान असते. अन्यथा, संबंध तुलनेने कमकुवत आहेत. क्लस्टरिंग अल्गोरिदम या डेटामधून काय शोधू शकतो हे पाहणे मनोरंजक असेल.
एकमेव ठळक संवाद ऊर्जा (energy) आणि आवाज (loudness) यामध्ये आहे, जे आश्चर्यकारक नाही, कारण मोठ्या आवाजाचे संगीत सहसा जास्त ऊर्जा असते. अन्यथा, संवाद तुलनेने कमकुवत आहेत. हा डेटा क्लस्टरिंग अल्गोरिदम कशा प्रकारे वापरू शकतो हे पहाणे मनोरंजक होईल.
> 🎓 लक्षात घ्या की संबंध म्हणजे कारण नसते! आपल्याकडे संबंधाचा पुरावा आहे परंतु कारणाचा पुरावा नाही. [एक मनोरंजक वेबसाइट](https://tylervigen.com/spurious-correlations) काही व्हिज्युअल्ससह हे मुद्दा अधोरेखित करते.
> 🎓 लक्षात ठेवा की संवाद म्हणजे कारण नाही! आमच्याकडे संवादाचा पुरावा आहे पण कारणाचा नाही. [एक मनोरंजक वेबसाइट](https://tylervigen.com/spurious-correlations) यावर याचा चांगला व्हिज्युअल्स आहेत.
या डेटासेटमध्ये गाण्याच्या लोकप्रियतेच्या आणि नृत्यक्षमतेच्या धारणा याभोवती कोणतेही अभिसरण आहे का? एक FacetGrid दर्शवते की, शैलीच्या बाबतीतही, एकसंध वर्तुळे दिसतात. नायजेरियन आवडी या शैलीसाठी नृत्यक्षमतेच्या विशिष्ट पातळीवर अभिसरण करतात का?
या डेटासेटमध्ये गाण्याच्या लोकप्रियता आणि नृत्यशीलतेमध्ये कोणतीही संगती आहे का? FacetGrid दर्शवितो की संकेंद्रित वर्तुळ आहेत जे शैलीवर अवलंबून नाहीत. कदाचित नायजेरियन संगीताचा काही ठराविक नृत्यशीलता स्तरावर एकरूपता आहे का?
✅ वेगवेगळ्या डेटा पॉइंट्स (energy, loudness, speechiness) आणि अधिक किंवा वेगळ्या संगीत शैलींचा प्रयत्न करा. तुम्हाला काय सापडते? डेटा पॉइंट्सच्या सामान्य पसरटपणाचे निरीक्षण करण्यासाठी `df.describe()` टेबलकडे लक्ष द्या.
✅ वेगवेगळ्या डेटा पॉइंट्स (energy, loudness, speechiness) आणि अधिक किंवा वेगवेगळ्या संगीत शैली वापरून पहा. तुम्ही काय शोधू शकता? `df.describe()` टेबल पाहून डेटाच्या सामान्य फैलावाचा आढावा घ्या.
### व्यायाम - डेटा वितरण
लोकप्रियतेच्या आधारे या तीन शैली त्यांच्या नृत्यक्षमतेच्या धारणा यामध्ये लक्षणीय भिन्न आहेत का?
या तीन शैली लोकप्रियतेच्या आधारे त्यांच्या नृत्यशीलतेच्या धारणा मध्ये लक्षणीय फरक आहेत का?
1. दिलेल्या x आणि y अक्षांवर लोकप्रियता आणि नृत्यक्षमता यासाठी आमच्या टॉप तीन शैलींच्या डेटाचे वितरण तपासा.
1. आपल्या टॉप तीन शैलींचा लोकप्रियता आणि नृत्यशीलतेचा डेटा वितरण विश्लेषण करा, दिलेल्या x आणि y अक्षांवर.
```python
sns.set_theme(style="ticks")
@ -289,15 +292,15 @@
)
```
तुम्हाला अभिसरणाच्या सामान्य बिंदूभोवती एकसंध वर्तुळे सापडतील, जी पॉइंट्सचे वितरण दर्शवतात.
तुम्ही एकरूपतेभोवती संकेंद्रित वर्तुळ शोधू शकता, जे बिंदूंचे वितरण दर्शवितात.
> 🎓 लक्षात घ्या की या उदाहरणात KDE (Kernel Density Estimate) ग्राफ वापरला जातो, जो डेटा सतत संभाव्यता घनतेच्या वक्राचा वापर करून दर्शवतो. हे आपल्याला एकाधिक वितरणांवर काम करताना डेटा समजून घेण्यास अनुमती देते.
> 🎓 ही उदाहरण KDE (कर्नेल डेन्सिटी एस्टिमेट) ग्राफ वापरते, जी सतत शक्यता घनतेचा वक्र वापरून डेटा दर्शविते. हे आपल्याला अनेक वितरणांसोबत काम करताना डेटा समजावण्यास मदत करते.
एकूणच, लोकप्रियता आणि नृत्यक्षमता याच्या बाबतीत तीन शैली सैलपणे संरेखित होतात. या सैल-संरेखित डेटामध्ये क्लस्टर ठरवणे एक आव्हान असेल:
सर्वसाधारणपणे, तीनही शैली लोकप्रियता आणि नृत्यशीलतेच्या दृष्टीने थोडक्यात एकरूप आहेत. या थोडक्यात एकरूप डेटामध्ये क्लस्टर शोधणे आव्हानात्मक ठरेल:
![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png)
![distribution](../../../../translated_images/mr/distribution.9be11df42356ca95.webp)
1. स्कॅटर प्लॉट तयार करा:
1. एक स्कॅटर प्लॉट तयार करा:
```python
sns.FacetGrid(df, hue="artist_top_genre", height=5) \
@ -305,31 +308,33 @@
.add_legend()
```
त्याच अक्षांवरील स्कॅटरप्लॉट समान अभिसरण पॅटर्न दर्शवतो:
त्या अक्षांचे स्कॅटरप्लॉट समान एकरूपतेचा नमुना दर्शवितो
![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png)
![Facetgrid](../../../../translated_images/mr/facetgrid.9b2e65ce707eba1f.webp)
सामान्यत, क्लस्टरिंगसाठी, तुम्ही डेटा क्लस्टर्स दर्शविण्यासाठी स्कॅटरप्लॉट्स वापरू शकता, त्यामुळे या प्रकारच्या व्हिज्युअलायझेशनमध्ये प्रवीण होणे खूप उपयुक्त आहे. पुढील धड्यात, आम्ही हे फिल्टर केलेले डेटा घेऊ आणि k-means क्लस्टरिंग वापरून या डेटामध्ये ओव्हरलॅप होणाऱ्या गटांचा शोध घेऊ.
सामान्यत: क्लस्टरिंगसाठी, तुम्ही डेटा क्लस्टर दाखवण्यासाठी स्कॅटरप्लॉट्स वापरू शकता, त्यामुळे या प्रकारच्या व्हिज्युअलायझेशनवर प्रभुत्व मिळवणे खूप उपयुक्त आहे. पुढील धड्यात, आपण हा फिल्टर केलेला डेटा घेऊन k-means क्लस्टरिंग वापरून अशा गटांचा शोध घेऊ जे रोचक पद्धतीने ओव्हरलॅप होतात.
---
## 🚀 आव्हान
## 🚀आव्हान
पुढील धड्यासाठी तयारी करताना, तुम्ही उत्पादन वातावरणात शोधू शकता आणि वापरू शकता अशा विविध क्लस्टरिंग अल्गोरिदम्सबद्दल चार्ट तयार करा. क्लस्टरिंग कोणत्या प्रकारच्या समस्यांचे निराकरण करण्याचा प्रयत्न करत आहे?
पुढील धड्यासाठी तयारी म्हणून, वेगवेगळ्या क्लस्टरिंग अल्गोरिदमवर एक चार्ट तयार करा जे तुम्हाला उत्पादन वातावरणात आढळतील आणि वापरू शकता. क्लस्टरिंग कोणत्या प्रकारच्या समस्यांना सोडवण्याचा प्रयत्न करते?
## [पोस्ट-लेक्चर क्विझ](https://ff-quizzes.netlify.app/en/ml/)
## [धडा-नंतर क्विझ](https://ff-quizzes.netlify.app/en/ml/)
## पुनरावलोकन आणि स्व-अभ्यास
## पुनरावलोकन आणि स्वअध्ययन
क्लस्टरिंग अल्गोरिदम लागू करण्यापूर्वी, आपण शिकलो आहोत की, आपल्या डेटासेटच्या स्वरूपाचे समजून घेणे चांगले आहे. या विषयावर अधिक वाचा [येथे](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)
क्लस्टरिंग अल्गोरिदम लागू करण्याआधी, जसे आपण शिकले आहे, आपल्या डेटासेटचा स्वभाव समजून घेणे चांगले आहे. या विषयावर अधिक वाचा [थे](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)
[हा उपयुक्त लेख](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) तुम्हाला वेगवेगळ्या डेटाच्या आकारांनुसार विविध क्लस्टरिंग अल्गोरिदम्स कसे वागतात याबद्दल मार्गदर्शन करतो.
[हा उपयुक्त लेख](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) तुम्हाला विविध क्लस्टरिंग अल्गोरिदम कसे वागतात हे वेगवेगळ्या डेटाच्या आकारानुसार समजावून सांगतो.
## असाइनमेंट
[क्लस्टरिंगसाठी इतर व्हिज्युअलायझेशन शोधा](assignment.md)
[क्लस्टरिंगसाठी इतर व्हिज्युअलायझेशन संशोधन करा](assignment.md)
---
**अस्वीकरण**:
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**अस्वीकरण**:
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून अनुवादित केला आहे. जरी आम्ही अचूकतेसाठी प्रयत्न करतो, तरी कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेची कमतरता असू शकते. मूळ दस्तऐवज त्याच्या मूळ भाषेत अधिकृत स्रोत मानला पाहिजे. महत्त्वाची माहिती असल्यास, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराच्या वापरामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थलावणीसाठी आम्ही जबाबदार नाही.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -1,7 +1,7 @@
{
"1-Introduction/1-intro-to-ML/README.md": {
"original_hash": "69389392fa6346e0dfa30f664b7b6fec",
"translation_date": "2025-09-06T06:34:34+00:00",
"original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0",
"translation_date": "2026-05-26T23:02:59+00:00",
"source_file": "1-Introduction/1-intro-to-ML/README.md",
"language_code": "ne"
},
@ -240,8 +240,8 @@
"language_code": "ne"
},
"5-Clustering/1-Visualize/README.md": {
"original_hash": "730225ea274c9174fe688b21d421539d",
"translation_date": "2025-09-06T06:30:09+00:00",
"original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd",
"translation_date": "2026-05-26T23:02:27+00:00",
"source_file": "5-Clustering/1-Visualize/README.md",
"language_code": "ne"
},

@ -1,150 +1,157 @@
# मेसिन लर्निङको परिचय
# मेसिन शिक्षाको परिचय
## [ाठ अघि क्विज](https://ff-quizzes.netlify.app/en/ml/)
## [ूर्व-व्याख्यान प्रश्नोत्तरी](https://ff-quizzes.netlify.app/en/ml/)
---
[![सुरुवातका लागि मेसिन लर्निङ - मेसिन लर्निङको परिचय](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "सुरुवातका लागि मेसिन लर्निङ - मेसिन लर्निङको परिचय")
[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners")
> 🎥 माथिको तस्बिरमा क्लिक गरेर यस पाठको छोटो भिडियो हेर्नुहोस्
> 🎥 माथिको चित्रमा क्लिक गर्नुहोस् यस पाठलाई काम गर्दैछ छोटो भिडियोको लागि
सुरुवातका लागि क्लासिकल मेसिन लर्निङको यो पाठ्यक्रममा स्वागत छ! तपाईं यस विषयमा बिल्कुल नयाँ हुनुहुन्छ वा अनुभवी ML अभ्यासकर्ता हुनुहुन्छ जसले कुनै क्षेत्रलाई पुनः अध्ययन गर्न चाहनुहुन्छ, हामी तपाईंलाई यहाँ सामेल भएकोमा खुसी छौं! हामी तपाईंको ML अध्ययनको लागि मैत्रीपूर्ण सुरुवातको ठाउँ सिर्जना गर्न चाहन्छौं र तपाईंको [प्रतिक्रिया](https://github.com/microsoft/ML-For-Beginners/discussions) मूल्याङ्कन, प्रतिक्रिया दिन, र समावेश गर्न खुसी हुनेछौं।
यो आरम्भिकहरूका लागि शास्त्रीय मेसिन शिक्षाको कोर्समा स्वागत छ! तपाईं यस विषयमा बिल्कुल नयाँ हुनुहुन्छ वा अनुभवी ML अभ्यासकर्ता हुनुहुन्छ जुन कुनै क्षेत्रलाई नयाँ गर्दै हुनुहुन्छ, हामी तपाईंलाई स्वागत गर्न पाउँदा खुशी छौं! हामी तपाईंको ML अध्ययनको लागि एक मैत्री प्रारम्भिक स्थान सिर्जना गर्न चाहन्छौं र तपाईंको [प्रतिक्रिया](https://github.com/microsoft/ML-For-Beginners/discussions) मूल्यांकन गर्न, जवाफ दिन र समावेश गर्न इच्छुक छौं।
[![मेसिन लर्निङको परिचय](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "मेसिन लर्निङको परिचय")
[![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML")
> 🎥 माथिको तस्बिरमा क्लिक गरेर भिडियो हेर्नुहोस्: MIT का John Guttag ले मेसिन लर्निङको परिचय दिनुहुन्छ
> 🎥 माथिको चित्रमा क्लिक गर्नुहोस् एउटा भिडियोका लागि: MIT का जॉन गुटट्यागले मेसिन शिक्षाको परिचय दिनुहुन्छ
---
## मेसिन लर्निङ सुरु गर्दै
## मेसिन शिक्षासँग कसरी सुरु गर्ने
यस पाठ्यक्रम सुरु गर्नु अघि, तपाईंको कम्प्युटरलाई स्थानीय रूपमा नोटबुक चलाउन तयार गर्न आवश्यक छ।
यस पाठ्यक्रम सुरु गर्नु अघि, तपाईंले आफ्नो कम्प्युटरलाई स्थानीय रूपमा नोटबुकहरू चलाउन तयार पार्न आवश्यक छ।
- **तपाईंको मेसिनलाई यी भिडियोहरूसँग कन्फिगर गर्नुहोस्**। [Python कसरी इन्स्टल गर्ने](https://youtu.be/CXZYvNRIAKM) र विकासको लागि [टेक्स्ट एडिटर सेटअप गर्ने](https://youtu.be/EU8eayHWoZg) सिक्न निम्न लिंकहरू प्रयोग गर्नुहोस्।
- **Python सिक्नुहोस्**। [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) को आधारभूत ज्ञान हुनु सिफारिस गरिन्छ, जुन डाटा वैज्ञानिकहरूको लागि उपयोगी प्रोग्रामिङ भाषा हो र हामी यस पाठ्यक्रममा प्रयोग गर्छौं।
- **Node.js र JavaScript सिक्नुहोस्**। हामी यस पाठ्यक्रममा वेब एप्स निर्माण गर्दा केही पटक JavaScript प्रयोग गर्छौं, त्यसैले तपाईंले [node](https://nodejs.org) र [npm](https://www.npmjs.com/) इन्स्टल गर्नुपर्नेछ, साथै [Visual Studio Code](https://code.visualstudio.com/) Python र JavaScript विकासको लागि उपलब्ध हुनुपर्नेछ।
- **GitHub खाता बनाउनुहोस्**। तपाईंले हामीलाई यहाँ [GitHub](https://github.com) मा भेट्नुभएको हुनाले, तपाईंले पहिले नै खाता बनाइसक्नुभएको हुन सक्छ, तर यदि छैन भने, एउटा खाता बनाउनुहोस् र यो पाठ्यक्रमलाई आफ्नो लागि फोर्क गर्नुहोस्। (हामीलाई स्टार दिन नबिर्सिनुहोस् 😊)
- **Scikit-learn अन्वेषण गर्नुहोस्**। [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) को साथ परिचित हुनुहोस्, ML पुस्तकालयहरूको सेट जसलाई हामी यी पाठहरूमा सन्दर्भ गर्छौं।
- **यी भिडियोहरू मार्फत आफ्नो मेसिन कन्फिगर गर्नुहोस्**। तपाईंको प्रणालीमा [Python कसरी स्थापना गर्ने](https://youtu.be/CXZYvNRIAKM) र विकासका लागि [टेक्स्ट सम्पादक सेटअप](https://youtu.be/EU8eayHWoZg) गर्ने सिक्न तलका लिंकहरू प्रयोग गर्नुहोस्।
- **Python सिक्नुहोस्**। [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) को आधारभूत समझ हुनु सिफारिस गरिन्छ, जुन डेटा वैज्ञानिकहरूका लागि उपयोगी प्रोग्रामिङ्ग भाषा हो र हामी यस पाठ्यक्रममा प्रयोग गर्छौं।
- **Node.js र JavaScript सिक्नुहोस्**। हामी यस पाठ्यक्रममा वेब एप्स निर्माण गर्दा JavaScript पनि केही पटक प्रयोग गर्छौं, त्यसैले तपाईंले [node](https://nodejs.org) र [npm](https://www.npmjs.com/) स्थापना गर्नु पर्नेछ, साथै Python र JavaScript विकासका लागि [Visual Studio Code](https://code.visualstudio.com/) पनि उपलब्ध हुनु पर्छ।
- **GitHub खाता बनाउनुहोस्**। तपाईंले यहाँ [GitHub](https://github.com) मा हामीलाई भेट्टाउनुभएको छ भने, तपाईं सायद पहिले नै खाता हुनुहुन्छ, तर नभए एउटा बनाउनुहोस् र यो पाठ्यक्रमलाई आफ्नो लागि fork गर्नुहोस्। (हामीलाई स्टार दिन नहिचकिचाउनुहोस्, 😊)
- **Scikit-learn अन्वेषण गर्नुहोस्**। [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) सँग परिचित हुनुहोस्, जुन ML पुस्तकालयहरूको सेट हो जुन हामी यी पाठहरूमा उल्लेख गर्छौं।
---
## मेसिन लर्निङ के हो?
## मेसिन शिक्षा के हो?
'मेसिन लर्निङ' शब्द आजको सबैभन्दा लोकप्रिय र बारम्बार प्रयोग गरिने शब्दहरू मध्ये एक हो। यदि तपाईं प्रविधिसँग केही प्रकारको परिचित हुनुहुन्छ भने, तपाईंले यो शब्द कम्तिमा एक पटक सुन्नुभएको सम्भावना छ। तर, मेसिन लर्निङको यान्त्रिकी अधिकांश व्यक्तिहरूका लागि रहस्यमय छ। मेसिन लर्निङको सुरुवात गर्ने व्यक्तिका लागि, विषय कहिलेकाहीँ भारी लाग्न सक्छ। त्यसैले, मेसिन लर्निङ वास्तवमा के हो भन्ने बुझ्न र व्यावहारिक उदाहरणहरू मार्फत चरणबद्ध रूपमा सिक्न महत्त्वपूर्ण छ।
'मेसिन शिक्षा' शब्द आजको सबैभन्दा लोकप्रिय र प्रायः प्रयोग हुने शब्दहरूमध्ये एक हो। तपाईंले यो शब्द कम्तीमा एक पटक सुन्नु भएको हुनसक्छ यदि तपाईंलाई प्रविधिसँग कुनै न कुनै परिचय छ भने, तपाई कुन क्षेत्रमा काम गर्नुहुन्छ भनेर हेरेर। मेसिन शिक्षाको तन्त्र भने धेरैका लागि रहस्य नै हो। एक मेसिन शिक्षा नवसिखुवालाई यो विषय कहिलेकाहीं भारी लाग्न सक्छ। त्यसैले, यो बुझ्न महत्त्वपूर्ण छ कि मेसिन शिक्षा वास्तवमा के हो र व्यावहारिक उदाहरणहरू मार्फत चरणबद्ध रूपमा सिक्नुपर्छ।
---
## हाइप कर्भ
![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png)
![ml hype curve](../../../../translated_images/ne/hype.07183d711a17aafe.webp)
> Google Trends ले 'मेसिन लर्निङ' शब्दको हालको 'हाइप कर्भ' देखाउँछ।
> Google Trends ले हालको 'हाइप कर्भ' देखाउँछ 'मेसिन शिक्षा' शब्दको
---
## एक रहस्यमय ब्रह्माण्ड
हामी एक रहस्यमय ब्रह्माण्डमा बस्छौं। Stephen Hawking, Albert Einstein जस्ता महान वैज्ञानिकहरूले आफ्नो जीवनलाई वरपरको संसारका रहस्यहरू उजागर गर्ने अर्थपूर्ण जानकारी खोज्न समर्पित गरेका छन्। यो सिक्ने मानव अवस्था हो: एक मानव बच्चाले नयाँ कुरा सिक्छ र वयस्कतामा बढ्दै जाँदा आफ्नो संसारको संरचना उजागर गर्छ
हामी रहस्यमय कुराहरूले भरिएको ब्रह्माण्डमा बाँचिरहेका छौं। महान वैज्ञानिकहरू जस्तै स्टीफन हकिङ, अल्बर्ट आइन्स्टाइन र धेरैले हामी वरिपरि रहेको संसारका रहस्यमय कुराहरू पत्ता लगाउन आफ्नो जीवन समर्पित गरेका छन्। यो मानवको सिक्ने अवस्था हो: एउटा बालबालिका नयाँ कुरा सिक्छ र वर्षे वर्षे आफ्नो संसारको संरचना पत्ता लगाउँछ जब उनीहरू वयस्क हुन्छन्
---
## बच्चाको मस्तिष्क
## बालकको मस्तिष्क
च्चाको मस्तिष्क र इन्द्रियहरूले आफ्नो वरपरको तथ्यहरू बुझ्छन् र जीवनका लुकेका ढाँचाहरू क्रमिक रूपमा सिक्छन् जसले बच्चालाई सिकेका ढाँचाहरू पहिचान गर्न तार्किक नियमहरू निर्माण गर्न मद्दत गर्छ। मानव मस्तिष्कको सिक्ने प्रक्रियाले मानिसलाई यो संसारको सबैभन्दा परिष्कृत जीवित प्राणी बनाउँछ। लुकेका ढाँचाहरू पत्ता लगाएर निरन्तर सिक्दै र त्यस ढाँचाहरूमा नवीनता ल्याउँदै हामीलाई हाम्रो जीवनभरि आफूलाई राम्रो बनाउने क्षमता दिन्छ। यो सिक्ने क्षमता र विकास गर्ने क्षमता [मस्तिष्कको प्लास्टिसिटी](https://www.simplypsychology.org/brain-plasticity.html) नामक अवधारणासँग सम्बन्धित छ। सतही रूपमा, हामी मानव मस्तिष्कको सिक्ने प्रक्रियाको प्रेरणात्मक समानताहरू मेसिन लर्निङको अवधारणासँग तुलना गर्न सक्छौं।
बालकको मस्तिष्क र इन्द्रियमहरूले आफ्नो वरिपरि रहेका तथ्यहरू महसुस गरेर क्रमिक रूपमा जीवनका लुकेका ढाँचाहरू सिक्छन् जसले बालकलाई सिकेका ढाँचाहरू पहिचान गर्न तार्किक नियमहरू बनाउन मद्दत गर्छ। मानव मस्तिष्कको सिक्ने प्रक्रिया मानिसहरूलाई यो संसारको सबैभन्दा जटिल जीव बनाउँछ। लुकेका ढाँचाहरू पत्ता लगाएर निरन्तर सिक्ने र त्यसपछि तिनीहरूमा नवनिर्माण गर्ने प्रयासले हाम्रो जीवनभर हामीलाई अझ राम्रो बनाउँछ। यो सिक्ने क्षमता र विकासशील योग्यता [मस्तिष्क प्लास्टिसिटी](https://www.simplypsychology.org/brain-plasticity.html) भनिने अवधारणासँग सम्बन्धित छ। सतही रूपमा, हामी मेसिन शिक्षा र मानव मस्तिष्कको सिक्ने प्रक्रियामा केही प्रेरणादायी समानता देख्न सक्छौं।
---
## मानव मस्तिष्क
[मानव मस्तिष्क](https://www.livescience.com/29365-human-brain.html) वास्तविक संसारबाट कुराहरू बुझ्छ, बुझिएको जानकारीलाई प्रक्रिया गर्छ, तार्किक निर्णयहरू लिन्छ, र परिस्थितिको आधारमा निश्चित कार्यहरू गर्छ। यसलाई हामी बुद्धिमानीपूर्वक व्यवहार गर्ने भन्छौं। जब हामी बुद्धिमानी व्यवहार प्रक्रियाको प्रतिकृति मेसिनमा प्रोग्राम गर्छौं, यसलाई कृत्रिम बुद्धिमत्ता (AI) भनिन्छ।
[मानव मस्तिष्क](https://www.livescience.com/29365-human-brain.html) ले वास्तविक संसारबाट कुरा महसुस गर्छ, प्राप्त जानकारी प्रशोधन गर्छ, तार्किक निर्णय लिन्छ, र परिस्थिति अनुसार केही गतिविधि गर्छ। यसलाई हामी बौद्धिक रूपमा व्यवहार गर्नु भनिन्छ। जब हामी बुद्धिमानी व्यवहार प्रक्रियाको झलक एउटा मेसिनमा प्रोग्राम गर्छौं, त्यसलाई कृत्रिम बुद्धिमत्ता (AI) भनिन्छ।
---
## केही शब्दावली
द्यपि शब्दहरू भ्रमित हुन सक्छन्, मेसिन लर्निङ (ML) कृत्रिम बुद्धिमत्ताको महत्त्वपूर्ण उपसमूह हो। **ML विशेष एल्गोरिदमहरू प्रयोग गरेर बुझिएको डाटाबाट अर्थपूर्ण जानकारी पत्ता लगाउन र लुकेका ढाँचाहरू खोज्न सम्बन्धित छ जसले तार्किक निर्णय प्रक्रियालाई समर्थन गर्छ।**
ो शब्दहरूमा कहिलेकाहीं भ्रम हुन सक्छ, मेसिन शिक्षा (ML) कृत्रिम बुद्धिमत्ताको एउटा महत्वपूर्ण उपसमूह हो। **ML विशेष एल्गोरिदमहरू प्रयोग गरेर अर्थपूर्ण जानकारी पत्ता लगाउन र प्राप्त भएको डाटाबाट लुकेका ढाँचाहरू खोजी गरेर तार्किक निर्णय प्रक्रियालाई पुष्ट्याउन सम्बन्धित छ।**
---
## AI, ML, डीप लर्निङ
## AI, ML, गहिरो शिक्षा
![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png)
![AI, ML, deep learning, data science](../../../../translated_images/ne/ai-ml-ds.537ea441b124ebf6.webp)
> AI, ML, डीप लर्निङ, र डाटा साइन्स बीचको सम्बन्ध देखाउने एक चित्र। [Jen Looper](https://twitter.com/jenlooper) द्वाा बनाइएको इन्फोग्राफिक [यो ग्राफिक](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) बाट प्रेरित।
> AI, ML, गहिरो शिक्षा, और डाटा साइन्सबीच सम्बन्ध देखाउने आरेख। जानकारीचित्र Jen Looper द्वारा [Jen Looper](https://twitter.com/jenlooper) र [यो ग्राफिक](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) बाट प्रेरित।
---
## कभर गर्नुपर्ने अवधारणाहरू
## विचारहरू समेट्ने
यस पाठ्यक्रममा, हामी मेसिन लर्निङका मुख्य अवधारणाहरू मात्र कभर गर्नेछौं जुन एक सुरुवातकर्ताले जान्नैपर्छ। हामी 'क्लासिकल मेसिन लर्निङ' लाई मुख्य रूपमा Scikit-learn प्रयोग गरेर कभर गर्छौं, एक उत्कृष्ट पुस्तकालय जसलाई धेरै विद्यार्थीहरूले आधारभूत कुरा सिक्न प्रयोग गर्छन्। कृत्रिम बुद्धिमत्ता वा डीप लर्निङका व्यापक अवधारणाहरू बुझ्न, मेसिन लर्निङको बलियो आधारभूत ज्ञान अपरिहार्य छ, र त्यसैले हामी यसलाई यहाँ प्रस्ताव गर्न चाहन्छौं।
यस पाठ्यक्रममा, हामी केवल मूलभूत मेसिन शिक्षाका अवधारणाहरू मात्र समेट्नेछौं जुन एक नवसिखुवा जान्नुपर्ने हुन्छ। हामी मुख्यतया Scikit-learn प्रयोग गरेर 'शास्त्रीय मेसिन शिक्षा' भनेर चिनिने कुरा कभर गर्छौं, जुन धेरै विद्यार्थीहरूले आधारहरू सिक्न प्रयोग गर्ने उत्कृष्ट पुस्तकालय हो। कृत्रिम बुद्धिमत्ता वा गहिरो शिक्षा का विस्तृत अवधारणाहरू बुझ्नको लागि, मेसिन शिक्षाको बलियो आधारभूत ज्ञान अनिवार्य हुन्छ, त्यसैले हामी यसलाई यहाँ प्रदान गर्न चाहन्छौं।
---
## यस पाठ्यक्रममा तपाईंले सिक्नुहुनेछ:
## यस कोर्समा तपाईंले सिक्नेछ:
- मेसिन लर्निङका मुख्य अवधारणाहरू
- मेसिन शिक्षाका मूल अवधारणाहरू
- ML को इतिहास
- ML र निष्पक्षता
- ML र न्‍याय
- रिग्रेसन ML प्रविधिहरू
- वर्गीकरण ML प्रविधिहरू
- क्लस्टरिङ ML प्रविधिहरू
- प्राकृतिक भाषा प्रशोधन ML प्रविधिहरू
- प्राकृतिक भाषा प्रक्रिया ML प्रविधिहरू
- समय श्रृंखला पूर्वानुमान ML प्रविधिहरू
- सुदृढीकरण लर्निङ
- ML को वास्तविक जीवनमा प्रयोगहरू
- पुरस्कार शिक्षण
- ML का वास्तविक संसारमा प्रयोगहरू
---
## हामी के कभर गर्नेछैनौं
## हामी के कभर गर्ने छैनौं
- डीप लर्निङ
- न्युरल नेटवर्कहरू
- गहिरो शिक्षा
- न्युरल नेटवर्क
- AI
सिक्ने अनुभवलाई राम्रो बनाउन, हामी न्युरल नेटवर्कहरूको जटिलता, 'डीप लर्निङ' - न्युरल नेटवर्कहरू प्रयोग गरेर धेरै तहको मोडेल निर्माण - र AI लाई टाढा राख्नेछौं, जुन हामी अर्को पाठ्यक्रममा छलफल गर्नेछौं। हामी डाटा साइन्समा केन्द्रित गर्न आगामी पाठ्यक्रम पनि प्रस्ताव गर्नेछौं।
अझ राम्रो सिकाइ अनुभवको लागि, हामी न्युरल नेटवर्क, 'गहिरो शिक्षा'—न्युरल नेटवर्कहरूको बहु-स्तरीय मोडल निर्माण—र AI को जटिलतालाई टाढा राख्नेछौं, जसलाई हामी अर्को पाठ्यक्रममा छलफल गर्नेछौं। हामी आगामी डाटा साइन्स पाठ्यक्रम पनि प्रस्ताव गर्नेछौं जसले यस ठुलो क्षेत्रमा त्यो पक्षमा केन्द्रित हुनेछ
---
## किन मेसिन लर्निङ अध्ययन गर्ने?
## किन मेसिन शिक्षा अध्ययन गर्ने?
मेसिन लर्निङलाई प्रणालीको दृष्टिकोणबाट परिभाषित गर्दा, डाटाबाट लुकेका ढाँचाहरू सिक्न र बुद्धिमानी निर्णय लिन सहयोग पुर्‍याउने स्वचालित प्रणालीहरूको निर्माण हो
मेसिन शिक्षा प्रणालीको दृष्टिले, डाटाबाट लुकेका ढाँचाहरू सिक्न सक्ने स्वचालित प्रणालीहरूको सिर्जना भनेर परिभाषित गरिन्छ जसले बुद्धिमानी निर्णय लिन मद्दत गर्दछ
यो प्रेरणा मानव मस्तिष्कले बाहिरी संसारबाट बुझ्ने डाटाको आधारमा केही कुरा कसरी सिक्छ भन्ने कुराबाट ढिलो प्रेरित छ
यो प्रेरणा मोटे रूपमा मानव मस्तिष्कले बन्द बाहिरी संसारबाट पाएको डाटामा आधारित केही कुरा सिक्ने तरिकाबाट आएको हो
एक मिनेट सोच्नुहोस् कि किन कुनै व्यवसायले हार्ड-कोड गरिएको नियम-आधारित इन्जिन बनाउने सट्टा मेसिन लर्निङ रणनीतिहरू प्रयोग गर्न चाहन्छ।
केहि समय लिएर सोच्नुहोस् किन कुनै व्यवसायले हार्ड कोडेड नियम-आधारित इन्जिन बनाउनुभन्दा मेसिन शिक्षाको रणनीतिहरू प्रयोग गर्न चाहन्छ।
---
## मेसिन लर्निङका प्रयोगहरू
## किन डाटा गुणस्तर महत्त्वपूर्ण छ
मेसिन लर्निङका प्रयोगहरू अहिले लगभग सबै ठाउँमा छन्, र हाम्रो समाजमा प्रवाहित भइरहेको डाटाजस्तै सर्वव्यापी छन्, जुन हाम्रो स्मार्ट फोन, जडित उपकरणहरू, र अन्य प्रणालीहरूले उत्पन्न गर्छन्। अत्याधुनिक मेसिन लर्निङ एल्गोरिदमहरूको विशाल सम्भावनालाई ध्यानमा राख्दै, अनुसन्धानकर्ताहरूले बहु-आयामिक र बहु-अनुशासनात्मक वास्तविक जीवनका समस्याहरू समाधान गर्न यसको क्षमता अन्वेषण गर्दै आएका छन्
उच्च गुणस्तरको डाटाले मोडलको प्रदर्शन सुधार्छ। खराब वा आवाजयुक्त डाटाले गलत पूर्वानुमान गराउन सक्छ, यद्यपि उन्नत मेसिन शिक्षा एल्गोरिदमहरू प्रयोग गरिए पनि
---
## लागू गरिएको ML का उदाहरणहरू
## मेसिन शिक्षाका प्रयोगहरू
**तपाईं मेसिन लर्निङलाई धेरै तरिकामा प्रयोग गर्न सक्नुहुन्छ**:
मेसिन शिक्षाका प्रयोगहरू अहिले लगभग सबै ठाउँमा छन्, र हाम्रो समाजमा बगिरहेको डाटा जस्तो सर्वव्यापी छन्। आधुनिक मेसिन शिक्षा एल्गोरिदमहरूको विशाल सम्भावनालाई ध्यानमा राख्दै, अनुसन्धानकर्ताहरूले तिनीहरूको क्षमता बहुआयामिक र बहुविषयक वास्तविक जीवन समस्याहरू समाधान गर्न खोजिरहेका छन् र सकारात्मक परिणामहरू पाइसकेका छन्।
- बिरामीको मेडिकल इतिहास वा रिपोर्टबाट रोगको सम्भावना पूर्वानुमान गर्न।
- मौसम डाटालाई प्रयोग गरेर मौसम घटनाहरू पूर्वानुमान गर्न।
---
## लागु गरिएको ML का उदाहरणहरू
**तपाईं मेसिन शिक्षा थुप्रै तरिकाले प्रयोग गर्न सक्नुहुन्छ**:
- रोगको सम्भावना बिरामीको मेडिकल इतिहास वा रिपोर्टबाट पूर्वानुमान गर्न।
- मौसम घटनाहरूको पूर्वानुमान गर्न मौसम डाटा प्रयोग गर्न।
- पाठको भावना बुझ्न।
- गलत समाचार पत्ता लगाएर प्रचार रोक्न।
- झूटा खबर पत्ता लगाउन र प्रचार रोक्न।
वित्त, अर्थशास्त्र, पृथ्वी विज्ञान, अन्तरिक्ष अन्वेषण, जैव चिकित्सा इन्जिनियरिङ, संज्ञानात्मक विज्ञान, र मानविकीका क्षेत्रहरूले पनि मेसिन लर्निङलाई आफ्नो क्षेत्रका कठिन, डाटा-प्रशोधन भारी समस्याहरू समाधान गर्न अनुकूलित गरेका छन्।
वित्त, अर्थशास्त्र, पृथ्वी विज्ञान, अन्तरिक्ष अन्वेषण, जैविक इन्जिनियरिङ्ग, संज्ञानात्मक विज्ञान, र मानविकीका क्षेत्रहरूले पनि मेसिन शिक्षालाई आफ्ना थकित डाटा प्रशोधन समस्याहरू समाधान गर्न अनुकूलित गरेका छन्।
---
## निष्कर्ष
मेसिन लर्निङले वास्तविक संसार वा उत्पन्न डाटाबाट अर्थपूर्ण जानकारी पत्ता लगाएर ढाँचाको खोजी प्रक्रियालाई स्वचालित बनाउँछ। यसले व्यवसाय, स्वास्थ्य, र वित्तीय अनुप्रयोगहरूमा अत्यधिक मूल्यवान साबित गरेको छ।
मेसिन शिक्षाले वास्तविक संसार वा उत्पन्न गरिएको डाटाबाट अर्थपूर्ण अन्तर्दृष्टिहरू पत्ता लगाएर ढाँचा पत्ता लगाउने प्रक्रिया स्वचालित गर्दछ। यसले व्यवसाय, स्वास्थ्य, वित्त लगायतका क्षेत्रहरूमा अत्यन्त उपयोगी सावित गरेको छ।
िकट भविष्यमा, मेसिन लर्निङको आधारभूत कुरा बुझ्नु कुनै पनि क्षेत्रका व्यक्तिहरूका लागि अनिवार्य हुने छ यसको व्यापक अपनत्वका कारण
जिकैको भविष्यमा, कुनै पनि क्षेत्रका मानिसहरूका लागि मेसिन शिक्षाका आधारभूत कुरा बुझ्नु अनिवार्य हुने छ किनभने यसको व्यापक अंगीकरण हुँदैछ
---
# 🚀 चुनौती
कागजमा वा [Excalidraw](https://excalidraw.com/) जस्ता अनलाइन एप प्रयोग गरेर, AI, ML, डीप लर्निङ, र डाटा साइन्स बीचको भिन्नता बुझ्ने आफ्नो समझको स्केच बनाउनुहोस्। यी प्रविधिहरूले समाधान गर्न सक्ने समस्याहरूको केही विचारहरू थप्नुहोस्।
पेपरमा वा [Excalidraw](https://excalidraw.com/) जस्तो अनलाइन एप प्रयोग गरेर, AI, ML, गहिरो शिक्षा, र डाटा साइन्सबीचको भिन्नताहरू तपाईको बुझाइ स्केच गर्नुहोस्। यी प्रत्येक प्रविधिले राम्रोसँग समाधान गर्न सक्ने समस्या सम्बन्धमा केही विचारहरू थप्नुहोस्।
# [ाठ पछि क्विज](https://ff-quizzes.netlify.app/en/ml/)
# [ोस्ट-व्याख्यान प्रश्नोत्तरी](https://ff-quizzes.netlify.app/en/ml/)
---
# समीक्षा र आत्म अध्ययन
# समीक्षा र आत्म-अध्ययन
क्लाउडमा ML एल्गोरिदमहरूसँग कसरी काम गर्न सकिन्छ भन्ने बारे थप जान्न, यो [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) अनुसरण गर्नुहोस्।
ML एल्गोरिदमहरू क्लाउडमा कसरी काम गर्छन् भन्ने बारे थप जान्नका लागि यस [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) लाई पछ्याउनुहोस्।
ML को आधारभूत कुरा बारे [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) लिनुहोस्।
ML का आधारहरू बारे [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) को पाठ ग्रहण गर्नुहोस्।
---
# असाइनमेन्ट
[ुरु गर्नुहोस्](assignment.md)
[ञ्चालन सुरु गर्नुहोस्](assignment.md)
---
**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको हो। हामी सही हुन प्रयास गर्छौं, तर कृपया जानकार हुनुस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छन्। मूल दस्तावेज़ यसको मूल भाषामा आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीका लागि व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न कुनै पनि गलत बुझाइ वा त्रुटिको लागि हामी जिम्मेवार छैनौं।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -1,116 +1,116 @@
# क्लस्टरिङको परिचय
# क्लस्टरिङको परिचय
क्लस्टरिङ [अनसुपरभाइज्ड लर्निङ](https://wikipedia.org/wiki/Unsupervised_learning) को एक प्रकार हो जसले मान्छे कि डाटासेट लेबल गरिएको छैन वा यसको इनपुटहरू पूर्वनिर्धारित आउटपुटहरूसँग मिलाइएको छैन भन्ने मान्यता राख्छ। यसले विभिन्न एल्गोरिदमहरू प्रयोग गरेर लेबल नगरिएको डाटालाई क्रमबद्ध गर्दछ र डाटामा देखिने ढाँचाहरूको आधारमा समूहहरू प्रदान गर्दछ।
क्लस्टरिङ्को प्रकार हो [अनुपर्यवेक्षित सिकाइ](https://wikipedia.org/wiki/Unsupervised_learning) जसले मान्दछ कि कुनै डेटा सेट अनलेबल गरिएको छ वा यसको इनपुटहरू पूर्वनिर्धारित आउटपुटसँग मेल खाएको छैन। यसले विभिन्न एल्गोरिदमहरू प्रयोग गरेर अनलेबल गरिएको डाटामा क्रमबद्ध गर्दछ र डाटामा देखिएका ढाँचाहरूसँग मिलेर समूहहरू प्रदान गर्दछ।
[![PSquare द्वारा "No One Like You"](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "PSquare द्वारा 'No One Like You'")
[![PSquare द्वारा No One Like You](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "PSquare द्वारा No One Like You")
> 🎥 माथिको तस्बिरमा क्लिक गर्नुहोस् भिडियो हेर्न। क्लस्टरिङको साथमा मेसिन लर्निङ अध्ययन गर्दा, केही नाइजेरियन डान्स हल ट्र्याक्सको मजा लिनुहोस् - यो PSquare द्वारा २०१४ को अत्यधिक मूल्याङ्कन गरिएको गीत हो।
> 🎥 माथिको छविमा क्लिक गरेर भिडियो हेर्नुहोस्। तपाईं मेशिन लर्निङ्को अध्ययन गर्नुभएका बेला, नाइजेरियन डान्स हल ट्रयाकहरू मजा लिनुहोस् - यो PSquare द्वारा 2014 को उच्च मूल्याङ्कन गरिएको गीत हो।
## [प्री-लेक्चर क्विज](https://ff-quizzes.netlify.app/en/ml/)
## [प्री-व्याख्यान क्विज](https://ff-quizzes.netlify.app/en/ml/)
### परिचय
[क्लस्टरिङ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डाटा अन्वेषणको लागि धेरै उपयोगी छ। हेर्नुहोस् कि यसले नाइजेरियन दर्शकहरूले संगीत कसरी उपभोग गर्छन् भन्ने प्रवृत्ति र ढाँचाहरू पत्ता लगाउन मद्दत गर्न सक्छ कि सक्दैन
[क्लस्टरिङ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) डेटा अन्वेषणको लागि निकै उपयोगी छ। आउनुहोस् नाइजेरियन दर्शकहरूले संगीत कसरी उपभोग गर्छन् भन्ने तरिकामा ट्रेन्ड र ढाँचाहरू पत्ता लगाउन मद्दत गर्न सक्छ कि छैन हेर्नौं
✅ क्लस्टरिङको उपयोगबारे सोच्न एक मिनेट लिनुहोस्। वास्तविक जीवनमा, क्लस्टरिङ तब हुन्छ जब तपाईंसँग कपडाको थुप्रो हुन्छ र तपाईंले आफ्नो परिवारका सदस्यहरूको कपडा छुट्याउनुपर्छ 🧦👕👖🩲। डाटा साइन्समा, क्लस्टरिङ तब हुन्छ जब प्रयोगकर्ताको प्राथमिकताहरू विश्लेषण गर्ने प्रयास गरिन्छ, वा कुनै लेबल नगरिएको डाटासेटको विशेषताहरू निर्धारण गरिन्छ। क्लस्टरिङ, एक प्रकारले, अराजकतालाई बुझ्न मद्दत गर्दछ, जस्तै मोजाको दराज।
✅ क्लस्टरिङ्को प्रयोगबारे एक मिनेट सोच्नुहोस्। वास्तविक जीवनमा, क्लस्टरिङ तब हुन्छ जब तपाईं संग लुगा भरेको ढोका हुन्छ र तपाईं आफ्ना परिवारका सदस्यहरूको लुगा छुट्याउनु पर्छ 🧦👕👖🩲। डेटा विज्ञानमा, क्लस्टरिङ तब हुन्छ जब प्रयोगकर्ताहरूका प्राथमिकताहरू विश्लेषण गर्न वा कुनै पनि अनलेबल गरिएको डेटा सेटका विशेषताहरू निर्धारण गर्न खोजिन्छ। क्लस्टरिङ एक तरिकाले अव्यवस्था बुझ्न मद्दत पुर्‍याउँछ, जस्तै एक मोजा दराज।
[![ML को परिचय](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "क्लस्टरिङको परिचय")
[![एमएलमा परिचय](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "क्लस्टरिङमा परिचय")
> 🎥 माथिको तस्बिरमा क्लिक गर्नुहोस् भिडियो हेर्न: MIT का John Guttag ले क्लस्टरिङको परिचय दिन्छन्।
> 🎥 माथिको छविमा क्लिक गरेर भिडियो हेर्नुहोस्: MIT को John Guttag ले क्लस्टरिङ्गको परिचय गराउँछन्
व्यावसायिक सेटिङमा, क्लस्टरिङ बजार विभाजन जस्ता कुराहरू निर्धारण गर्न प्रयोग गर्न सकिन्छ, उदाहरणका लागि कुन उमेर समूहले कुन वस्तुहरू किन्छ। अर्को उपयोग अनियमितता पत्ता लगाउने हो, सम्भवतः क्रेडिट कार्ड लेनदेनको डाटासेटबाट ठगी पत्ता लगाउन। वा तपाईंले मेडिकल स्क्यानहरूको ब्याचमा ट्युमरहरू निर्धारण गर्न क्लस्टरिङ प्रयोग गर्न सक्नुहुन्छ।
पेशागत परिवेशमा, क्लस्टरिङ बजार खंडीकरण जस्ता कुरा निर्धारण गर्न प्रयोग गरिन्छ, जस्तै कुन उमेर समूहले कुन वस्तुहरू किन्छ। अर्को उपयोग अनियमितता पत्ता लगाउने जस्तै क्रेडिट कार्ड कारोबार डेटा सेटबाट ठगी पत्ता लगाउन सकिन्छ। वा तपाईं मेडिकल स्क्यानहरूको ब्याचमा ट्युमरहरू पत्ता लगाउन क्लस्टरिङ प्रयोग गर्न सक्नुहुन्छ।
बैंकिङ, ई-कमर्स, वा व्यापार सेटिङमा तपाईंले 'जङ्गलमा' क्लस्टरिङलाई कसरी भेट्नुभएको छ भनेर सोच्न एक मिनेट लिनुहोस्
सोच्नुहोस् तपाईंले बैंकिङ, ई-वाणिज्य, वा व्यवसाय सेटिङमा 'जङ्गल'मा क्लस्टरिङ कसरी भेट्टाउनुभएको छ
> 🎓 रोचक कुरा, क्लस्टर विश्लेषणको उत्पत्ति १९३० को दशकमा मानवशास्त्र र मनोविज्ञानको क्षेत्रमा भएको थियो। तपाईं कल्पना गर्न सक्नुहुन्छ कि यसलाई कसरी प्रयोग गरिएको हुन सक्छ?
> 🎓 रोचक कुरा, क्लस्टर विश्लेषण 1930 को दशकमा मानवशास्त्र र मनोविज्ञानका क्षेत्रहरूमा उत्पन्न भएको थियो। तपाईं सोच्न सक्नुहुन्छ यसलाई कसरी प्रयोग गरिएको हुनसक्छ?
वैकल्पिक रूपमा, तपाईंले यसलाई खोज परिणामहरू समूह गर्न प्रयोग गर्न सक्नुहुन्छ - किनमेल लिङ्कहरू, तस्बिरहरू, वा समीक्षाहरू द्वारा, उदाहरणका लागि। क्लस्टरिङ उपयोगी हुन्छ जब तपाईंसँग ठूलो डाटासेट हुन्छ जसलाई तपाईं घटाउन चाहनुहुन्छ र जसमा तपाईं थप सूक्ष्म विश्लेषण गर्न चाहनुहुन्छ, त्यसैले यो प्रविधि अन्य मोडेलहरू निर्माण गर्नु अघि डाटाबारे जान्न प्रयोग गर्न सकिन्छ।
अर्को विकल्पको रूपमा, तपाईं खोजी परिणामहरूलाई समूह गर्न सक्नुहुन्छ - उदाहरणका लागि किनमेल लिङ्कहरू, तस्वीरहरू, वा समीक्षा द्वारा। ठूलो डेटा सेट हुनुहुँदा यसलाई कम गर्न र थप सूक्ष्म विश्लेषण गर्न क्लस्टरिङ उपयोगी हुन्छ, यसैले यो प्रविधि अरू मोडेल निर्माण गर्नु अघि डेटा बारे सिक्न प्रयोग गर्न सकिन्छ।
✅ एकपटक तपाईंको डटा क्लस्टरहरूमा व्यवस्थित भएपछि, तपाईंले यसलाई क्लस्टर आईडी असाइन गर्नुहुन्छ, र यो प्रविधि डाटासेटको गोपनीयता सुरक्षित गर्दा उपयोगी हुन सक्छ; तपाईंले क्लस्टरको अन्य खुलासा गर्ने पहिचानयोग्य डाटाको सट्टा क्लस्टर आईडीद्वारा डाटाको बिन्दुलाई उल्लेख गर्न सक्नुहुन्छ। तपाईंले क्लस्टर आईडीलाई अन्य तत्वहरूको सट्टा पहिचान गर्न प्रयोग गर्ने अन्य कारणहरू सोच्न सक्नुहुन्छ?
✅ एकपटक तपाईंको डटा क्लस्टरहरूमा व्यवस्थित भएपछि, तपाईंले यसलाई क्लस्टर आइडि दिनुहुन्छ र यो प्रविधि डेटा सेटको गोपनीयता सुरक्षित राख्न पनि उपयोगी हुन्छ; तपाईं डेटा पोइन्टलाई पहिचानयोग्य डाटाको सट्टा क्लस्टर आइडिले जनाउन सक्नुहुन्छ। अरू के कारणहरूले तपाईंलाई क्लस्टर आइडि प्रयोग गर्न प्रेरित गर्नेछन्?
क्लस्टरिङ प्रविधिहरूको आफ्नो समझलाई यस [लर्न मोड्युल](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) मा गहिरो बनाउनुहोस्।
क्लस्टरिङ प्रविधिहरूको थप बुझाइका लागि यो [Learn मोड्युल](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) हेर्नुहोस्।
## क्लस्टरिङको सुरुवात
## क्लस्टरिङ सुरू गर्न
[Scikit-learn ले ठूलो संख्यामा विधिहरू](https://scikit-learn.org/stable/modules/clustering.html) क्लस्टरिङ गर्न प्रदान गर्दछ। तपाईंले कुन प्रकारको चयन गर्नुहुन्छ भन्ने कुरा तपाईंको उपयोग केसमा निर्भर गर्दछ। डकुमेन्टेशन अनुसार, प्रत्येक विधिले विभिन्न फाइदाहरू प्रदान गर्दछ। यहाँ Scikit-learn द्वारा समर्थित विधिहरू र तिनीहरूको उपयुक्त उपयोग केसहरूको सरल तालिका छ:
[Scikit-learn ले ठूलो संख्या](https://scikit-learn.org/stable/modules/clustering.html) का विधिहरू क्लस्टरिङ गर्न प्रस्ताव गर्दछ। तपाईंले चयन गर्ने प्रकार तपाईंको प्रयोग केसमा निर्भर हुन्छ। कागजात अनुसार हरेक विधिका विभिन्न फाइदाहरू छन्। यहाँ Scikit-learn द्वारा समर्थित विधिहरू र तिनका उपयुक्त प्रयोग केसहरू को सरल सारिणी प्रस्तुत छ:
| विधिको नाम | पयोग केस |
| :--------------------------- | :--------------------------------------------------------------------- |
| K-Means | सामान्य उद्देश्य, प्रेरक |
| Affinity propagation | धेरै, असमान क्लस्टरहरू, प्रेरक |
| Mean-shift | धेरै, असमान क्लस्टरहरू, प्रेरक |
| Spectral clustering | थोरै, समान क्लस्टरहरू, ट्रान्सडक्टिभ |
| Ward hierarchical clustering | धेरै, बाध्य क्लस्टरहरू, ट्रान्सडक्टिभ |
| Agglomerative clustering | धेरै, बाध्य, गैर-युक्लिडियन दूरीहरू, ट्रान्सडक्टिभ |
| DBSCAN | गैर-समतल ज्यामिति, असमान क्लस्टरहरू, ट्रान्सडक्टिभ |
| OPTICS | गैर-समतल ज्यामिति, असमान क्लस्टरहरू भिन्न घनत्वका साथ, ट्रान्सडक्टिभ |
| Gaussian mixtures | समतल ज्यामिति, प्रेरक |
| BIRCH | ठूलो डाटासेट आउटलायरहरूसँग, प्रेरक |
| विधि नाम | प्रयोग केस |
| :------------------------- | :---------------------------------------------------------------------- |
| K-Means | सामान्य प्रयोजन, प्रेरक |
| Affinity propagation | धेरै, असमान क्लस्टरहरू, प्रेरक |
| Mean-shift | धेरै, असमान क्लस्टरहरू, प्रेरक |
| Spectral clustering | केही, समान क्लस्टरहरू, प्रत्यक्ष |
| Ward hierarchical clustering| धेरै, सीमित क्लस्टरहरू, प्रत्यक्ष |
| Agglomerative clustering | धेरै, सीमित, गैर-यूक्लिडियन दूरी, प्रत्यक्ष |
| DBSCAN | गैर-समतल ज्यामिति, असमान क्लस्टरहरू, प्रत्यक्ष |
| OPTICS | गैर-समतल ज्यामिति, फरक घनत्व भएका असमान क्लस्टरहरू, प्रत्यक्ष |
| Gaussian mixtures | समतल ज्यामिति, प्रेरक |
| BIRCH | ठूलो डेटा सेट जसमा आउट्लायरहरू छन्, प्रेरक |
> 🎓 हामी कसरी क्लस्टरहरू बनाउँछौं भन्ने कुरा डाटाका बिन्दुहरूलाई समूहमा कसरी जम्मा गरिन्छ भन्ने कुरासँग धेरै सम्बन्धित छ। केही शब्दावलीलाई बुझौं:
> 🎓 हामी क्लस्टरहरू कसरी सिर्जना गर्छौं भन्ने कुरा धेरै हदसम्म डाटा पोइन्टहरूलाई समूहहरूमा कसरी संकलन गर्छौं भन्नेमा निर्भर गर्दछ। केहि शब्दावलीहरू खोलौं:
>
> 🎓 ['ट्रान्सडक्टिभ' बनाम 'प्रेरक'](https://wikipedia.org/wiki/Transduction_(machine_learning))
> 🎓 ['प्रत्यक्ष' र 'प्रेरक'](https://wikipedia.org/wiki/Transduction_(machine_learning))
>
> ट्रान्सडक्टिभ इनफरेन्स अवलोकन गरिएको प्रशिक्षण केसहरूबाट प्राप्त हुन्छ जुन विशिष्ट परीक्षण केसहरूसँग मिल्छ। प्रेरक इनफरेन्स प्रशिक्षण केसहरूबाट प्राप्त हुन्छ जुन सामान्य नियमहरूमा नक्सा गरिन्छ र त्यसपछि मात्र परीक्षण केसहरूमा लागू गरिन्छ
> प्रत्यक्ष अनुमान अवलोकित तालिम प्रकरणहरूबाट निकालिन्छ जुन विशिष्ट परीक्षण प्रकरणहरूसँग मिल्दछ। प्रेरक अनुमान तालिम प्रकरणहरूबाट निकालिन्छ जसले सामान्य नियमहरू बनाउँछ र ती पछि मात्र परीक्षण प्रकरणहरूमा लागू हुन्छन्
>
> उदाहरण: कल्पना गर्नुहोस् कि तपाईंको डाटासेट आंशिक रूपमा मात्र लेबल गरिएको छ। केही चीजहरू 'रेकर्ड्स', केही 'सीडीहरू', र केही खाली छन्। तपाईंको काम खाली ठाउँहरूको लागि लेबलहरू प्रदान गर्नु हो। यदि तपाईं प्रेरक दृष्टिकोण चयन गर्नुहुन्छ भने, तपाईंले 'रेकर्ड्स' र 'सीडीहरू' खोज्न मोडेल प्रशिक्षण गर्नुहुन्छ, र ती लेबलहरूलाई तपाईंको लेबल नगरिएको डाटामा लागू गर्नुहुन्छ। यस दृष्टिकोणले वास्तवमा 'क्यासेट्स' वर्गीकरण गर्न कठिनाइ हुनेछ। ट्रान्सडक्टिभ दृष्टिकोण, अर्कोतर्फ, यस अज्ञात डाटालाई अधिक प्रभावकारी रूपमा ह्यान्डल गर्दछ किनभने यसले समान वस्तुहरूलाई समूहमा राख्न काम गर्दछ र त्यसपछि समूहलाई लेबल लागू गर्दछ। यस अवस्थामा, क्लस्टरहरूले 'गोल संगीत चीजहरू' र 'चौकोर संगीत चीजहरू' प्रतिबिम्बित गर्न सक्छ।
> उदाहरण: तपाईंसँग आंशिक मात्र लेबल गरिएको डेटा सेट छ जसमा केही 'रेकर्ड्स' छन्, केही 'सीडीहरू' छन्, र केही खाली छन्। तपाईँको काम खाली ठाउँहरूलाई लेबल दिनु हो। यदि तपाईं प्रेरक तरीका रोज्नु भयो भने, तपाईं मोडेललाई 'रेकर्ड्स' र 'सीडीहरू' खोज्न तालिम दिनुहुनेछ र ती लेबलहरू अनलेबल डेटा माथि लागू गर्नुहुनेछ। यसले 'क्यासेट्स' जुन वर्गीकरण गर्न कठिन हुन्छ। तर प्रत्यक्ष तरीका यस अनजान डेटालाई राम्ररी सम्हाल्छ किनभने यो समान वस्तुहरूलाई समूहबद्ध गर्दछ र समूहमा लेबल लागू गर्दछ। यस अवस्थामा क्लस्टरहरूले 'गोलाकार सङ्गीत वस्तुहरू' र 'वर्गाकार सङ्गीत वस्तुहरू' प्रतिबिम्बित गर्न सक्छन्
>
> 🎓 ['गैर-समतल' बनाम 'समतल' ज्यामिति](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
> 🎓 ['गैर-समतल' 'समतल' ज्यामिति](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
>
> गणितीय शब्दावलीबाट व्युत्पन्न, गैर-समतल बनाम समतल ज्यामिति बिन्दुहरू बीचको दूरीलाई 'समतल' ([युक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) वा 'गैर-समतल' (गैर-यक्लिडियन) ज्यामितीय विधिहरू द्वारा मापन गर्ने कुरा हो।
> गणितीय शब्दावलीबाट निस्किएको, गैर-समतल र समतल ज्यामिति पोइन्टहरू बीचको दूरी नाप्न 'समतल' ([यूक्लिडियन](https://wikipedia.org/wiki/Euclidean_geometry)) वा 'गैर-समतल' (गैर-यक्लिडियन) ज्यामितीय विधिहरू हो।
>
>'समतल' यस सन्दर्भमा युक्लिडियन ज्यामिति (जसको केही भाग 'प्लेन' ज्यामिति भनेर पढाइन्छ) लाई जनाउँछ, र गैर-समतल गैर-युक्लिडियन ज्यामितिलाई जनाउँछ। मेसिन लर्निङसँग ज्यामिति के सम्बन्ध छ? खैर, गणितमा आधारित दुई क्षेत्रहरूका रूपमा, क्लस्टरहरूमा बिन्दुहरू बीचको दूरी मापन गर्न सामान्य तरिका हुनुपर्छ, र डाटाको प्रकृतिमा निर्भर गर्दै यो 'समतल' वा 'गैर-समतल' तरिकामा गर्न सकिन्छ। [युक्लिडियन दूरीहरू](https://wikipedia.org/wiki/Euclidean_distance) दुई बिन्दुहरू बीचको रेखा खण्डको लम्बाइको रूपमा मापन गरिन्छ। [गैर-युक्लिडियन दूरीहरू](https://wikipedia.org/wiki/Non-Euclidean_geometry) वक्रको साथमा मापन गरिन्छ। यदि तपाईंको डाटा, दृश्यात्मक रूपमा, प्लेनमा अवस्थित छैन जस्तो देखिन्छ, तपाईंले यसलाई ह्यान्डल गर्न विशेष एल्गोरिदम प्रयोग गर्न आवश्यक हुन सक्छ।
> यस सन्दर्भमा 'समतल' ले यूक्लिडियन ज्यामिति जनाउँछ (जुनमा 'समतल' ज्यामिति सिकाइन्छ), र गैर-समतल भनेको गैर-यूक्लिडियन ज्यामिति हो। ज्यामिती मेशिन लर्निङ्गसँग कसरी जोडिन्छ? किनभने यी दुई क्षेत्रहरू गणितमा आधारित छन् र क्लस्टरका पोइन्टहरूबीच दूरी नाप्ने साझा तरिका हुनुपर्छ, जुन डाटाको प्रकृतिमा निर्भर गर्दै 'समतल' वा 'गैर-समतल' तरिकाले मापन गर्न सकिन्छ। [यूक्लिडियन दूरीहरू](https://wikipedia.org/wiki/Euclidean_distance) दुई पोइन्टहरू बीचको रेखांशको लम्बाइ हो। [गैर-यूक्लिडियन दूरीहरू](https://wikipedia.org/wiki/Non-Euclidean_geometry) को मापन वक्रमा हुन्छ। यदि तपाईंको डेटा प्लेनमा नअट्ने देखिन्छ भने, तपाईंलाई यसलाई सम्हाल्न विशेष एल्गोरिदमको आवश्यकता पर्न सक्छ।
>
![समतल बनाम गैर-समतल ज्यामिति इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png)
> इन्फोग्राफिक [Dasani Madipalli](https://twitter.com/dasani_decoded) द्वारा
![समतल गैर-समतल ज्यामिति इन्फोग्राफिक](../../../../translated_images/ne/flat-nonflat.d1c8c6e2a96110c1.webp)
> इन्फोग्राफिक द्वारा [दासानी मडिपल्ली](https://twitter.com/dasani_decoded)
>
> 🎓 ['दूरीहरू'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)
>
> क्लस्टरहरू तिनीहरूको दूरी म्याट्रिक्सद्वारा परिभाषित गरिन्छ, जस्तै बिन्दुहरू बीचको दूरी। यो दूरी केही तरिकामा मापन गर्न सकिन्छ। युक्लिडियन क्लस्टरहरू बिन्दु मानहरूको औसतद्वारा परिभाषित गरिन्छ, र 'सेंट्रोइड' वा केन्द्र बिन्दु समावेश गर्दछ। दूरीहरू त्यसैले त्यो सेंट्रोइडको दूरीद्वारा मापन गरिन्छ। गैर-युक्लिडियन दूरीहरू 'क्लस्ट्रोइड्स' लाई जनाउँछ, अन्य बिन्दुहरू नजिकको बिन्दु। क्लस्ट्रोइड्स विभिन्न तरिकामा परिभाषित गर्न सकिन्छ।
> क्लस्टरहरू तिनीहरूको दूरी म्याट्रिक्स द्वारा परिभाषित हुन्छन्, उदाहरणका लागि पोइन्टहरू बीचको दूरीहरू। यी दूरीहरू विभिन्न तरिकाले मापन गर्न सकिन्छ। यूक्लिडियन क्लस्टरहरू पोइन्ट मानहरूको औसत र त्यसको 'सेंट्रोइड' वा केन्द्र पोइन्टले परिभाषित हुन्छन्। दूरीहरू त्यस सेंट्रोइडसम्मको दूरीले मापन गरिन्छ। गैर-यूक्लिडियन दूरीहरू 'क्लस्ट्रोइडहरू' लाई जनाउँछन्, जुन पोइन्टले झनै अन्य पोइन्टहरू नजिक हुन्छ। क्लस्ट्रोइडहरू विभिन्न तरिकाले परिभाषित गर्न सकिन्छ।
>
> 🎓 ['बाध्य'](https://wikipedia.org/wiki/Constrained_clustering)
> 🎓 ['सीमित'](https://wikipedia.org/wiki/Constrained_clustering)
>
> [बाध्य क्लस्टरिङ](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) यस अनसुपरभाइज्ड विधिमा 'सेमी-सुपरभाइज्ड' लर्निङलाई परिचय गराउँछ। बिन्दुहरू बीचको सम्बन्धहरू 'लिंक गर्न सकिँदैन' वा 'लिंक गर्नुपर्छ' भनेर झण्डा लगाइन्छ ताकि केही नियमहरू डाटासेटमा लागू गरिन्छ।
> [सीमित क्लस्टरिङ](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) ले यो अनुपर्यवेक्षित विधिमा 'अर्ध-पर्यवेक्षित' सिकाइ समावेश गर्दछ। पोइन्टहरूबीचका सम्बन्धहरूलाई 'लिंक गर्न सक्दैन' वा 'लिंक गर्नैपर्छ' को रूपमा चिन्ह लगाइन्छ र केही नियमहरू लागू गरिन्छ।
>
>उदाहरण: यदि एल्गोरिदमलाई लेबल नगरिएको वा सेमी-लेबल गरिएको डाटाको ब्याचमा स्वतन्त्र रूपमा सेट गरिन्छ भने, यसले उत्पादन गर्ने क्लस्टरहरू खराब गुणस्तरका हुन सक्छ। माथिको उदाहरणमा, क्लस्टरहरूले 'गोल संगीत चीजहरू' र 'चौकोर संगीत चीजहरू' र 'त्रिकोणीय चीजहरू' र 'कुकीहरू' समूह गर्न सक्छ। यदि केही बाधाहरू, वा नियमहरू लागू गरिन्छ ("वस्तु प्लास्टिकबाट बनेको हुनुपर्छ", "वस्तुले संगीत उत्पादन गर्न सक्षम हुनुपर्छ") यसले एल्गोरिदमलाई राम्रो विकल्पहरू बनाउन मद्दत गर्न सक्छ।
> उदाहरण: यदि एल्गोरिदमलाई असंलग्न वा अर्ध-संलग्न डेटामा स्वतन्त्र राखिन्छ भने क्लस्टरहरू कमजोर गुणस्तरका हुन सक्छन्। माथिको उदाहरणमा, क्लस्टरहरूले 'गोलाकार सङ्गीत वस्तुहरू', 'वर्गाकार सङ्गीत वस्तुहरू', 'त्रिकोणाकार वस्तुहरू' र 'कुकीहरू' समूह बनाउनेछन्। यदि केहि नियमहरू दिइन्छ ("वस्तु प्लास्टिकबाट बन्नैपर्छ", "वस्तुले सङ्गीत उत्पादन गर्न सक्छ") यो एल्गोरिदमलाई राम्ररी चयन गर्न मद्दत गर्दछ।
>
> 🎓 'घनत्व'
>
> 'शोरयुक्त' डाटालाई 'घनत्वयुक्त' मानिन्छ। प्रत्येक क्लस्टरमा बिन्दुहरू बीचको दूरी, जाँच गर्दा, अधिक वा कम घनत्वयुक्त, वा 'भीडभाड' हुन सक्छ, र यस प्रकारको डाटालाई उपयुक्त क्लस्टरिङ विधि प्रयोग गरेर विश्लेषण गर्न आवश्यक छ। [यो लेख](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) ले असमान क्लस्टर घनत्व भएको शोरयुक्त डाटासेट अन्वेषण गर्न K-Means क्लस्टरिङ बनाम HDBSCAN एल्गोरिदम प्रयोग गर्ने भिन्नता प्रदर्शन गर्दछ।
> 'शोर' भएको डेटा 'घना' ठानिन्छ। प्रत्येक क्लस्टरमा पोइन्टहरूबीचको दूरीहरू निरीक्षण गर्दा धेरै वा कम घना वा 'भीड भएको' हुन सक्छ, त्यसैले यस्तो डेटा उपयुक्त क्लस्टरिङ तरिकाले विश्लेषण गर्नुपर्छ। [यस लेख](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) ले K-Means क्लस्टरिङ र HDBSCAN एल्गोरिदम प्रयोग गरेर यस्तो शोरयुक्त डेटा सेटको असमान क्लस्टर घनत्वलाई कसरी व्याख्या गर्ने देखाउँछ।
## क्लस्टरिङ एल्गोरिदमहरू
क्लस्टरिङका १०० भन्दा बढी एल्गोरिदमहरू छन्, र तिनीहरूको उपयोग डाटाको प्रकृतिमा निर्भर गर्दछ। मुख्य एल्गोरिदमहरूबारे छलफल गरौं:
१०० भन्दा बढी क्लस्टरिङ एल्गोरिदमहरू छन्, र तिनीहरूको प्रयोग डेटा को प्रकृतिमा निर्भर हुन्छ। केही प्रमुख एल्गोरिदमहरू छलफल गरौं:
- **हायरार्किकल क्लस्टरिङ**। यदि कुनै वस्तु नजिकको वस्तुसँग यसको निकटताद्वारा वर्गीकृत गरिन्छ, टाढाको वस्तुसँग होइन, क्लस्टरहरू तिनीहरूको सदस्यहरूको अन्य वस्तुहरूसँगको दूरीद्वारा बनाइन्छ। Scikit-learn को agglomerative क्लस्टरिङ हायरार्किकल हो।
- **हायरेरार्किकल क्लस्टरिङ**। यदि कुनै वस्तु नजिकैको वस्तुसँगको नजिकाइले वर्गीकृत गरिएको हो भने, यो वस्तुको सदस्यहरूको दूरी अनुसार अन्य वस्तुसँग क्लस्टरहरू बनाइन्छ। Scikit-learn को agglomerative क्लस्टरिङ हायरेरार्किकल हो।
![हायरार्किकल क्लस्टरिङ इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/hierarchical.png)
> इन्फोग्राफिक [Dasani Madipalli](https://twitter.com/dasani_decoded) द्वारा
![हायरेरार्किकल क्लस्टरिङ इन्फोग्राफिक](../../../../translated_images/ne/hierarchical.bf59403aa43c8c47.webp)
> इन्फोग्राफिक द्वारा [दासानी मडिपल्ली](https://twitter.com/dasani_decoded)
- **सेंट्रोइड क्लस्टरिङ**। यो लोकप्रिय एल्गोरिदमले 'k', वा बनाउने क्लस्टरहरूको संख्या चयन गर्न आवश्यक छ, त्यसपछि एल्गोरिदमले क्लस्टरको केन्द्र बिन्दु निर्धारण गर्छ र त्यस बिन्दुको वरिपरि डाटा जम्मा गर्छ। [K-means क्लस्टरिङ](https://wikipedia.org/wiki/K-means_clustering) सेंट्रोइड क्लस्टरिङको लोकप्रिय संस्करण हो। केन्द्र नजिकको औसतद्वारा निर्धारण गरिन्छ, त्यसैले नाम
- **सेंट्रोइड क्लस्टरिङ**। यो लोकप्रिय एल्गोरिदम क्लस्टरहरूको संख्या 'k' छान्न आवश्यक छ, त्यसपछि एल्गोरिदमले क्लस्टरको केन्द्र बिन्दु निर्धारण गर्छ र त्यस वरिपरि डाटा जम्मा गर्छ। [K-means क्लस्टरिङ](https://wikipedia.org/wiki/K-means_clustering) सेंट्रोइड क्लस्टरिङको लोकप्रिय रूप हो। केन्द्र सबैभन्दा नजिकको औसत द्वारा निर्धारण हुन्छ। वर्गमूल दूरी न्यूनतम गरिन्छ
![सेंट्रोइड क्लस्टरिङ इन्फोग्राफिक](../../../../5-Clustering/1-Visualize/images/centroid.png)
> इन्फोग्राफिक [Dasani Madipalli](https://twitter.com/dasani_decoded) द्वारा
![सेंट्रोइड क्लस्टरिङ इन्फोग्राफिक](../../../../translated_images/ne/centroid.097fde836cf6c918.webp)
> इन्फोग्राफिक द्वारा [दासानी मडिपल्ली](https://twitter.com/dasani_decoded)
- **डिस्ट्रिब्युसन-आधारित क्लस्टरिङ**। सांख्यिकीय मोडलिङमा आधारित, डिस्ट्रिब्युसन-आधारित क्लस्टरिङले डाटा बिन्दु क्लस्टरमा पर्ने सम्भावना निर्धारण गर्न केन्द्रित गर्दछ, र त्यस अनुसार असाइन गर्दछ। Gaussian मिश्रण विधिहरू यस प्रकारमा पर्छन्।
- **वितरण आधारमा क्लस्टरिङ**। सांख्यिकीय नमूना आधारित यो क्लस्टरिङले डाटा पोइन्ट क्लस्टरमा पर्ने सम्भावना निर्धारण गर्दछ र त्यस अनुसार असाइन गर्दछ। Gaussian मिश्रण विधिहरू यस प्रकारमा पर्छन्।
- **डेंसिटी-आधारित क्लस्टरिङ**। डाटा बिन्दुहरू तिनीहरूको घनत्व, वा एकअर्काको वरिपरि समूहद्वारा क्लस्टरहरूमा असाइन गरिन्छ। समूहबाट टाढा रहेका डाटा बिन्दुहरू आउटलायरहरू वा शोर मानिन्छ। DBSCAN, Mean-shift र OPTICS यस प्रकारको क्लस्टरिङमा पर्छन्।
- **घनत्व आधारित क्लस्टरिङ**। पोइन्टहरूलाई तिनीहरूको घनत्व वा एकअर्काको वरिपरि समूहको आधारमा क्लस्टरमा वर्गीकृत गरिन्छ। समूहबाट टाढा रहेका पोइन्टहरू आउटलायर्स वा शोर मानिन्छ। DBSCAN, Mean-shift र OPTICSजस्ता एल्गोरिदमहरू यस प्रकारमा पर्छन्।
- **ग्रिड-आधारित क्लस्टरिङ**। बहु-आयामिक डाटासेटहरूको लागि, ग्रिड बनाइन्छ र डाटालाई ग्रिडको कोषहरूमा विभाजन गरिन्छ, यसरी क्लस्टरहरू बनाइन्छ।
- **ग्रिड आधारित क्लस्टरिङ**। बहु-आयामिक डेटासेटका लागि ग्रिड बनाइन्छ र डेटा ग्रिडको कोषहरूमा विभाजन गरिन्छ, जसले क्लस्टरहरू सिर्जना गर्दछ।
## अभ्यास - आफ्नो डाटालाई क्लस्टर गर्नुहोस्
## अभ्यास - तपाईंको डाटा क्लस्टर गर्नुहोस्
क्लस्टरिङ प्रविधि उचित दृश्यात्मकताबाट धेरै सहयोग प्राप्त गर्दछ, त्यसैले हाम्रो संगीत डाटालाई दृश्यात्मक बनाउन सुरु गरौं। यो अभ्यासले हामीलाई यो डाटाको प्रकृतिका लागि क्लस्टरिङको विधिहरू प्रभावकारी रूपमा प्रयोग गर्न निर्णय गर्न मद्दत गर्नेछ।
क्लस्टरिङ प्रविधि उपयुक्त भिजुअलाइजेसनबाट धेरै मद्दत पाउँछ, त्यसैले हामी हाम्रो संगीत डेटा भिजुअलाइज गरेर सुरु गरौं। यस अभ्यासले हामीलाई कुन क्लस्टरिङ विधि यस डेटा को प्रकृतिका लागि सबैभन्दा प्रभावकारी हुन्छ निर्धारण गर्न मद्दत गर्नेछ।
1. यस फोल्डरमा [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) फाइल खोल्नुहोस्।
1. यस फोल्डरमा रहेको [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) फाइल खोल्नुहोस्।
1. राम्रो डाटा दृश्यात्मकताको लागि `Seaborn` प्याकेज आयात गर्नुहोस्।
1. राम्रो डेटा भिजुअलाइजेसनका लागि `Seaborn` प्याकेज आयात गर्नुहोस्।
```python
!pip install seaborn
```
1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) बाट गीत डाटा थप्नुहोस्। गीतहरूको बारेमा केही डाटासहित डाटाफ्रेम लोड गर्नुहोस्। पुस्तकालयहरू आयात गरेर र डाटा डम्प गरेर यो डाटालाई अन्वेषण गर्न तयार हुनुहोस्:
1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) बाट गीतहरूको डेटा थप्नुहोस्। केही गीतहरूको डेटा सहित डाटाफ्रेम लोड गर्नुहोस्। पुस्तकालयहरू आयात गरेर र डेटा फ्याँकिनेर यो डेटा अन्वेषण गर्न तयार हुनुहोस्:
```python
import matplotlib.pyplot as plt
@ -120,23 +120,23 @@
df.head()
```
ाटाको पहिलो केही लाइनहरू जाँच गर्नुहोस्:
ेटा को केही पहिलो पंक्तिहरू जाँच गर्नुहोस्:
| | नाम | एल्बम | कलाकार | कलाकारको शीर्ष विधा | रिलिज मिति | लम्बाइ | लोकप्रियता | नृत्ययोग्यता | ध्वन्यात्मकता | ऊर्जा | वाद्ययन्त्रता | जीवन्तता | आवाजको स्तर | भाषणता | टेम्पो | समय हस्ताक्षर |
| --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- |
| 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 |
| 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 |
| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 |
| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 |
| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 |
| | नाम | एल्बम | कलाकार | कलाकार_शीर्ष_शैली | रिलिज_मिति | अवधि | लोकप्रियता | नृत्यशीलता | ध्वनिकता | ऊर्जा | वाद्यत्व | जीवितता | तीव्रता | भाषणशीलता | टेम्पो | समय-हस्ताक्षर |
| --- | ------------------------ | -------------------------- | ------------------- | ----------------- | ----------- | ------ | ----------- | ------------ | ------------ | -------- | ----------------- | -------- | ---------- | ------------ | --------- | --------------- |
| 0 | Sparky | Mandy & The Jungle | Cruel Santino | वैकल्पिक आर&बी | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 |
| 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE| Odunsi (The Engine) | अफ्रोपप | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 |
| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 |
| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 |
| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 |
1. `info()` प्रयोग गरेर डेटा फ्रेमको जानकारी प्राप्त गर्नुहोस्:
1. डाटाफ्रेमको केही जानकारी प्राप्त गर्नुहोस्, `info()` कल गरेर:
```python
df.info()
```
नतिजा यस प्रकार देखिन्छ:
आउटपुट यसरी देखिन्छ:
```output
<class 'pandas.core.frame.DataFrame'>
@ -164,7 +164,7 @@
memory usage: 66.4+ KB
```
1. `isnull()` प्रयोग गरेर खाली मानहरू दोहोरो जाँच गर्नुहोस् र सुनिश्चित गर्नुहोस् कि योग 0 छ:
1. null मानहरूको दोहोरो-जाँच गर्नुहोस्, `isnull()` कल गरेर र योगफल 0 भएको सुनिश्चित गरेर:
```python
df.isnull().sum()
@ -192,7 +192,7 @@
dtype: int64
```
1. डटा वर्णन गर्नुहोस्:
1. डटा वर्णन गर्नुहोस्:
```python
df.describe()
@ -209,11 +209,11 @@
| 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 |
| max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 |
> 🤔 यदि हामी क्लस्टरिङमा काम गरिरहेका छौं, जुन एक अनसुपरभाइज्ड विधि हो जसलाई लेबल गरिएको डेटा आवश्यक पर्दैन, किन हामी यो डेटा लेबलसहित देखाउँदैछौं? डेटा अन्वेषण चरणमा, तिनीहरू उपयोगी हुन्छन्, तर क्लस्टरिङ एल्गोरिदमहरू काम गर्न आवश्यक छैन। तपाईंले स्तम्भ शीर्षकहरू हटाएर डेटा स्तम्भ नम्बरद्वारा उल्लेख गर्न सक्नुहुन्छ।
> 🤔 यदि हामी क्लस्टरिङसँग काम गर्दैछौं, जुन एक अप्रशिक्षित विधि हो र जुन लेबल गरिएको डाटा आवश्यक पर्दैन, हामी किन यो डेटालाई लेबलहरूसँग देखाइरहेका छौं? डाटा अन्वेषण चरणमा, ती उपयोगी हुन्छन्, तर क्लस्टरिङ एल्गोरिद्महरू कार्य गर्नको लागि आवश्यक छैनन्। तपाईंले स्तम्भ हेडरहरू हटाएर डाटालाई स्तम्भ नम्बरले पनि सन्दर्भ गर्न सक्नुहुन्छ।
ेटाको सामान्य मानहरू हेर्नुहोस्। ध्यान दिनुहोस् कि लोकप्रियता '0' हुन सक्छ, जसले कुनै रैंकिंग नभएका गीतहरू देखाउँछ। चाँडै ती हटाउँ
ाटाका सामान्य मानहरू हेरौं। ध्यान दिनुहोस् कि लोकप्रियता '0' हुन सक्छ, जसले ती गीतहरू देखाउँछ जसको कुनै रैंक छैन। यिनलाई छोटो समयमा हटाऔं
1. बारप्लट प्रयोग गरेर सबैभन्दा लोकप्रिय विधाहरू पत्ता लगाउनुहोस्:
1. सबैभन्दा लोकप्रिय शैलीहरू पत्ता लगाउन बारप्लट प्रयोग गर्नुहोस्:
```python
import seaborn as sns
@ -225,13 +225,13 @@
plt.title('Top genres',color = 'blue')
```
![सबैभन्दा लोकप्रिय](../../../../5-Clustering/1-Visualize/images/popular.png)
![most popular](../../../../translated_images/ne/popular.9c48d84b3386705f.webp)
✅ यदि तपाईं थप शीर्ष मानहरू हेर्न चाहनुहुन्छ भने, शीर्ष `[:5]` लाई ठूलो मानमा परिवर्तन गर्नुहोस्, वा सबै हेर्न हटाउनुहोस्।
✅ यदि तपाईं बढी शीर्ष मानहरू हेर्न चाहनुहुन्छ भने, शीर्ष `[:5]` लाई ठूलो मानमा परिवर्तन गर्नुहोस् वा सम्पूर्ण देख्न यसको माथि हटाउनुहोस्।
ध्यान दिनुहोस्, जब शीर्ष विधा 'Missing' भनेर वर्णन गरिएको छ, यसको मतलब Spotify ले यसलाई वर्गीकृत गरेको छैन, त्यसैले यसलाई हटाऔं।
ध्यान दिनुहोस्, जब शीर्ष शैली 'Missing' भनेर वर्णन गरिएको छ, यसको अर्थ हो कि Spotify ले यसलाई वर्गीकृत गरेको छैन, त्यसैले यसलाई हटाऔं।
1. हराएको डेटा हटाउनुहोस्:
1. हराएको डाटा फिल्टर गरेर हटाउनुहोस्
```python
df = df[df['artist_top_genre'] != 'Missing']
@ -242,11 +242,11 @@
plt.title('Top genres',color = 'blue')
```
अब विधाहरू पुनः जाँच गर्नुहोस्:
अब शैलीहरूको पुन: जाँच गर्नुहोस्:
![सबै विधाहरू](../../../../5-Clustering/1-Visualize/images/all-genres.png)
![most popular](../../../../translated_images/ne/all-genres.1d56ef06cefbfcd6.webp)
1. तीन शीर्ष विधाहरूले यो डेटासेटलाई धेरै हदसम्म हावी गर्छन्। `afro dancehall`, `afropop`, र `nigerian pop` मा ध्यान केन्द्रित गरौं, साथै डेटासेटलाई 0 लोकप्रियता मान भएको कुनै पनि कुरा हटाउन फिल्टर गरौं (जसको मतलब यो डेटासेटमा लोकप्रियता वर्गीकृत गरिएको छैन र हाम्रो उद्देश्यका लागि शोर मान्न सकिन्छ):
1. यस डेटासेटमा सबैभन्दा अग्रणी तीन शैलीहरू छन्। अब `afro dancehall`, `afropop`, र `nigerian pop` मा ध्यान केन्द्रित गरौं र साथै 0 लोकप्रिय मूल्य भएको डाटालाई फिल्टर गरेर हटाऔं (यसको अर्थ छ कि यसले डेटासेटमा लोकप्रियता वर्गीकरण पाएको छैन र हाम्रा उद्देश्यको लागि यसलाई शोर मान्न सकिन्छ):
```python
df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')]
@ -258,7 +258,7 @@
plt.title('Top genres',color = 'blue')
```
1. डेटा कुनै विशेष रूपमा बलियो तरिकामा सम्बन्धित छ कि छैन भनेर छिटो परीक्षण गर्नुहोस्:
1. छिटो परीक्षण गर्नुहोस् कि डाटा कुनै विशेष रूपमा कडा सम्बन्धित छ कि छैन:
```python
corrmat = df.corr(numeric_only=True)
@ -266,21 +266,21 @@
sns.heatmap(corrmat, vmax=.8, square=True)
```
![सम्बन्धहरू](../../../../5-Clustering/1-Visualize/images/correlation.png)
![correlations](../../../../translated_images/ne/correlation.a9356bb798f5eea5.webp)
`energy``loudness` बीचको मात्र बलियो सम्बन्ध छ, जुन धेरै आश्चर्यजनक छैन, किनकि ठूलो संगीत सामान्यतया धेरै ऊर्जावान हुन्छ। अन्यथा, सम्बन्धहरू तुलनात्मक रूपमा कमजोर छन्। यो डेटा क्लस्टरिङ एल्गोरिदमले के बनाउन सक्छ हेर्न रोचक हुनेछ।
एकमात्र कडा सम्बन्ध `energy``loudness` बीच छ, जुन आश्चर्यजनक छैन, किनकि जोरदार संगीत प्रायः ऊर्जा सम्पन्न हुन्छ। अन्यथा, सम्बन्धहरू तुलनात्मक रुपमा कमजोर छन्। यो डाटाबाट क्लस्टरिङ एल्गोरिदमले के बनाउन सक्छ हेरिनलाइ रोचक हुनेछ।
> 🎓 ध्यान दिनुहोस् कि सम्बन्धले कारणता संकेत गर्दैन! हामीसँग सम्बन्धको प्रमाण छ तर कारणताको प्रमाण छैन। [एक रमाइलो वेबसाइट](https://tylervigen.com/spurious-correlations) ले यस बिन्दुलाई जोड दिने केही दृश्यहरू प्रदान गर्दछ
> 🎓 कृपया ध्यान दिनुहोस् कि सम्बन्धले कारणत्वलाई जनाउँदैन! हामीसँग सम्बन्धको प्रमाण छ तर कारणत्वको प्रमाण छैन। एक [रोचक वेब साइट](https://tylervigen.com/spurious-correlations) ले यस बिन्दुमा जोड दिनका लागि केही दृश्य सामग्रीहरू छन्
के यो डेटासेटमा गीतको लोकप्रियता र नृत्ययोग्यताको धारणा वरिपरि कुनै अभिसरण छ? एक FacetGrid देखाउँछ कि त्यहाँ केन्द्रित वृत्तहरू छन् जुन विधा बिना पनि लाइन अप हुन्छ। के यो हुन सक्छ कि नाइजेरियन स्वादले यस विधाको लागि नृत्ययोग्यताको निश्चित स्तरमा अभिसरण गर्छ?
के यो डेटासेटमा गीतको अनुभूत लोकप्रियता र नृत्ययोग्यता (danceability) बीच कुनै संगम छ? एक FacetGrid ले देखाउँछ कि त्यहाँ केन्द्रीय वृत्तहरू छन् जुन शैलीको फरक नहेरी सँगठित छन्। के यो हुन सक्छ कि नाइजेरियाली स्वादहरू यस शैलीका लागि नृत्ययोग्यताको निश्चित स्तरमा संगम हुन्छन्?
विभिन्न डेटा बिन्दुहरू (energy, loudness, speechiness) र थप वा फरक संगीत विधाहरू प्रयास गर्नुहोस्। तपाईं के पत्ता लगाउन सक्नुहुन्छ? डेटा बिन्दुहरूको सामान्य फैलावट हेर्न `df.describe()` तालिका हेर्नुहोस्।
फरक डाटापोइन्टहरू (energy, loudness, speechiness) र थप वा फरक सङ्गीत शैलीहरू प्रयास गर्नुहोस्। के के पत्ता लगाउन सक्नुहुन्छ? सामान्य डेटापोइन्टहरूको फैलावट हेर्न `df.describe()` तालिकालाई हेर्नुहोस्।
### अभ्यास - डटा वितरण
### अभ्यास - डटा वितरण
के यी तीन विधाहरू नृत्ययोग्यताको धारणा मा लोकप्रियताको आधारमा महत्त्वपूर्ण रूपमा फरक छन्?
के यी तीन शैलीहरू लोकप्रियतामा आधारित आफ्नो नृत्ययोग्यतामा महत्त्वपूर्ण रूपमा फरक छन्?
1. लोकप्रियता र नृत्ययोग्यताको लागि हाम्रो शीर्ष तीन विधाहरूको डेटा वितरण जाँच गर्नुहोस्:
1. हाम्रो शीर्ष तीन शैलीहरूको लोकप्रियता र नृत्ययोग्यताको डाटा वितरण दिइएका x र y अक्षहरूमा जाँच गर्नुहोस्।
```python
sns.set_theme(style="ticks")
@ -292,13 +292,13 @@
)
```
तपाईंले केन्द्रित वृत्तहरू पत्ता लगाउन सक्नुहुन्छ जुन सामान्य अभिसरण बिन्दु वरिपरि वितरण देखाउँछ
तपाईं केन्द्रीय वृत्तहरू देख्न सक्नुहुन्छ जुन संगमको एउटा सामान्य बिन्दु वरिपरि छ, डाटाको वितरण देखाउँदै
> 🎓 ध्यान दिनुहोस् कि यो उदाहरणले डेटा निरन्तर सम्भाव्यता घनत्व वक्र प्रयोग गरेर प्रतिनिधित्व गर्ने KDE (Kernel Density Estimate) ग्राफ प्रयोग गर्दछ। यो हामीलाई धेरै वितरणहरूसँग काम गर्दा डेटा व्याख्या गर्न अनुमति दिन्छ।
> 🎓 कृपया ध्यान दिनुहोस् कि यो उदाहरण KDE (Kernel Density Estimate) ग्राफ प्रयोग गर्छ जुन डाटालाई निरन्तर सम्भाव्यता घनत्व वक्र प्रयोग गरेर प्रतिनिधित्व गर्दछ। यसले हामीलाई बहु वितरणहरूमा काम गर्दा डाटाको अर्थ लगाउन मद्दत गर्दछ।
सामान्यतया, तीन विधाहरू लोकप्रियता र नृत्ययोग्यताको सन्दर्भमा ढिलोसँग मिल्छन्। यो ढिलो-संरेखित डेटामा क्लस्टर निर्धारण चुनौतीपूर्ण हुनेछ:
सामान्यतया, ती तीन शैलीहरू लोकप्रियता र नृत्ययोग्यताको सन्दर्भमा लगभग मिल्छन्। यस अलिकति मिलेको डाटामा क्लस्टरहरू निर्धारण गर्नु चुनौतीपूर्ण हुनेछ:
![वितरण](../../../../5-Clustering/1-Visualize/images/distribution.png)
![distribution](../../../../translated_images/ne/distribution.9be11df42356ca95.webp)
1. स्क्याटर प्लट बनाउनुहोस्:
@ -308,31 +308,33 @@
.add_legend()
```
उही अक्षहरूको स्क्याटरप्लटले अभिसरणको समान ढाँचा देखाउँछ।
उही अक्षहरूको स्क्याटरप्लटले पनि समान संगमको ढाँचा देखाउँछ
![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png)
![Facetgrid](../../../../translated_images/ne/facetgrid.9b2e65ce707eba1f.webp)
सामान्यतया, क्लस्टरिङको लागि, तपाईं डेटा क्लस्टरहरू देखाउन स्क्याटरप्लटहरू प्रयोग गर्न सक्नुहुन्छ, त्यसैले यो प्रकारको दृश्यलाई मास्टर गर्नु धेरै उपयोगी छ। अर्को पाठमा, हामी यस फिल्टर गरिएको डेटा लिनेछौं र k-means क्लस्टरिङ प्रयोग गरेर यस डेटामा रोचक तरिकामा ओभरल्याप गर्ने समूहहरू पत्ता लगाउनेछौं।
सामान्यतया, क्लस्टरिङका लागि, तपाईं क्लस्टरहरूको भिजुअलाइजेसन गर्न स्क्याटरप्लटहरू प्रयोग गर्न सक्नुहुन्छ, त्यसैले यस प्रकारको भिजुअलाइजेसनमा दक्ष हुन धेरै उपयोगी हुन्छ। अर्को पाठमा, हामी यस फिल्टर गरिएको डेटा लिएर k-means क्लस्टरिङ प्रयोग गरी यस डेटा भित्रका रोचक तरिकाले ओभरलय हुने समूहहरू पत्ता लगाउनेछौं।
---
## 🚀 चुनौती
## 🚀चुनौती
अर्को पाठको तयारीमा, उत्पादन वातावरणमा तपाईंले पत्ता लगाउन सक्ने विभिन्न क्लस्टरिङ एल्गोरिदमहरूको बारेमा चार्ट बनाउनुहोस्। क्लस्टरिङले कस्ता समस्याहरू समाधान गर्न खोजिरहेको छ?
अर्को पाठको तयारीमा, उत्पादन वातावरणमा प्रयोग गर्न सकिने विभिन्न क्लस्टरिङ एल्गोरिदमहरूको बारेमा चार्ट बनाउनुहोस्। क्लस्टरिङले कुन प्रकारका समस्याहरू समाधान गर्न खोजिरहेको छ?
## [पाठ-पछिको क्विज](https://ff-quizzes.netlify.app/en/ml/)
## [पाठपश्चात क्विज](https://ff-quizzes.netlify.app/en/ml/)
## समीक्षा र आत्म अध्ययन
## समीक्षा र आत्म-अध्ययन
क्लस्टरिङ एल्गोरिदमहरू लागू गर्नु अघि, जस्तै हामीले सिकेका छौं, तपाईंको डेटासेटको प्रकृति बुझ्नु राम्रो विचार हो। यस विषयमा थप पढ्नुहोस् [यहाँ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)
क्लस्टरिङ एल्गोरिदमहरू लागू गर्नु अघि, जस्तै कि हामीले सिक्यौं, तपाईंको डेटासेटको प्रकृतिलाई बुझ्न राम्रो हुन्छ। यस विषयमा थप पढ्नुहोस् [यहाँ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)
[यो उपयोगी लेख](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) ले विभिन्न डेटा आकारहरू दिइएको विभिन्न क्लस्टरिङ एल्गोरिदमहरू कसरी व्यवहार गर्छन् भनेर तपाईंलाई मार्गदर्शन गर्दछ।
[यो उपयोगी लेख](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) ले विभिन्न आकृतिहरूका डाटाहरू दिइएपछि विभिन्न क्लस्टरिङ एल्गोरिदमहरू कसरी व्यवहार गर्छन् भनेर बुझाउँछ।
## असाइनमेन्ट
## असाइनमेन्ट
[क्लस्टरिङको लागि अन्य दृश्यहरूको अनुसन्धान गर्नुहोस्](assignment.md)
[क्लस्टरिङका लागि अरु भिजुअलाइजेसनहरू अनुसन्धान गर्नुहोस्](assignment.md)
---
**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको हो। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको हो। हामी सही हुन प्रयास गर्छौं, तर कृपया जानकार हुनुस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छन्। मूल दस्तावेज़ यसको मूल भाषामा आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीका लागि व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न कुनै पनि गलत बुझाइ वा त्रुटिको लागि हामी जिम्मेवार छैनौं।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
Loading…
Cancel
Save