{ "cells": [ { "cell_type": "markdown", "source": [ "## **স্পটিফাই থেকে সংগৃহীত নাইজেরিয়ান সঙ্গীত - একটি বিশ্লেষণ**\n", "\n", "ক্লাস্টারিং হলো [অপরীক্ষিত শিক্ষণ](https://wikipedia.org/wiki/Unsupervised_learning) এর একটি ধরণ, যা ধরে নেয় যে একটি ডেটাসেট লেবেলবিহীন বা এর ইনপুট পূর্বনির্ধারিত আউটপুটের সাথে মেলানো হয়নি। এটি বিভিন্ন অ্যালগরিদম ব্যবহার করে লেবেলবিহীন ডেটা বিশ্লেষণ করে এবং ডেটার মধ্যে পাওয়া প্যাটার্ন অনুযায়ী গ্রুপ তৈরি করে।\n", "\n", "[**পূর্ব-লেকচার কুইজ**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **ভূমিকা**\n", "\n", "[ক্লাস্টারিং](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ডেটা অনুসন্ধানের জন্য খুবই কার্যকর। চলুন দেখি এটি নাইজেরিয়ান শ্রোতারা কীভাবে সঙ্গীত উপভোগ করেন তার প্রবণতা এবং প্যাটার্ন আবিষ্কার করতে সাহায্য করতে পারে কিনা।\n", "\n", "> ✅ ক্লাস্টারিং এর ব্যবহার নিয়ে এক মিনিট চিন্তা করুন। বাস্তব জীবনে, ক্লাস্টারিং ঘটে যখন আপনার কাছে একটি কাপড়ের স্তূপ থাকে এবং আপনাকে পরিবারের সদস্যদের কাপড় আলাদা করতে হয় 🧦👕👖🩲। ডেটা সায়েন্সে, ক্লাস্টারিং ঘটে যখন ব্যবহারকারীর পছন্দ বিশ্লেষণ করা হয় বা কোনো লেবেলবিহীন ডেটাসেটের বৈশিষ্ট্য নির্ধারণ করা হয়। একভাবে, ক্লাস্টারিং বিশৃঙ্খলাকে অর্থপূর্ণ করে তোলে, যেমন একটি মোজা রাখার ড্রয়ার।\n", "\n", "পেশাদার ক্ষেত্রে, ক্লাস্টারিং ব্যবহার করা যেতে পারে যেমন বাজার বিভাজন নির্ধারণ করা, কোন বয়সের গ্রুপ কী কিনছে তা নির্ধারণ করা। আরেকটি ব্যবহার হতে পারে অস্বাভাবিকতা সনাক্তকরণ, যেমন ক্রেডিট কার্ড লেনদেনের ডেটাসেট থেকে প্রতারণা সনাক্ত করা। অথবা আপনি এটি ব্যবহার করতে পারেন মেডিকেল স্ক্যানের একটি ব্যাচ থেকে টিউমার নির্ধারণ করতে।\n", "\n", "✅ এক মিনিট চিন্তা করুন, আপনি কীভাবে 'ক্লাস্টারিং' এর ব্যবহার ব্যাংকিং, ই-কমার্স বা ব্যবসার ক্ষেত্রে দেখেছেন।\n", "\n", "> 🎓 মজার ব্যাপার হলো, ক্লাস্টার বিশ্লেষণ ১৯৩০-এর দশকে নৃতত্ত্ব এবং মনোবিজ্ঞানের ক্ষেত্রে উদ্ভূত হয়েছিল। আপনি কল্পনা করতে পারেন এটি কীভাবে ব্যবহার করা হতে পারে?\n", "\n", "অন্যভাবে, এটি ব্যবহার করা যেতে পারে অনুসন্ধানের ফলাফল গ্রুপ করার জন্য - যেমন কেনাকাটার লিঙ্ক, ছবি বা রিভিউ। ক্লাস্টারিং কার্যকর যখন আপনার কাছে একটি বড় ডেটাসেট থাকে যা আপনি ছোট করতে চান এবং যার উপর আরও বিস্তারিত বিশ্লেষণ করতে চান। এই পদ্ধতি ডেটা সম্পর্কে জানার জন্য ব্যবহার করা যেতে পারে অন্য মডেল তৈরি করার আগে।\n", "\n", "✅ একবার আপনার ডেটা ক্লাস্টারে সংগঠিত হলে, আপনি এটিকে একটি ক্লাস্টার আইডি বরাদ্দ করেন। এই পদ্ধতি একটি ডেটাসেটের গোপনীয়তা সংরক্ষণে কার্যকর হতে পারে; আপনি ক্লাস্টারের আরও প্রকাশযোগ্য সনাক্তযোগ্য ডেটার পরিবর্তে একটি ডেটা পয়েন্টকে তার ক্লাস্টার আইডি দ্বারা উল্লেখ করতে পারেন। আপনি কি অন্য কারণ চিন্তা করতে পারেন কেন আপনি ক্লাস্টার আইডি ব্যবহার করবেন ক্লাস্টারের অন্যান্য উপাদানগুলির পরিবর্তে এটি সনাক্ত করতে?\n", "\n", "### ক্লাস্টারিং শুরু করা\n", "\n", "> 🎓 আমরা কীভাবে ক্লাস্টার তৈরি করি তা অনেকাংশে নির্ভর করে আমরা কীভাবে ডেটা পয়েন্টগুলোকে গ্রুপে সংগ্রহ করি। চলুন কিছু শব্দভাণ্ডার বিশ্লেষণ করি:\n", ">\n", "> 🎓 ['ট্রান্সডাকটিভ' বনাম 'ইনডাকটিভ'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> ট্রান্সডাকটিভ ইনফারেন্স পর্যবেক্ষণ করা প্রশিক্ষণ কেস থেকে নির্দিষ্ট টেস্ট কেসে ম্যাপ করে। ইনডাকটিভ ইনফারেন্স প্রশিক্ষণ কেস থেকে সাধারণ নিয়মে ম্যাপ করে যা পরে টেস্ট কেসে প্রয়োগ করা হয়।\n", ">\n", "> একটি উদাহরণ: কল্পনা করুন আপনার কাছে একটি ডেটাসেট আছে যা আংশিকভাবে লেবেলযুক্ত। কিছু জিনিস 'রেকর্ড', কিছু 'সিডি', এবং কিছু ফাঁকা। আপনার কাজ হলো ফাঁকাগুলো লেবেল করা। যদি আপনি একটি ইনডাকটিভ পদ্ধতি বেছে নেন, আপনি একটি মডেল প্রশিক্ষণ করবেন 'রেকর্ড' এবং 'সিডি' খুঁজতে এবং সেই লেবেলগুলো আপনার লেবেলবিহীন ডেটায় প্রয়োগ করবেন। এই পদ্ধতি 'ক্যাসেট' হিসেবে জিনিসগুলো শ্রেণীবদ্ধ করতে সমস্যায় পড়বে। অন্যদিকে, একটি ট্রান্সডাকটিভ পদ্ধতি এই অজানা ডেটা আরও কার্যকরভাবে পরিচালনা করে কারণ এটি অনুরূপ আইটেমগুলোকে একসাথে গ্রুপ করতে কাজ করে এবং তারপর একটি গ্রুপে লেবেল প্রয়োগ করে। এই ক্ষেত্রে, ক্লাস্টারগুলো 'গোলাকার সঙ্গীত জিনিস' এবং 'চৌকো সঙ্গীত জিনিস' প্রতিফলিত করতে পারে।\n", ">\n", "> 🎓 ['নন-ফ্ল্যাট' বনাম 'ফ্ল্যাট' জ্যামিতি](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> গাণিতিক পরিভাষা থেকে উদ্ভূত, নন-ফ্ল্যাট বনাম ফ্ল্যাট জ্যামিতি পয়েন্টগুলোর মধ্যে দূরত্ব পরিমাপের পদ্ধতি বোঝায়, যা হয় 'ফ্ল্যাট' ([ইউক্লিডিয়ান](https://wikipedia.org/wiki/Euclidean_geometry)) বা 'নন-ফ্ল্যাট' (নন-ইউক্লিডিয়ান) জ্যামিতিক পদ্ধতি।\n", ">\n", "> 'ফ্ল্যাট' এই প্রসঙ্গে ইউক্লিডিয়ান জ্যামিতি (যার কিছু অংশ 'প্লেন' জ্যামিতি হিসেবে শেখানো হয়), এবং নন-ফ্ল্যাট নন-ইউক্লিডিয়ান জ্যামিতি বোঝায়। জ্যামিতি এবং মেশিন লার্নিং এর মধ্যে সম্পর্ক কী? ঠিক আছে, যেহেতু দুটি ক্ষেত্রই গণিতের উপর ভিত্তি করে, পয়েন্টগুলোর মধ্যে দূরত্ব পরিমাপের একটি সাধারণ উপায় থাকতে হবে, এবং এটি 'ফ্ল্যাট' বা 'নন-ফ্ল্যাট' পদ্ধতিতে করা যেতে পারে, ডেটার প্রকৃতির উপর নির্ভর করে। [ইউক্লিডিয়ান দূরত্ব](https://wikipedia.org/wiki/Euclidean_distance) দুটি পয়েন্টের মধ্যে একটি রেখা অংশের দৈর্ঘ্য হিসেবে পরিমাপ করা হয়। [নন-ইউক্লিডিয়ান দূরত্ব](https://wikipedia.org/wiki/Non-Euclidean_geometry) একটি বক্ররেখা বরাবর পরিমাপ করা হয়। যদি আপনার ডেটা, ভিজ্যুয়ালাইজড, একটি প্লেনে বিদ্যমান না থাকে, তাহলে এটি পরিচালনা করার জন্য একটি বিশেষ অ্যালগরিদম ব্যবহার করতে হতে পারে।\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"