{ "cells": [ { "cell_type": "markdown", "source": [ "## **نائجیریا کی موسیقی، اسپاٹیفائی سے حاصل کردہ - ایک تجزیہ**\n", "\n", "کلسٹرنگ ایک قسم کی [غیر نگرانی شدہ سیکھنے](https://wikipedia.org/wiki/Unsupervised_learning) ہے جو یہ فرض کرتی ہے کہ ڈیٹا سیٹ لیبل کے بغیر ہے یا اس کے ان پٹس پہلے سے طے شدہ آؤٹ پٹس کے ساتھ نہیں جڑے ہوئے ہیں۔ یہ مختلف الگورتھمز کا استعمال کرتے ہوئے غیر لیبل شدہ ڈیٹا کو ترتیب دیتا ہے اور ڈیٹا میں موجود پیٹرنز کے مطابق گروپ بناتا ہے۔\n", "\n", "[**لیکچر سے پہلے کا کوئز**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **تعارف**\n", "\n", "[کلسٹرنگ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ڈیٹا کی کھوج کے لیے بہت مفید ہے۔ آئیے دیکھتے ہیں کہ کیا یہ نائجیریا کے سامعین کے موسیقی سننے کے رجحانات اور پیٹرنز کو دریافت کرنے میں مدد دے سکتی ہے۔\n", "\n", "> ✅ ایک لمحہ نکال کر سوچیں کہ کلسٹرنگ کے کیا استعمالات ہو سکتے ہیں۔ حقیقی زندگی میں، کلسٹرنگ اس وقت ہوتی ہے جب آپ کے پاس کپڑوں کا ڈھیر ہو اور آپ کو اپنے خاندان کے افراد کے کپڑے الگ کرنے ہوں 🧦👕👖🩲۔ ڈیٹا سائنس میں، کلسٹرنگ اس وقت ہوتی ہے جب کسی صارف کی ترجیحات کا تجزیہ کرنا ہو یا کسی غیر لیبل شدہ ڈیٹا سیٹ کی خصوصیات کا تعین کرنا ہو۔ کلسٹرنگ، ایک طرح سے، انتشار کو سمجھنے میں مدد دیتی ہے، جیسے موزوں کے دراز کو ترتیب دینا۔\n", "\n", "پیشہ ورانہ ماحول میں، کلسٹرنگ کا استعمال مارکیٹ کی تقسیم، یہ تعین کرنے کے لیے کہ کون سی عمر کے گروپ کون سی اشیاء خریدتے ہیں، جیسی چیزوں کے لیے کیا جا سکتا ہے۔ ایک اور استعمال بے ضابطگیوں کا پتہ لگانا ہو سکتا ہے، مثلاً کریڈٹ کارڈ کے لین دین کے ڈیٹا سیٹ سے دھوکہ دہی کا پتہ لگانا۔ یا آپ اسے طبی اسکینز کے ایک بیچ میں ٹیومرز کی شناخت کے لیے استعمال کر سکتے ہیں۔\n", "\n", "✅ ایک لمحہ سوچیں کہ آپ نے بینکنگ، ای کامرس، یا کاروباری ماحول میں 'کلسٹرنگ' کو کس طرح دیکھا ہو گا۔\n", "\n", "> 🎓 دلچسپ بات یہ ہے کہ کلسٹر تجزیہ کا آغاز 1930 کی دہائی میں بشریات اور نفسیات کے شعبوں میں ہوا۔ کیا آپ تصور کر سکتے ہیں کہ اس وقت اسے کیسے استعمال کیا گیا ہو گا؟\n", "\n", "متبادل طور پر، آپ اسے تلاش کے نتائج کو گروپ کرنے کے لیے استعمال کر سکتے ہیں - جیسے خریداری کے لنکس، تصاویر، یا جائزے۔ کلسٹرنگ اس وقت مفید ہوتی ہے جب آپ کے پاس ایک بڑا ڈیٹا سیٹ ہو جسے آپ کم کرنا چاہتے ہوں اور جس پر آپ مزید تفصیلی تجزیہ کرنا چاہتے ہوں، لہٰذا یہ تکنیک دیگر ماڈلز کی تعمیر سے پہلے ڈیٹا کے بارے میں جاننے کے لیے استعمال کی جا سکتی ہے۔\n", "\n", "✅ ایک بار جب آپ کا ڈیٹا کلسٹرز میں منظم ہو جائے، تو آپ اسے ایک کلسٹر آئی ڈی تفویض کرتے ہیں، اور یہ تکنیک اس وقت مفید ہو سکتی ہے جب ڈیٹا سیٹ کی پرائیویسی کو محفوظ رکھنا ہو؛ آپ ڈیٹا پوائنٹ کو زیادہ واضح شناختی ڈیٹا کے بجائے اس کے کلسٹر آئی ڈی سے حوالہ دے سکتے ہیں۔ کیا آپ سوچ سکتے ہیں کہ آپ کلسٹر آئی ڈی کے بجائے کلسٹر کے دیگر عناصر کا حوالہ کیوں دیں گے؟\n", "\n", "### کلسٹرنگ کے ساتھ شروعات\n", "\n", "> 🎓 ہم کلسٹرز کیسے بناتے ہیں، اس کا بہت تعلق اس بات سے ہے کہ ہم ڈیٹا پوائنٹس کو گروپوں میں کیسے جمع کرتے ہیں۔ آئیے کچھ اصطلاحات کو سمجھتے ہیں:\n", ">\n", "> 🎓 ['ٹرانسڈکٹیو' بمقابلہ 'انڈکٹیو'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> ٹرانسڈکٹیو انفرنس مشاہدہ شدہ تربیتی کیسز سے اخذ کی جاتی ہے جو مخصوص ٹیسٹ کیسز سے میل کھاتی ہیں۔ انڈکٹیو انفرنس تربیتی کیسز سے اخذ کی جاتی ہے جو عمومی اصولوں سے میل کھاتی ہیں اور پھر ان اصولوں کو ٹیسٹ کیسز پر لاگو کیا جاتا ہے۔\n", ">\n", "> ایک مثال: تصور کریں کہ آپ کے پاس ایک ڈیٹا سیٹ ہے جو جزوی طور پر لیبل شدہ ہے۔ کچھ چیزیں 'ریکارڈز' ہیں، کچھ 'سی ڈیز' ہیں، اور کچھ خالی ہیں۔ آپ کا کام خالی جگہوں کے لیے لیبل فراہم کرنا ہے۔ اگر آپ انڈکٹیو طریقہ اپناتے ہیں، تو آپ ایک ماڈل تربیت دیں گے جو 'ریکارڈز' اور 'سی ڈیز' تلاش کرے، اور ان لیبلز کو آپ کے غیر لیبل شدہ ڈیٹا پر لاگو کرے۔ یہ طریقہ ان چیزوں کو درجہ بندی کرنے میں مشکل پیش کرے گا جو درحقیقت 'کیسٹ' ہیں۔ دوسری طرف، ایک ٹرانسڈکٹیو طریقہ اس نامعلوم ڈیٹا کو زیادہ مؤثر طریقے سے ہینڈل کرتا ہے کیونکہ یہ ایک جیسی اشیاء کو گروپ کرنے اور پھر ایک گروپ کو لیبل دینے کے لیے کام کرتا ہے۔ اس صورت میں، کلسٹرز 'گول موسیقی کی چیزیں' اور 'چوکور موسیقی کی چیزیں' کی عکاسی کر سکتے ہیں۔\n", ">\n", "> 🎓 ['نان-فلیٹ' بمقابلہ 'فلیٹ' جیومیٹری](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> ریاضیاتی اصطلاحات سے ماخوذ، نان-فلیٹ بمقابلہ فلیٹ جیومیٹری پوائنٹس کے درمیان فاصلے کی پیمائش کو 'فلیٹ' ([یوقلیڈی](https://wikipedia.org/wiki/Euclidean_geometry)) یا 'نان-فلیٹ' (نان-یوقلیڈی) جیومیٹری کے طریقوں سے بیان کرتی ہے۔\n", ">\n", "> اس سیاق و سباق میں 'فلیٹ' یوقلیڈی جیومیٹری (جس کے کچھ حصے 'پلین' جیومیٹری کے طور پر پڑھائے جاتے ہیں) کو ظاہر کرتا ہے، اور نان-فلیٹ نان-یوقلیڈی جیومیٹری کو ظاہر کرتا ہے۔ جیومیٹری کا مشین لرننگ سے کیا تعلق؟ چونکہ یہ دونوں شعبے ریاضی پر مبنی ہیں، اس لیے کلسٹرز میں پوائنٹس کے درمیان فاصلے کی پیمائش کا ایک عام طریقہ ہونا ضروری ہے، اور یہ ڈیٹا کی نوعیت کے مطابق 'فلیٹ' یا 'نان-فلیٹ' طریقے سے کیا جا سکتا ہے۔ [یوقلیڈی فاصلے](https://wikipedia.org/wiki/Euclidean_distance) دو پوائنٹس کے درمیان ایک لائن سیگمنٹ کی لمبائی کے طور پر ماپے جاتے ہیں۔ [نان-یوقلیڈی فاصلے](https://wikipedia.org/wiki/Non-Euclidean_geometry) ایک منحنی خط کے ساتھ ماپے جاتے ہیں۔ اگر آپ کا ڈیٹا، بصری طور پر، کسی پلین پر موجود نہیں لگتا، تو آپ کو اسے ہینڈل کرنے کے لیے ایک خاص الگورتھم استعمال کرنے کی ضرورت ہو سکتی ہے۔\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"