20 KiB
مشین لرننگ کی تکنیکیں
مشین لرننگ ماڈلز بنانے، استعمال کرنے، اور ان کے ڈیٹا کو برقرار رکھنے کا عمل دیگر ترقیاتی ورک فلو سے بہت مختلف ہے۔ اس سبق میں، ہم اس عمل کو واضح کریں گے اور وہ اہم تکنیکیں بیان کریں گے جو آپ کو جاننی چاہئیں۔ آپ:
- مشین لرننگ کے بنیادی عمل کو اعلیٰ سطح پر سمجھیں گے۔
- بنیادی تصورات جیسے 'ماڈلز'، 'پیش گوئیاں'، اور 'ٹریننگ ڈیٹا' کو دریافت کریں گے۔
لیکچر سے پہلے کا کوئز
🎥 اوپر دی گئی تصویر پر کلک کریں تاکہ اس سبق پر ایک مختصر ویڈیو دیکھ سکیں۔
تعارف
اعلیٰ سطح پر، مشین لرننگ (ML) کے عمل کو تخلیق کرنے کا فن کئی مراحل پر مشتمل ہوتا ہے:
- سوال کا انتخاب کریں۔ زیادہ تر ML عمل ایک ایسے سوال سے شروع ہوتے ہیں جس کا جواب کسی سادہ شرطی پروگرام یا قواعد پر مبنی انجن سے نہیں دیا جا سکتا۔ یہ سوالات اکثر ڈیٹا کے مجموعے کی بنیاد پر پیش گوئیوں کے گرد گھومتے ہیں۔
- ڈیٹا جمع کریں اور تیار کریں۔ اپنے سوال کا جواب دینے کے لیے آپ کو ڈیٹا کی ضرورت ہوتی ہے۔ آپ کے ڈیٹا کی معیار اور کبھی کبھار مقدار یہ طے کرے گی کہ آپ اپنے ابتدائی سوال کا کتنا اچھا جواب دے سکتے ہیں۔ ڈیٹا کو بصری طور پر دیکھنا اس مرحلے کا ایک اہم پہلو ہے۔ اس مرحلے میں ڈیٹا کو ٹریننگ اور ٹیسٹنگ گروپ میں تقسیم کرنا بھی شامل ہے تاکہ ماڈل بنایا جا سکے۔
- ٹریننگ کا طریقہ منتخب کریں۔ آپ کے سوال اور ڈیٹا کی نوعیت کے مطابق، آپ کو یہ فیصلہ کرنا ہوگا کہ ماڈل کو کس طرح تربیت دی جائے تاکہ وہ آپ کے ڈیٹا کی بہترین عکاسی کرے اور اس کے خلاف درست پیش گوئیاں کرے۔ یہ ML عمل کا وہ حصہ ہے جو مخصوص مہارت اور اکثر کافی تجربے کی ضرورت ہوتی ہے۔
- ماڈل کو تربیت دیں۔ اپنے ٹریننگ ڈیٹا کا استعمال کرتے ہوئے، آپ مختلف الگورتھمز کا استعمال کریں گے تاکہ ماڈل کو ڈیٹا میں موجود پیٹرنز کو پہچاننے کی تربیت دی جا سکے۔ ماڈل اندرونی وزن کا استعمال کر سکتا ہے جو ڈیٹا کے کچھ حصوں کو دوسروں پر ترجیح دینے کے لیے ایڈجسٹ کیے جا سکتے ہیں تاکہ بہتر ماڈل بنایا جا سکے۔
- ماڈل کا جائزہ لیں۔ آپ اپنے جمع کردہ سیٹ سے پہلے کبھی نہ دیکھے گئے ڈیٹا (اپنے ٹیسٹنگ ڈیٹا) کا استعمال کریں گے تاکہ ماڈل کی کارکردگی کو جانچ سکیں۔
- پیرامیٹرز کو بہتر بنائیں۔ اپنے ماڈل کی کارکردگی کی بنیاد پر، آپ مختلف پیرامیٹرز یا متغیرات کا استعمال کرتے ہوئے عمل کو دوبارہ کر سکتے ہیں جو ماڈل کو تربیت دینے کے لیے استعمال کیے گئے الگورتھمز کے رویے کو کنٹرول کرتے ہیں۔
- پیش گوئی کریں۔ نئے ان پٹ کا استعمال کریں تاکہ اپنے ماڈل کی درستگی کو جانچ سکیں۔
کون سا سوال پوچھنا ہے
کمپیوٹرز ڈیٹا میں چھپے ہوئے پیٹرنز کو دریافت کرنے میں خاص طور پر ماہر ہیں۔ یہ صلاحیت ان محققین کے لیے بہت مددگار ہے جن کے پاس کسی خاص شعبے کے بارے میں ایسے سوالات ہیں جن کا جواب آسانی سے شرطی قواعد کے انجن بنا کر نہیں دیا جا سکتا۔ مثال کے طور پر، ایک ایکچوریل کام کے لیے، ایک ڈیٹا سائنسدان سگریٹ نوشی کرنے والوں اور نہ کرنے والوں کی اموات کے بارے میں ہاتھ سے بنائے گئے قواعد بنا سکتا ہے۔
تاہم، جب بہت سے دیگر متغیرات کو مساوات میں شامل کیا جاتا ہے، تو ایک ML ماڈل ماضی کی صحت کی تاریخ کی بنیاد پر مستقبل کی اموات کی شرح کی پیش گوئی کرنے میں زیادہ مؤثر ثابت ہو سکتا ہے۔ ایک خوشگوار مثال اپریل کے مہینے میں کسی مخصوص مقام کے لیے موسم کی پیش گوئی کرنا ہو سکتی ہے، جس میں ڈیٹا شامل ہو جیسے عرض البلد، طول البلد، موسمیاتی تبدیلی، سمندر کے قریب ہونے کی وجہ، جیٹ اسٹریم کے پیٹرنز، اور مزید۔
✅ یہ سلائیڈ ڈیک موسم کے ماڈلز میں ML کے استعمال کے لیے ایک تاریخی نقطہ نظر پیش کرتا ہے۔
ماڈل بنانے سے پہلے کے کام
ماڈل بنانے سے پہلے، آپ کو کئی کام مکمل کرنے کی ضرورت ہوتی ہے۔ اپنے سوال کو جانچنے اور ماڈل کی پیش گوئیوں کی بنیاد پر ایک مفروضہ بنانے کے لیے، آپ کو کئی عناصر کی شناخت اور ترتیب دینی ہوگی۔
ڈیٹا
اپنے سوال کا کسی بھی قسم کی یقین دہانی کے ساتھ جواب دینے کے لیے، آپ کو صحیح قسم کے ڈیٹا کی مناسب مقدار کی ضرورت ہوتی ہے۔ اس وقت آپ کو دو کام کرنے کی ضرورت ہے:
- ڈیٹا جمع کریں۔ ڈیٹا کے تجزیے میں انصاف کے بارے میں پچھلے سبق کو ذہن میں رکھتے ہوئے، اپنے ڈیٹا کو احتیاط سے جمع کریں۔ اس ڈیٹا کے ذرائع، اس میں موجود کسی بھی اندرونی تعصب، اور اس کی اصل کو دستاویزی شکل میں رکھیں۔
- ڈیٹا تیار کریں۔ ڈیٹا کی تیاری کے عمل میں کئی مراحل شامل ہیں۔ اگر ڈیٹا مختلف ذرائع سے آتا ہے تو آپ کو اسے جمع کرنا اور معمول پر لانا پڑ سکتا ہے۔ آپ مختلف طریقوں سے ڈیٹا کے معیار اور مقدار کو بہتر بنا سکتے ہیں، جیسے کہ اسٹرنگز کو نمبروں میں تبدیل کرنا (جیسا کہ ہم کلسٹرنگ میں کرتے ہیں)۔ آپ اصل ڈیٹا کی بنیاد پر نیا ڈیٹا بھی تیار کر سکتے ہیں (جیسا کہ ہم کلاسیفیکیشن میں کرتے ہیں)۔ آپ ڈیٹا کو صاف اور ترمیم کر سکتے ہیں (جیسا کہ ہم ویب ایپ سبق سے پہلے کریں گے)۔ آخر میں، آپ کو اسے بے ترتیب اور شفل کرنے کی بھی ضرورت ہو سکتی ہے، جو آپ کی تربیتی تکنیکوں پر منحصر ہے۔
✅ ڈیٹا جمع کرنے اور اس پر عمل کرنے کے بعد، ایک لمحہ نکالیں تاکہ یہ دیکھ سکیں کہ آیا اس کی شکل آپ کے مطلوبہ سوال کو حل کرنے کی اجازت دے گی۔ یہ ممکن ہے کہ ڈیٹا آپ کے دیے گئے کام میں اچھی کارکردگی نہ دکھائے، جیسا کہ ہم اپنے کلسٹرنگ اسباق میں دریافت کرتے ہیں!
فیچرز اور ہدف
ایک فیچر آپ کے ڈیٹا کی ایک قابل پیمائش خصوصیت ہے۔ بہت سے ڈیٹا سیٹس میں یہ 'تاریخ'، 'سائز' یا 'رنگ' جیسے کالم ہیڈنگ کے طور پر ظاہر ہوتا ہے۔ آپ کا فیچر متغیر، جو عام طور پر کوڈ میں X
کے طور پر ظاہر ہوتا ہے، ان پٹ متغیر کی نمائندگی کرتا ہے جو ماڈل کو تربیت دینے کے لیے استعمال کیا جائے گا۔
ایک ہدف وہ چیز ہے جس کی آپ پیش گوئی کرنے کی کوشش کر رہے ہیں۔ ہدف، جو عام طور پر کوڈ میں y
کے طور پر ظاہر ہوتا ہے، اس سوال کا جواب دیتا ہے جو آپ اپنے ڈیٹا سے پوچھنے کی کوشش کر رہے ہیں: دسمبر میں کون سے رنگ کے کدو سب سے سستے ہوں گے؟ سان فرانسسکو میں کون سے محلوں میں بہترین جائیداد کی قیمت ہوگی؟ کبھی کبھی ہدف کو لیبل ایٹریبیوٹ بھی کہا جاتا ہے۔
اپنے فیچر متغیر کا انتخاب
🎓 فیچر سلیکشن اور فیچر ایکسٹریکشن جب آپ ماڈل بناتے وقت متغیر کا انتخاب کرتے ہیں تو آپ کیسے جانتے ہیں کہ کون سا منتخب کرنا ہے؟ آپ شاید فیچر سلیکشن یا فیچر ایکسٹریکشن کے عمل سے گزریں گے تاکہ بہترین ماڈل کے لیے صحیح متغیرات کا انتخاب کیا جا سکے۔ تاہم، یہ دونوں ایک جیسے نہیں ہیں: "فیچر ایکسٹریکشن اصل فیچرز کے فنکشنز سے نئے فیچرز بناتا ہے، جبکہ فیچر سلیکشن فیچرز کے ایک سب سیٹ کو واپس کرتا ہے۔" (ماخذ)
اپنے ڈیٹا کو بصری طور پر دیکھیں
ڈیٹا سائنسدان کے ٹول کٹ کا ایک اہم پہلو ڈیٹا کو بصری طور پر دیکھنے کی طاقت ہے، جس کے لیے کئی بہترین لائبریریاں موجود ہیں جیسے Seaborn یا MatPlotLib۔ اپنے ڈیٹا کو بصری طور پر پیش کرنا آپ کو چھپے ہوئے تعلقات کو دریافت کرنے کی اجازت دے سکتا ہے جنہیں آپ فائدہ اٹھا سکتے ہیں۔ آپ کے بصری نمائندے آپ کو تعصب یا غیر متوازن ڈیٹا کو بھی ظاہر کر سکتے ہیں (جیسا کہ ہم کلاسیفیکیشن میں دریافت کرتے ہیں)۔
اپنے ڈیٹا سیٹ کو تقسیم کریں
تربیت سے پہلے، آپ کو اپنے ڈیٹا سیٹ کو دو یا زیادہ غیر مساوی حصوں میں تقسیم کرنا ہوگا جو پھر بھی ڈیٹا کی اچھی نمائندگی کرتے ہیں۔
- ٹریننگ۔ ڈیٹا سیٹ کا یہ حصہ آپ کے ماڈل کو تربیت دینے کے لیے استعمال کیا جاتا ہے۔ یہ سیٹ اصل ڈیٹا سیٹ کا زیادہ تر حصہ ہوتا ہے۔
- ٹیسٹنگ۔ ایک ٹیسٹ ڈیٹا سیٹ اصل ڈیٹا سے حاصل کردہ ایک آزاد ڈیٹا گروپ ہے، جسے آپ بنائے گئے ماڈل کی کارکردگی کی تصدیق کے لیے استعمال کرتے ہیں۔
- ویلیڈیٹنگ۔ ایک ویلیڈیشن سیٹ ایک چھوٹا آزاد گروپ ہے جسے آپ ماڈل کے ہائپر پیرامیٹرز یا آرکیٹیکچر کو بہتر بنانے کے لیے استعمال کرتے ہیں۔ آپ کے ڈیٹا کے سائز اور آپ کے سوال پر منحصر ہے، آپ کو یہ تیسرا سیٹ بنانے کی ضرورت نہیں ہو سکتی (جیسا کہ ہم ٹائم سیریز فورکاسٹنگ میں نوٹ کرتے ہیں)۔
ماڈل بنانا
اپنے ٹریننگ ڈیٹا کا استعمال کرتے ہوئے، آپ کا مقصد ایک ماڈل بنانا ہے، یا اپنے ڈیٹا کی شماریاتی نمائندگی، جسے مختلف الگورتھمز کے ذریعے ٹرین کیا جاتا ہے۔ ماڈل کو تربیت دینا اسے ڈیٹا کے سامنے لاتا ہے اور اسے دریافت کیے گئے پیٹرنز کے بارے میں مفروضے بنانے، ان کی تصدیق کرنے، اور قبول یا مسترد کرنے کی اجازت دیتا ہے۔
تربیت کا طریقہ منتخب کریں
اپنے سوال اور ڈیٹا کی نوعیت کے مطابق، آپ اسے تربیت دینے کے لیے ایک طریقہ منتخب کریں گے۔ Scikit-learn کی دستاویزات کے ذریعے قدم بہ قدم چلتے ہوئے - جسے ہم اس کورس میں استعمال کرتے ہیں - آپ ماڈل کو تربیت دینے کے کئی طریقے دریافت کر سکتے ہیں۔ آپ کے تجربے پر منحصر ہے، آپ کو بہترین ماڈل بنانے کے لیے کئی مختلف طریقے آزمانے پڑ سکتے ہیں۔ آپ ممکنہ طور پر ایک عمل سے گزریں گے جس میں ڈیٹا سائنسدان ماڈل کی کارکردگی کا جائزہ لیتے ہیں، اسے غیر دیکھے گئے ڈیٹا کے ساتھ کھلاتے ہیں، درستگی، تعصب، اور دیگر معیار کو کم کرنے والے مسائل کی جانچ کرتے ہیں، اور دیے گئے کام کے لیے سب سے مناسب تربیتی طریقہ منتخب کرتے ہیں۔
ماڈل کو تربیت دیں
اپنے ٹریننگ ڈیٹا کے ساتھ، آپ 'فٹ' کرنے کے لیے تیار ہیں تاکہ ایک ماڈل بنایا جا سکے۔ آپ دیکھیں گے کہ بہت سی ML لائبریریوں میں آپ کو 'model.fit' کوڈ ملے گا - یہ وہ وقت ہے جب آپ اپنے فیچر متغیر کو ویلیوز کے ایک ارے کے طور پر بھیجتے ہیں (عام طور پر 'X') اور ایک ہدف متغیر (عام طور پر 'y')۔
ماڈل کا جائزہ لیں
ایک بار تربیتی عمل مکمل ہو جائے (ایک بڑے ماڈل کو تربیت دینے کے لیے کئی تکرار، یا 'epochs' لگ سکتے ہیں)، آپ ٹیسٹ ڈیٹا کا استعمال کرتے ہوئے ماڈل کی کارکردگی کو جانچ کر اس کے معیار کا جائزہ لے سکیں گے۔ یہ ڈیٹا اصل ڈیٹا کا ایک ذیلی سیٹ ہے جسے ماڈل نے پہلے کبھی تجزیہ نہیں کیا۔ آپ اپنے ماڈل کے معیار کے بارے میں میٹرکس کی ایک ٹیبل پرنٹ کر سکتے ہیں۔
🎓 ماڈل فٹنگ
مشین لرننگ کے سیاق و سباق میں، ماڈل فٹنگ اس ماڈل کے بنیادی فنکشن کی درستگی کو ظاہر کرتا ہے کیونکہ یہ ڈیٹا کا تجزیہ کرنے کی کوشش کرتا ہے جس سے یہ واقف نہیں ہے۔
🎓 انڈر فٹنگ اور اوور فٹنگ عام مسائل ہیں جو ماڈل کے معیار کو کم کرتے ہیں، کیونکہ ماڈل یا تو کافی اچھا فٹ نہیں ہوتا یا بہت زیادہ فٹ ہوتا ہے۔ یہ ماڈل کو پیش گوئیاں کرنے کا سبب بنتا ہے جو یا تو اس کے ٹریننگ ڈیٹا کے ساتھ بہت زیادہ یا بہت کم ہم آہنگ ہوتی ہیں۔ ایک اوور فٹ ماڈل ٹریننگ ڈیٹا کو بہت اچھی طرح سے پیش گوئی کرتا ہے کیونکہ اس نے ڈیٹا کی تفصیلات اور شور کو بہت اچھی طرح سے سیکھ لیا ہے۔ ایک انڈر فٹ ماڈل درست نہیں ہے کیونکہ یہ نہ تو اپنے ٹریننگ ڈیٹا کا درست تجزیہ کر سکتا ہے اور نہ ہی اس ڈیٹا کا جو اس نے ابھی تک 'دیکھا' نہیں ہے۔
انفوگرافک Jen Looper کے ذریعے
پیرامیٹرز کو بہتر بنانا
ایک بار آپ کی ابتدائی تربیت مکمل ہو جائے، ماڈل کے معیار کا مشاہدہ کریں اور اس کے 'ہائپر پیرامیٹرز' کو ایڈجسٹ کر کے اسے بہتر بنانے پر غور کریں۔ اس عمل کے بارے میں مزید پڑھیں دستاویزات میں۔
پیش گوئی
یہ وہ لمحہ ہے جب آپ بالکل نئے ڈیٹا کا استعمال کر کے اپنے ماڈل کی درستگی کو جانچ سکتے ہیں۔ ایک 'اپلائیڈ' ML سیٹنگ میں، جہاں آپ ماڈل کو پروڈکشن میں استعمال کرنے کے لیے ویب اثاثے بنا رہے ہیں، یہ عمل صارف کے ان پٹ (مثال کے طور پر ایک بٹن دبانے) کو متغیر کے طور پر جمع کرنے اور ماڈل کو انفرنس یا جائزے کے لیے بھیجنے میں شامل ہو سکتا ہے۔
ان اسباق میں، آپ دریافت کریں گے کہ ان مراحل کو کیسے تیار کریں، بنائیں، جانچیں، جائزہ لیں، اور پیش گوئی کریں - ڈیٹا سائنسدان کے تمام اشارے اور مزید، جیسے کہ آپ 'فل اسٹیک' ML انجینئر بننے کے سفر میں ترقی کرتے ہیں۔
🚀چیلنج
مشین لرننگ کے ماہر کے مراحل کی عکاسی کرنے کے لیے ایک فلو چارٹ بنائیں۔ آپ اس عمل میں ابھی کہاں ہیں؟ آپ کو کہاں مشکل پیش آنے کی توقع ہے؟ آپ کو کیا آسان لگتا ہے؟
لیکچر کے بعد کا کوئز
جائزہ اور خود مطالعہ
آن لائن تلاش کریں کہ ڈیٹا سائنسدان اپنے روزمرہ کے کام کے بارے میں کیا بات کرتے ہیں۔ یہاں ایک ویڈیو ہے۔
اسائنمنٹ
ڈسکلیمر:
یہ دستاویز AI ترجمہ سروس Co-op Translator کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا غیر درستیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔