9.8 KiB

Raw Permalink Blame History Unescape Escape

ڈیٹا سائنس لائف سائیکل: تجزیہ


ڈیٹا سائنس لائف سائیکل: تجزیہ - Sketchnote by @nitya

لیکچر سے پہلے کا کوئز

ڈیٹا لائف سائیکل میں تجزیہ اس بات کی تصدیق کرتا ہے کہ آیا ڈیٹا ان سوالات کا جواب دے سکتا ہے جو پیش کیے گئے ہیں یا کسی خاص مسئلے کو حل کر سکتا ہے۔ یہ مرحلہ اس بات کی تصدیق پر بھی مرکوز ہو سکتا ہے کہ آیا ماڈل ان سوالات اور مسائل کو صحیح طریقے سے حل کر رہا ہے۔ یہ سبق ایکسپلورٹری ڈیٹا اینالیسس (EDA) پر مرکوز ہے، جو ڈیٹا کے اندر خصوصیات اور تعلقات کی وضاحت کرنے کی تکنیک ہیں اور ماڈلنگ کے لیے ڈیٹا تیار کرنے میں استعمال کی جا سکتی ہیں۔

ہم ایک مثال کے طور پر Kaggle سے ایک ڈیٹاسیٹ استعمال کریں گے تاکہ دکھایا جا سکے کہ یہ Python اور Pandas لائبریری کے ساتھ کیسے لاگو کیا جا سکتا ہے۔ یہ ڈیٹاسیٹ ای میلز میں پائے جانے والے کچھ عام الفاظ کی تعداد پر مشتمل ہے، اور ان ای میلز کے ذرائع گمنام ہیں۔ اس ڈائریکٹری میں موجود نوٹ بک کا استعمال کریں تاکہ ساتھ ساتھ چل سکیں۔

ایکسپلورٹری ڈیٹا اینالیسس

لائف سائیکل کے کیپچر مرحلے میں ڈیٹا حاصل کیا جاتا ہے اور مسائل اور سوالات کو سمجھا جاتا ہے، لیکن ہم کیسے جان سکتے ہیں کہ ڈیٹا حتمی نتیجہ کی حمایت کر سکتا ہے؟ یاد کریں کہ ایک ڈیٹا سائنسدان ڈیٹا حاصل کرتے وقت درج ذیل سوالات پوچھ سکتا ہے:

کیا میرے پاس اس مسئلے کو حل کرنے کے لیے کافی ڈیٹا موجود ہے؟
کیا یہ ڈیٹا اس مسئلے کے لیے قابل قبول معیار کا ہے؟
اگر میں اس ڈیٹا کے ذریعے اضافی معلومات دریافت کروں، تو کیا ہمیں اہداف کو تبدیل یا دوبارہ تعریف کرنے پر غور کرنا چاہیے؟ ایکسپلورٹری ڈیٹا اینالیسس ڈیٹا کو سمجھنے کا عمل ہے اور ان سوالات کے جواب دینے کے لیے استعمال کیا جا سکتا ہے، ساتھ ہی ڈیٹاسیٹ کے ساتھ کام کرنے کے چیلنجز کی نشاندہی بھی کر سکتا ہے۔ آئیے ان تکنیکوں پر توجہ مرکوز کریں جو اس مقصد کو حاصل کرنے کے لیے استعمال ہوتی ہیں۔

ڈیٹا پروفائلنگ، وضاحتی شماریات، اور پانڈاز

ہم کیسے اندازہ لگا سکتے ہیں کہ ہمارے پاس اس مسئلے کو حل کرنے کے لیے کافی ڈیٹا موجود ہے؟ ڈیٹا پروفائلنگ وضاحتی شماریات کی تکنیکوں کے ذریعے ہمارے ڈیٹاسیٹ کے بارے میں عمومی معلومات کو خلاصہ اور جمع کر سکتی ہے۔ ڈیٹا پروفائلنگ ہمیں یہ سمجھنے میں مدد دیتی ہے کہ ہمارے پاس کیا دستیاب ہے، اور وضاحتی شماریات ہمیں یہ سمجھنے میں مدد دیتی ہیں کہ ہمارے پاس کتنی چیزیں دستیاب ہیں۔

پچھلے چند اسباق میں، ہم نے پانڈاز کا استعمال کرتے ہوئے describe() فنکشن کے ذریعے کچھ وضاحتی شماریات فراہم کی ہیں۔ یہ عددی ڈیٹا پر گنتی، زیادہ سے زیادہ اور کم سے کم اقدار، اوسط، معیاری انحراف، اور کوانٹائلز فراہم کرتا ہے۔ وضاحتی شماریات جیسے describe() فنکشن کا استعمال آپ کو یہ اندازہ لگانے میں مدد دے سکتا ہے کہ آپ کے پاس کتنا ڈیٹا ہے اور آیا آپ کو مزید کی ضرورت ہے۔

سیمپلنگ اور کوئرینگ

بڑے ڈیٹاسیٹ میں ہر چیز کو دریافت کرنا بہت وقت طلب ہو سکتا ہے اور یہ کام عام طور پر کمپیوٹر کے سپرد کیا جاتا ہے۔ تاہم، سیمپلنگ ڈیٹا کو سمجھنے میں ایک مددگار ٹول ہے اور ہمیں یہ بہتر طور پر سمجھنے کی اجازت دیتی ہے کہ ڈیٹاسیٹ میں کیا ہے اور یہ کیا ظاہر کرتا ہے۔ سیمپل کے ساتھ، آپ احتمال اور شماریات کا اطلاق کر کے اپنے ڈیٹا کے بارے میں کچھ عمومی نتائج پر پہنچ سکتے ہیں۔ اگرچہ اس بات کا کوئی واضح اصول نہیں ہے کہ آپ کو کتنا ڈیٹا سیمپل کرنا چاہیے، یہ نوٹ کرنا ضروری ہے کہ جتنا زیادہ ڈیٹا آپ سیمپل کریں گے، اتنی ہی زیادہ درست عمومی تفصیل آپ ڈیٹا کے بارے میں دے سکیں گے۔ پانڈاز میں sample() فنکشن موجود ہے جہاں آپ یہ دلیل دے سکتے ہیں کہ آپ کتنے بے ترتیب سیمپل حاصل کرنا اور استعمال کرنا چاہتے ہیں۔

ڈیٹا کی عمومی کوئرینگ آپ کو کچھ عمومی سوالات اور نظریات کے جواب دینے میں مدد دے سکتی ہے جو آپ کے ذہن میں ہو سکتے ہیں۔ سیمپلنگ کے برعکس، کوئریز آپ کو کنٹرول اور ڈیٹا کے مخصوص حصوں پر توجہ مرکوز کرنے کی اجازت دیتی ہیں جن کے بارے میں آپ کے سوالات ہیں۔ پانڈاز لائبریری میں query() فنکشن آپ کو کالمز منتخب کرنے اور ڈیٹا کے بارے میں سادہ جوابات حاصل کرنے کی اجازت دیتا ہے۔

ویژولائزیشن کے ذریعے دریافت کرنا

آپ کو ڈیٹا کو مکمل طور پر صاف اور تجزیہ کرنے کے بعد ویژولائزیشنز بنانے کا انتظار کرنے کی ضرورت نہیں ہے۔ درحقیقت، دریافت کے دوران بصری نمائندگی رکھنے سے ڈیٹا میں پیٹرنز، تعلقات، اور مسائل کی نشاندہی کرنے میں مدد مل سکتی ہے۔ مزید برآں، ویژولائزیشنز ان لوگوں کے ساتھ بات چیت کرنے کا ایک ذریعہ فراہم کرتی ہیں جو ڈیٹا کے انتظام میں شامل نہیں ہیں اور یہ ایک موقع ہو سکتا ہے کہ ان اضافی سوالات کو شیئر اور واضح کیا جائے جو کیپچر مرحلے میں حل نہیں کیے گئے تھے۔ ویژولائزیشنز کو دریافت کرنے کے کچھ مشہور طریقوں کے بارے میں مزید جاننے کے لیے ویژولائزیشنز کے سیکشن کا حوالہ دیں۔

تضادات کی نشاندہی کے لیے دریافت کرنا

اس سبق میں شامل تمام موضوعات گمشدہ یا غیر مستقل اقدار کی نشاندہی کرنے میں مدد کر سکتے ہیں، لیکن پانڈاز کچھ فنکشنز فراہم کرتا ہے جو ان کی جانچ کر سکتے ہیں۔ isna() یا isnull() گمشدہ اقدار کی جانچ کر سکتے ہیں۔ ڈیٹا میں ان اقدار کو دریافت کرنے کا ایک اہم پہلو یہ ہے کہ یہ سمجھا جائے کہ وہ پہلی جگہ اس طرح کیوں ختم ہوئیں۔ یہ آپ کو یہ فیصلہ کرنے میں مدد دے سکتا ہے کہ انہیں حل کرنے کے لیے کیا اقدامات کیے جائیں۔

لیکچر کے بعد کا کوئز

اسائنمنٹ

جوابات کے لیے دریافت کرنا

ڈسکلیمر:
یہ دستاویز AI ترجمہ سروس Co-op Translator کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز، جو اس کی اصل زبان میں ہے، کو مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔

9.8 KiB Raw Permalink Blame History Unescape Escape