# ڈیٹا سائنس لائف سائیکل: تجزیہ |![ [(@sketchthedocs)](https://sketchthedocs.dev) کی اسکیچ نوٹ ](../../sketchnotes/15-Analyzing.png)| |:---:| | ڈیٹا سائنس لائف سائیکل: تجزیہ - _[@nitya](https://twitter.com/nitya) کی اسکیچ نوٹ_ | ## لیکچر سے پہلے کا کوئز ## [لیکچر سے پہلے کا کوئز](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28) ڈیٹا لائف سائیکل میں تجزیہ اس بات کی تصدیق کرتا ہے کہ آیا ڈیٹا ان سوالات کے جوابات دے سکتا ہے جو پیش کیے گئے ہیں یا کسی خاص مسئلے کو حل کر سکتا ہے۔ یہ مرحلہ اس بات کی تصدیق پر بھی توجہ مرکوز کر سکتا ہے کہ آیا کوئی ماڈل ان سوالات اور مسائل کو صحیح طریقے سے حل کر رہا ہے۔ یہ سبق Exploratory Data Analysis یا EDA پر مرکوز ہے، جو ڈیٹا میں خصوصیات اور تعلقات کی وضاحت کرنے کی تکنیک ہیں اور ماڈلنگ کے لیے ڈیٹا تیار کرنے میں استعمال ہو سکتی ہیں۔ ہم [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) سے ایک مثال ڈیٹاسیٹ استعمال کریں گے تاکہ دکھایا جا سکے کہ Python اور Pandas لائبریری کے ساتھ اسے کیسے لاگو کیا جا سکتا ہے۔ یہ ڈیٹاسیٹ ای میلز میں پائے جانے والے کچھ عام الفاظ کی تعداد پر مشتمل ہے، اور ان ای میلز کے ذرائع گمنام ہیں۔ اس ڈائریکٹری میں موجود [notebook](notebook.ipynb) کا استعمال کریں تاکہ اس عمل کو فالو کریں۔ ## Exploratory Data Analysis لائف سائیکل کے کیپچر مرحلے میں ڈیٹا حاصل کیا جاتا ہے اور موجودہ مسائل اور سوالات کو سمجھا جاتا ہے، لیکن ہم کیسے جان سکتے ہیں کہ یہ ڈیٹا مطلوبہ نتائج کی حمایت کر سکتا ہے؟ یاد کریں کہ ایک ڈیٹا سائنسدان ڈیٹا حاصل کرتے وقت درج ذیل سوالات پوچھ سکتا ہے: - کیا میرے پاس اس مسئلے کو حل کرنے کے لیے کافی ڈیٹا موجود ہے؟ - کیا یہ ڈیٹا اس مسئلے کے لیے قابل قبول معیار کا ہے؟ - اگر میں اس ڈیٹا کے ذریعے اضافی معلومات دریافت کروں تو کیا ہمیں اہداف کو تبدیل یا دوبارہ متعین کرنے پر غور کرنا چاہیے؟ Exploratory Data Analysis وہ عمل ہے جس کے ذریعے ڈیٹا کو سمجھا جاتا ہے اور ان سوالات کے جوابات دیے جا سکتے ہیں، نیز ڈیٹاسیٹ کے ساتھ کام کرنے کے چیلنجز کی نشاندہی کی جا سکتی ہے۔ آئیے ان تکنیکوں پر توجہ مرکوز کریں جو اس مقصد کے لیے استعمال ہوتی ہیں۔ ## ڈیٹا پروفائلنگ، وضاحتی شماریات، اور Pandas ہم کیسے اندازہ لگا سکتے ہیں کہ ہمارے پاس اس مسئلے کو حل کرنے کے لیے کافی ڈیٹا موجود ہے؟ ڈیٹا پروفائلنگ کے ذریعے ہم اپنے ڈیٹاسیٹ کے بارے میں عمومی معلومات حاصل کر سکتے ہیں، اور وضاحتی شماریات کے ذریعے ہم یہ جان سکتے ہیں کہ ہمارے پاس کتنی چیزیں دستیاب ہیں۔ پچھلے چند اسباق میں، ہم نے Pandas کا استعمال کرتے ہوئے [`describe()` فنکشن](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) کے ذریعے وضاحتی شماریات فراہم کی ہیں۔ یہ فنکشن عددی ڈیٹا پر گنتی، زیادہ سے زیادہ اور کم سے کم قدریں، اوسط، معیاری انحراف، اور کوانٹائلز فراہم کرتا ہے۔ `describe()` جیسے وضاحتی شماریات کے فنکشن کا استعمال آپ کو یہ اندازہ لگانے میں مدد دے سکتا ہے کہ آپ کے پاس کتنا ڈیٹا ہے اور آیا آپ کو مزید ڈیٹا کی ضرورت ہے۔ ## سیمپلنگ اور کوئری کرنا ایک بڑے ڈیٹاسیٹ میں ہر چیز کا تجزیہ کرنا بہت وقت طلب ہو سکتا ہے اور یہ کام عام طور پر کمپیوٹر پر چھوڑ دیا جاتا ہے۔ تاہم، سیمپلنگ ایک مفید ٹول ہے جو ڈیٹا کو سمجھنے میں مدد دیتا ہے اور ہمیں یہ سمجھنے کا موقع فراہم کرتا ہے کہ ڈیٹاسیٹ میں کیا موجود ہے اور یہ کیا ظاہر کرتا ہے۔ سیمپلنگ کے ذریعے آپ احتمال اور شماریات کا اطلاق کر کے اپنے ڈیٹا کے بارے میں عمومی نتائج اخذ کر سکتے ہیں۔ اگرچہ اس بات کا کوئی مقررہ اصول نہیں ہے کہ آپ کو کتنا ڈیٹا سیمپل کرنا چاہیے، لیکن یہ نوٹ کرنا ضروری ہے کہ جتنا زیادہ ڈیٹا آپ سیمپل کریں گے، اتنی ہی زیادہ درست عمومی تصویر آپ بنا سکیں گے۔ Pandas میں [`sample()` فنکشن](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) موجود ہے، جہاں آپ یہ طے کر سکتے ہیں کہ آپ کتنے بے ترتیب سیمپلز حاصل کرنا چاہتے ہیں۔ ڈیٹا کے عمومی سوالات کے ذریعے آپ اپنے کچھ عمومی سوالات اور نظریات کے جوابات حاصل کر سکتے ہیں۔ سیمپلنگ کے برعکس، کوئریز آپ کو کنٹرول فراہم کرتی ہیں اور آپ کو ڈیٹا کے ان مخصوص حصوں پر توجہ مرکوز کرنے دیتی ہیں جن کے بارے میں آپ کے سوالات ہیں۔ Pandas لائبریری میں [`query()` فنکشن](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) آپ کو کالمز منتخب کرنے اور ڈیٹا کے بارے میں سادہ جوابات حاصل کرنے کی اجازت دیتا ہے۔ ## ویژولائزیشنز کے ذریعے تجزیہ آپ کو ڈیٹا کو مکمل طور پر صاف اور تجزیہ کرنے کے بعد ویژولائزیشنز بنانے کا انتظار کرنے کی ضرورت نہیں ہے۔ درحقیقت، تجزیہ کے دوران ویژولائزیشنز بنانا پیٹرنز، تعلقات، اور ڈیٹا میں موجود مسائل کی نشاندہی کرنے میں مدد دے سکتا ہے۔ مزید برآں، ویژولائزیشنز ان لوگوں کے ساتھ بات چیت کا ایک ذریعہ فراہم کرتی ہیں جو ڈیٹا کے انتظام میں شامل نہیں ہیں اور یہ ایک موقع فراہم کرتی ہیں کہ کیپچر مرحلے میں حل نہ کیے گئے اضافی سوالات کو شیئر اور واضح کیا جا سکے۔ ویژولائزیشنز کے بارے میں مزید جاننے کے لیے [ویژولائزیشنز کے سیکشن](../../../../../../../../../3-Data-Visualization) کا حوالہ دیں۔ ## تضادات کی نشاندہی کے لیے تجزیہ اس سبق میں شامل تمام موضوعات گمشدہ یا غیر مستقل قدروں کی نشاندہی کرنے میں مدد کر سکتے ہیں، لیکن Pandas کچھ خاص فنکشنز فراہم کرتا ہے جو ان کی جانچ کر سکتے ہیں۔ [isna() یا isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) گمشدہ قدروں کی جانچ کر سکتے ہیں۔ ان قدروں کی تلاش کے دوران یہ سمجھنا ضروری ہے کہ وہ اس حالت میں کیوں پہنچے۔ یہ آپ کو یہ فیصلہ کرنے میں مدد دے سکتا ہے کہ انہیں حل کرنے کے لیے [کیا اقدامات کیے جائیں](/2-Working-With-Data/08-data-preparation/notebook.ipynb)۔ ## [لیکچر سے پہلے کا کوئز](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27) ## اسائنمنٹ [جوابات کے لیے تجزیہ](assignment.md) --- **ڈسکلیمر**: یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز، جو اس کی اصل زبان میں ہے، کو مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔