You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ur/1-Introduction/03-defining-data
leestott e2b90108bb
🌐 Update translations via Co-op Translator
4 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago

README.md

ڈیٹا کی تعریف

 Sketchnote by (@sketchthedocs)
ڈیٹا کی تعریف - Sketchnote by @nitya

ڈیٹا حقائق، معلومات، مشاہدات اور پیمائشوں کا مجموعہ ہے جو دریافتیں کرنے اور باخبر فیصلے کرنے میں مدد فراہم کرتا ہے۔ ایک ڈیٹا پوائنٹ ڈیٹا سیٹ میں موجود ڈیٹا کی ایک واحد اکائی ہوتی ہے، جبکہ ڈیٹا سیٹ ڈیٹا پوائنٹس کا مجموعہ ہوتا ہے۔ ڈیٹا سیٹس مختلف فارمیٹس اور ڈھانچوں میں آ سکتے ہیں اور عام طور پر ان کے ماخذ یا جہاں سے وہ حاصل کیے گئے ہیں، پر مبنی ہوتے ہیں۔ مثال کے طور پر، کسی کمپنی کی ماہانہ آمدنی اسپریڈشیٹ میں ہو سکتی ہے، لیکن اسمارٹ واچ سے حاصل کردہ گھنٹہ وار دل کی دھڑکن کا ڈیٹا JSON فارمیٹ میں ہو سکتا ہے۔ ڈیٹا سائنسدانوں کے لیے یہ عام بات ہے کہ وہ ایک ڈیٹا سیٹ میں مختلف اقسام کے ڈیٹا کے ساتھ کام کریں۔

یہ سبق ڈیٹا کو اس کی خصوصیات اور ماخذ کے مطابق شناخت کرنے اور درجہ بندی کرنے پر مرکوز ہے۔

لیکچر سے پہلے کا کوئز

ڈیٹا کو کیسے بیان کیا جاتا ہے

خام ڈیٹا

خام ڈیٹا وہ ڈیٹا ہے جو اپنے ماخذ سے اپنی ابتدائی حالت میں آیا ہو اور جس کا تجزیہ یا تنظیم نہ کی گئی ہو۔ کسی ڈیٹا سیٹ میں موجود معلومات کو سمجھنے کے لیے، اسے ایک ایسے فارمیٹ میں ترتیب دینا ضروری ہے جو انسانوں اور ان کی استعمال کردہ ٹیکنالوجی دونوں کے لیے قابل فہم ہو۔ ڈیٹا سیٹ کا ڈھانچہ اس کی تنظیم کو بیان کرتا ہے اور اسے ساختی، غیر ساختی اور نیم ساختی کے طور پر درجہ بندی کیا جا سکتا ہے۔ یہ ڈھانچے ماخذ کے لحاظ سے مختلف ہو سکتے ہیں لیکن بالآخر ان تین زمروں میں فٹ ہوں گے۔

مقداری ڈیٹا

مقداری ڈیٹا وہ عددی مشاہدات ہیں جو کسی ڈیٹا سیٹ میں موجود ہوتے ہیں اور عام طور پر ان کا تجزیہ، پیمائش اور ریاضیاتی طور پر استعمال کیا جا سکتا ہے۔ مقداری ڈیٹا کی کچھ مثالیں ہیں: کسی ملک کی آبادی، کسی شخص کا قد یا کسی کمپنی کی سہ ماہی آمدنی۔ اضافی تجزیے کے ساتھ، مقداری ڈیٹا کو موسمی رجحانات جیسے ایئر کوالٹی انڈیکس (AQI) یا عام کام کے دن کے دوران رش کے اوقات کی امکانات کا اندازہ لگانے کے لیے استعمال کیا جا سکتا ہے۔

معیاری ڈیٹا

معیاری ڈیٹا، جسے زمرہ بندی ڈیٹا بھی کہا جاتا ہے، وہ ڈیٹا ہے جسے مقداری ڈیٹا کی طرح معروضی طور پر ناپا نہیں جا سکتا۔ یہ عام طور پر مختلف فارمیٹس میں موجود موضوعی ڈیٹا ہوتا ہے جو کسی چیز کے معیار کو ظاہر کرتا ہے، جیسے کسی پروڈکٹ یا عمل کا معیار۔ کبھی کبھار، معیاری ڈیٹا عددی بھی ہو سکتا ہے لیکن عام طور پر ریاضیاتی طور پر استعمال نہیں کیا جاتا، جیسے فون نمبر یا ٹائم اسٹیمپ۔ معیاری ڈیٹا کی کچھ مثالیں ہیں: ویڈیو کے تبصرے، کسی گاڑی کا ماڈل یا آپ کے قریبی دوستوں کا پسندیدہ رنگ۔ معیاری ڈیٹا کو یہ سمجھنے کے لیے استعمال کیا جا سکتا ہے کہ صارفین کو کون سی مصنوعات زیادہ پسند ہیں یا ملازمت کی درخواستوں میں مقبول کلیدی الفاظ کی شناخت کے لیے۔

ساختی ڈیٹا

ساختی ڈیٹا وہ ڈیٹا ہے جو قطاروں اور کالموں میں منظم ہوتا ہے، جہاں ہر قطار میں ایک ہی سیٹ کے کالمز ہوتے ہیں۔ کالمز کسی خاص قسم کی قدر کی نمائندگی کرتے ہیں اور ان کا نام اس بات کی وضاحت کے لیے رکھا جاتا ہے کہ وہ قدر کیا ظاہر کرتی ہے، جبکہ قطاروں میں اصل قدریں ہوتی ہیں۔ کالمز پر اکثر مخصوص قواعد یا پابندیاں لاگو ہوتی ہیں تاکہ یہ یقینی بنایا جا سکے کہ قدریں کالم کی درست نمائندگی کرتی ہیں۔ مثال کے طور پر، گاہکوں کی ایک اسپریڈشیٹ کا تصور کریں جہاں ہر قطار میں ایک فون نمبر ہونا ضروری ہے اور فون نمبروں میں کبھی بھی حروف تہجی کے کردار شامل نہ ہوں۔ فون نمبر کالم پر ایسے قواعد لاگو ہو سکتے ہیں جو یہ یقینی بنائیں کہ یہ کبھی خالی نہ ہو اور صرف اعداد پر مشتمل ہو۔

ساختی ڈیٹا کا ایک فائدہ یہ ہے کہ اسے اس طرح منظم کیا جا سکتا ہے کہ اسے دوسرے ساختی ڈیٹا کے ساتھ مربوط کیا جا سکے۔ تاہم، چونکہ ڈیٹا کو ایک خاص طریقے سے منظم کرنے کے لیے ڈیزائن کیا گیا ہے، اس کی مجموعی ساخت میں تبدیلی کرنا کافی محنت طلب ہو سکتا ہے۔ مثال کے طور پر، گاہکوں کی اسپریڈشیٹ میں ایک ای میل کالم شامل کرنا جو خالی نہ ہو، اس کا مطلب یہ ہوگا کہ آپ کو یہ معلوم کرنا ہوگا کہ موجودہ قطاروں میں ان قدروں کو کیسے شامل کیا جائے۔

ساختی ڈیٹا کی مثالیں: اسپریڈشیٹس، رشتہ دار ڈیٹا بیس، فون نمبر، بینک اسٹیٹمنٹس

غیر ساختی ڈیٹا

غیر ساختی ڈیٹا عام طور پر قطاروں یا کالموں میں درجہ بندی نہیں کیا جا سکتا اور اس میں کسی فارمیٹ یا قواعد کا سیٹ نہیں ہوتا جس کی پیروی کی جائے۔ چونکہ غیر ساختی ڈیٹا پر اس کی ساخت کے حوالے سے کم پابندیاں ہوتی ہیں، اس میں نئی معلومات شامل کرنا ساختی ڈیٹا سیٹ کے مقابلے میں آسان ہوتا ہے۔ اگر کوئی سینسر جو ہر 2 منٹ میں بارومیٹرک پریشر کا ڈیٹا ریکارڈ کرتا ہے، ایک اپ ڈیٹ حاصل کرتا ہے جو اب اسے درجہ حرارت کو ماپنے اور ریکارڈ کرنے کی اجازت دیتا ہے، تو اگر یہ غیر ساختی ہے تو موجودہ ڈیٹا کو تبدیل کرنے کی ضرورت نہیں ہوگی۔ تاہم، اس قسم کے ڈیٹا کا تجزیہ یا جانچ کرنا زیادہ وقت لے سکتا ہے۔ مثال کے طور پر، ایک سائنسدان جو سینسر کے ڈیٹا سے پچھلے مہینے کے اوسط درجہ حرارت کا پتہ لگانا چاہتا ہے، لیکن یہ دریافت کرتا ہے کہ سینسر نے اپنے کچھ ریکارڈ شدہ ڈیٹا میں "e" درج کیا ہے تاکہ یہ ظاہر کیا جا سکے کہ یہ خراب تھا، جس کا مطلب ہے کہ ڈیٹا نامکمل ہے۔

غیر ساختی ڈیٹا کی مثالیں: ٹیکسٹ فائلز، ٹیکسٹ میسجز، ویڈیو فائلز

نیم ساختی ڈیٹا

نیم ساختی ڈیٹا میں وہ خصوصیات ہوتی ہیں جو اسے ساختی اور غیر ساختی ڈیٹا کا امتزاج بناتی ہیں۔ یہ عام طور پر قطاروں اور کالموں کے فارمیٹ کے مطابق نہیں ہوتا لیکن اس طرح منظم ہوتا ہے جسے ساختی سمجھا جاتا ہے اور یہ ایک مقررہ فارمیٹ یا قواعد کے سیٹ کی پیروی کر سکتا ہے۔ ساخت ماخذ کے لحاظ سے مختلف ہو سکتی ہے، جیسے کہ ایک اچھی طرح سے متعین درجہ بندی سے لے کر کچھ زیادہ لچکدار چیز تک جو نئی معلومات کے آسان انضمام کی اجازت دیتی ہو۔ میٹا ڈیٹا وہ اشارے ہیں جو یہ فیصلہ کرنے میں مدد کرتے ہیں کہ ڈیٹا کو کیسے منظم اور ذخیرہ کیا جائے اور ان کے مختلف نام ہو سکتے ہیں، ڈیٹا کی قسم پر مبنی۔ میٹا ڈیٹا کے کچھ عام نام ٹیگز، عناصر، ادارے اور صفات ہیں۔ مثال کے طور پر، ایک عام ای میل پیغام میں ایک موضوع، متن اور وصول کنندگان کا ایک سیٹ ہوگا اور اسے اس کے بھیجنے والے یا بھیجے جانے کے وقت کے لحاظ سے منظم کیا جا سکتا ہے۔

نیم ساختی ڈیٹا کی مثالیں: HTML، CSV فائلز، جاوا اسکرپٹ آبجیکٹ نوٹیشن (JSON)

ڈیٹا کے ذرائع

ڈیٹا کا ماخذ وہ ابتدائی مقام ہے جہاں ڈیٹا پیدا ہوا یا "موجود" ہے اور یہ اس کے جمع کیے جانے کے طریقے اور وقت کے لحاظ سے مختلف ہوگا۔ صارفین کے ذریعے پیدا کیا گیا ڈیٹا بنیادی ڈیٹا کہلاتا ہے جبکہ ثانوی ڈیٹا وہ ہوتا ہے جو کسی ایسے ماخذ سے آتا ہے جس نے عام استعمال کے لیے ڈیٹا جمع کیا ہو۔ مثال کے طور پر، سائنسدانوں کا ایک گروپ جو کسی بارانی جنگل میں مشاہدات جمع کر رہا ہو، اسے بنیادی ڈیٹا سمجھا جائے گا اور اگر وہ اسے دوسرے سائنسدانوں کے ساتھ شیئر کرنے کا فیصلہ کرتے ہیں تو یہ ان کے لیے ثانوی ڈیٹا ہوگا جو اسے استعمال کرتے ہیں۔

ڈیٹا بیس ایک عام ذریعہ ہیں اور ڈیٹا بیس مینجمنٹ سسٹم پر انحصار کرتے ہیں تاکہ ڈیٹا کی میزبانی اور دیکھ بھال کی جا سکے، جہاں صارفین کمانڈز کو "کوئریز" کہتے ہیں تاکہ ڈیٹا کو دریافت کیا جا سکے۔ فائلز بطور ڈیٹا ذرائع آڈیو، امیج، اور ویڈیو فائلز کے ساتھ ساتھ اسپریڈشیٹس جیسے ایکسل بھی ہو سکتی ہیں۔ انٹرنیٹ ذرائع ڈیٹا کی میزبانی کے لیے ایک عام مقام ہیں، جہاں ڈیٹا بیسز اور فائلز دونوں کو پایا جا سکتا ہے۔ ایپلیکیشن پروگرامنگ انٹرفیسز، جنہیں APIs بھی کہا جاتا ہے، پروگرامرز کو انٹرنیٹ کے ذریعے بیرونی صارفین کے ساتھ ڈیٹا شیئر کرنے کے طریقے بنانے کی اجازت دیتے ہیں، جبکہ ویب اسکریپنگ کے عمل سے ویب پیج سے ڈیٹا نکالا جاتا ہے۔ ڈیٹا کے ساتھ کام کرنے کے اسباق مختلف ڈیٹا ذرائع کو استعمال کرنے کے طریقے پر مرکوز ہیں۔

نتیجہ

اس سبق میں ہم نے سیکھا:

  • ڈیٹا کیا ہے
  • ڈیٹا کو کیسے بیان کیا جاتا ہے
  • ڈیٹا کو کیسے درجہ بندی اور زمرہ بندی کی جاتی ہے
  • ڈیٹا کہاں پایا جا سکتا ہے

🚀 چیلنج

Kaggle کھلے ڈیٹا سیٹس کا ایک بہترین ذریعہ ہے۔ ڈیٹا سیٹ سرچ ٹول کا استعمال کریں تاکہ کچھ دلچسپ ڈیٹا سیٹس تلاش کریں اور 3-5 ڈیٹا سیٹس کو اس معیار کے مطابق درجہ بندی کریں:

  • کیا ڈیٹا مقداری ہے یا معیاری؟
  • کیا ڈیٹا ساختی، غیر ساختی، یا نیم ساختی ہے؟

لیکچر کے بعد کا کوئز

جائزہ اور خود مطالعہ

اسائنمنٹ

ڈیٹا سیٹس کی درجہ بندی


ڈس کلیمر:
یہ دستاویز AI ترجمہ سروس Co-op Translator کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔