You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ur/1-Introduction/03-defining-data
leestott 8029ff828a
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

ڈیٹا کی تعریف

 Sketchnote by (@sketchthedocs)
ڈیٹا کی تعریف - Sketchnote by @nitya

ڈیٹا حقائق، معلومات، مشاہدات اور پیمائش ہیں جو دریافتیں کرنے اور باخبر فیصلوں کی حمایت کے لیے استعمال ہوتے ہیں۔ ایک ڈیٹا پوائنٹ ڈیٹا کا ایک واحد یونٹ ہوتا ہے جو ڈیٹا سیٹ میں موجود ہوتا ہے، جو کہ ڈیٹا پوائنٹس کا مجموعہ ہوتا ہے۔ ڈیٹا سیٹس مختلف فارمیٹس اور ساخت میں آ سکتے ہیں، اور عام طور پر اس کے ماخذ یا جہاں سے ڈیٹا آیا ہے، پر مبنی ہوں گے۔ مثال کے طور پر، کسی کمپنی کی ماہانہ آمدنی اسپریڈشیٹ میں ہو سکتی ہے لیکن اسمارٹ واچ سے گھنٹہ وار دل کی دھڑکن کا ڈیٹا JSON فارمیٹ میں ہو سکتا ہے۔ یہ عام بات ہے کہ ڈیٹا سائنسدان ایک ڈیٹا سیٹ کے اندر مختلف قسم کے ڈیٹا کے ساتھ کام کرتے ہیں۔

یہ سبق ڈیٹا کی خصوصیات اور اس کے ذرائع کے ذریعے اس کی شناخت اور درجہ بندی پر مرکوز ہے۔

لیکچر سے پہلے کا کوئز

ڈیٹا کو کیسے بیان کیا جاتا ہے

خام ڈیٹا

خام ڈیٹا وہ ڈیٹا ہے جو اپنے ماخذ سے اپنی ابتدائی حالت میں آیا ہے اور اس کا تجزیہ یا تنظیم نہیں کی گئی ہے۔ ڈیٹا سیٹ میں کیا ہو رہا ہے اسے سمجھنے کے لیے، اسے ایک ایسے فارمیٹ میں منظم کرنے کی ضرورت ہے جو انسانوں کے ساتھ ساتھ وہ ٹیکنالوجی بھی سمجھ سکے جو اسے مزید تجزیہ کرنے کے لیے استعمال کر سکتی ہے۔ ڈیٹا سیٹ کی ساخت بیان کرتی ہے کہ یہ کیسے منظم ہے اور اسے منظم، غیر منظم اور نیم منظم کے طور پر درجہ بندی کیا جا سکتا ہے۔ یہ ساخت کے ذرائع پر منحصر ہوگی لیکن بالآخر ان تین زمروں میں فٹ ہوگی۔

مقداری ڈیٹا

مقداری ڈیٹا ڈیٹا سیٹ کے اندر عددی مشاہدات ہیں اور عام طور پر ان کا تجزیہ، پیمائش اور ریاضیاتی طور پر استعمال کیا جا سکتا ہے۔ مقداری ڈیٹا کی کچھ مثالیں ہیں: کسی ملک کی آبادی، کسی شخص کا قد یا کسی کمپنی کی سہ ماہی آمدنی۔ کچھ اضافی تجزیہ کے ساتھ، مقداری ڈیٹا کو ایئر کوالٹی انڈیکس (AQI) کے موسمی رجحانات دریافت کرنے یا عام کام کے دن پر رش کے وقت کے ٹریفک کے امکان کا اندازہ لگانے کے لیے استعمال کیا جا سکتا ہے۔

معیاری ڈیٹا

معیاری ڈیٹا، جسے زمرہ وار ڈیٹا بھی کہا جاتا ہے، وہ ڈیٹا ہے جسے مقداری ڈیٹا کے مشاہدات کی طرح معروضی طور پر نہیں ناپا جا سکتا۔ یہ عام طور پر مختلف فارمیٹس کا موضوعی ڈیٹا ہوتا ہے جو کسی چیز، جیسے کسی پروڈکٹ یا عمل کے معیار کو حاصل کرتا ہے۔ کبھی کبھی، معیاری ڈیٹا عددی ہوتا ہے اور عام طور پر ریاضیاتی طور پر استعمال نہیں کیا جاتا، جیسے فون نمبر یا ٹائم اسٹیمپ۔ معیاری ڈیٹا کی کچھ مثالیں ہیں: ویڈیو کے تبصرے، کسی کار کا ماڈل اور برانڈ یا آپ کے قریبی دوستوں کا پسندیدہ رنگ۔ معیاری ڈیٹا کو یہ سمجھنے کے لیے استعمال کیا جا سکتا ہے کہ صارفین کو کون سی مصنوعات سب سے زیادہ پسند ہیں یا ملازمت کی درخواست کے ریزیومے میں مقبول کلیدی الفاظ کی شناخت کے لیے۔

منظم ڈیٹا

منظم ڈیٹا وہ ڈیٹا ہے جو قطاروں اور کالموں میں منظم ہوتا ہے، جہاں ہر قطار میں کالموں کا ایک ہی سیٹ ہوتا ہے۔ کالم کسی خاص قسم کی قدر کی نمائندگی کرتے ہیں اور اس قدر کی نمائندگی کرنے والے نام کے ساتھ شناخت کیے جائیں گے، جبکہ قطاروں میں اصل اقدار شامل ہوتی ہیں۔ کالموں پر اکثر اقدار کے لیے مخصوص قواعد یا پابندیاں ہوتی ہیں تاکہ یہ یقینی بنایا جا سکے کہ اقدار کالم کی درست نمائندگی کرتی ہیں۔ مثال کے طور پر، صارفین کی اسپریڈشیٹ کا تصور کریں جہاں ہر قطار میں فون نمبر ہونا ضروری ہے اور فون نمبروں میں کبھی بھی حروف تہجی کے کردار شامل نہیں ہوتے۔ فون نمبر کالم پر ایسے قواعد لاگو ہو سکتے ہیں تاکہ یہ یقینی بنایا جا سکے کہ یہ کبھی خالی نہ ہو اور صرف نمبروں پر مشتمل ہو۔

منظم ڈیٹا کا فائدہ یہ ہے کہ اسے اس طرح منظم کیا جا سکتا ہے کہ اسے دوسرے منظم ڈیٹا سے متعلق کیا جا سکے۔ تاہم، چونکہ ڈیٹا کو مخصوص طریقے سے منظم کرنے کے لیے ڈیزائن کیا گیا ہے، اس کی مجموعی ساخت میں تبدیلیاں کرنا بہت زیادہ محنت طلب ہو سکتا ہے۔ مثال کے طور پر، صارفین کی اسپریڈشیٹ میں ایک ای میل کالم شامل کرنا جو خالی نہیں ہو سکتا، اس کا مطلب ہے کہ آپ کو یہ معلوم کرنا ہوگا کہ آپ موجودہ قطاروں میں یہ اقدار ڈیٹا سیٹ میں کیسے شامل کریں گے۔

منظم ڈیٹا کی مثالیں: اسپریڈشیٹس، رشتہ دار ڈیٹا بیس، فون نمبر، بینک اسٹیٹمنٹس

غیر منظم ڈیٹا

غیر منظم ڈیٹا عام طور پر قطاروں یا کالموں میں درجہ بندی نہیں کیا جا سکتا اور اس میں فارمیٹ یا قواعد کا کوئی سیٹ نہیں ہوتا جس کی پیروی کی جائے۔ چونکہ غیر منظم ڈیٹا کی ساخت پر کم پابندیاں ہوتی ہیں، اس میں نئے معلومات شامل کرنا منظم ڈیٹا سیٹ کے مقابلے میں آسان ہوتا ہے۔ اگر کوئی سینسر ہر 2 منٹ میں بارومیٹرک پریشر پر ڈیٹا حاصل کر رہا ہے اور اسے اپ ڈیٹ ملا ہے جو اب اسے درجہ حرارت کو ماپنے اور ریکارڈ کرنے کی اجازت دیتا ہے، تو اگر یہ غیر منظم ہے تو موجودہ ڈیٹا کو تبدیل کرنے کی ضرورت نہیں ہے۔ تاہم، اس قسم کے ڈیٹا کا تجزیہ یا تحقیق کرنے میں زیادہ وقت لگ سکتا ہے۔ مثال کے طور پر، ایک سائنسدان جو سینسر کے ڈیٹا سے پچھلے مہینے کے اوسط درجہ حرارت کو تلاش کرنا چاہتا ہے، لیکن دریافت کرتا ہے کہ سینسر نے اپنے ریکارڈ شدہ ڈیٹا میں "e" کو نوٹ کرنے کے لیے ریکارڈ کیا کہ یہ ٹوٹا ہوا تھا بجائے ایک عام نمبر کے، جس کا مطلب ہے کہ ڈیٹا نامکمل ہے۔

غیر منظم ڈیٹا کی مثالیں: ٹیکسٹ فائلز، ٹیکسٹ میسجز، ویڈیو فائلز

نیم منظم ڈیٹا

نیم منظم ڈیٹا میں وہ خصوصیات ہوتی ہیں جو اسے منظم اور غیر منظم ڈیٹا کا امتزاج بناتی ہیں۔ یہ عام طور پر قطاروں اور کالموں کے فارمیٹ کے مطابق نہیں ہوتا لیکن اس طرح منظم ہوتا ہے جسے منظم سمجھا جاتا ہے اور یہ ایک مقررہ فارمیٹ یا قواعد کے سیٹ کی پیروی کر سکتا ہے۔ ساخت ذرائع کے درمیان مختلف ہوگی، جیسے کہ ایک اچھی طرح سے بیان کردہ درجہ بندی سے لے کر کچھ زیادہ لچکدار چیز جو نئی معلومات کے آسان انضمام کی اجازت دیتی ہے۔ میٹا ڈیٹا وہ اشارے ہیں جو فیصلہ کرنے میں مدد کرتے ہیں کہ ڈیٹا کو کیسے منظم اور ذخیرہ کیا جائے اور ڈیٹا کی قسم کی بنیاد پر مختلف نام ہوں گے۔ میٹا ڈیٹا کے کچھ عام نام ٹیگز، عناصر، ادارے اور صفات ہیں۔ مثال کے طور پر، ایک عام ای میل پیغام میں ایک موضوع، مواد اور وصول کنندگان کا ایک سیٹ ہوگا اور اسے اس کے بھیجنے والے یا بھیجنے کے وقت کے لحاظ سے منظم کیا جا سکتا ہے۔

نیم منظم ڈیٹا کی مثالیں: HTML، CSV فائلز، جاوا اسکرپٹ آبجیکٹ نوٹیشن (JSON)

ڈیٹا کے ذرائع

ڈیٹا کا ذریعہ وہ ابتدائی مقام ہے جہاں ڈیٹا تیار کیا گیا تھا، یا جہاں یہ "رہتا" ہے اور یہ اس بات پر منحصر ہوگا کہ اسے کیسے اور کب جمع کیا گیا۔ صارفین کے ذریعہ تیار کردہ ڈیٹا کو بنیادی ڈیٹا کہا جاتا ہے جبکہ ثانوی ڈیٹا اس ذریعہ سے آتا ہے جس نے عام استعمال کے لیے ڈیٹا جمع کیا ہو۔ مثال کے طور پر، بارش کے جنگل میں مشاہدات جمع کرنے والے سائنسدانوں کے ایک گروپ کو بنیادی سمجھا جائے گا اور اگر وہ اسے دوسرے سائنسدانوں کے ساتھ شیئر کرنے کا فیصلہ کرتے ہیں تو اسے ان لوگوں کے لیے ثانوی سمجھا جائے گا جو اسے استعمال کرتے ہیں۔

ڈیٹا بیس ایک عام ذریعہ ہیں اور ڈیٹا کی میزبانی اور دیکھ بھال کے لیے ڈیٹا بیس مینجمنٹ سسٹم پر انحصار کرتے ہیں جہاں صارفین ڈیٹا کو دریافت کرنے کے لیے کمانڈز کو "کوئریز" کہتے ہیں۔ فائلز بطور ڈیٹا ذرائع آڈیو، تصویر، اور ویڈیو فائلز کے ساتھ ساتھ اسپریڈشیٹس جیسے ایکسل بھی ہو سکتی ہیں۔ انٹرنیٹ ذرائع ڈیٹا کی میزبانی کے لیے ایک عام مقام ہیں، جہاں ڈیٹا بیس کے ساتھ ساتھ فائلز بھی مل سکتی ہیں۔ ایپلیکیشن پروگرامنگ انٹرفیس، جسے APIs بھی کہا جاتا ہے، پروگرامرز کو انٹرنیٹ کے ذریعے بیرونی صارفین کے ساتھ ڈیٹا شیئر کرنے کے طریقے بنانے کی اجازت دیتے ہیں، جبکہ ویب اسکریپنگ کے عمل میں ویب صفحہ سے ڈیٹا نکالا جاتا ہے۔ ڈیٹا کے ساتھ کام کرنے کے اسباق مختلف ڈیٹا ذرائع کو استعمال کرنے کے طریقے پر مرکوز ہیں۔

نتیجہ

اس سبق میں ہم نے سیکھا:

  • ڈیٹا کیا ہے
  • ڈیٹا کو کیسے بیان کیا جاتا ہے
  • ڈیٹا کو کیسے درجہ بندی اور زمرہ بندی کی جاتی ہے
  • ڈیٹا کہاں پایا جا سکتا ہے

🚀 چیلنج

Kaggle کھلے ڈیٹا سیٹس کا ایک بہترین ذریعہ ہے۔ ڈیٹا سیٹ سرچ ٹول کا استعمال کریں تاکہ کچھ دلچسپ ڈیٹا سیٹس تلاش کریں اور 3-5 ڈیٹا سیٹس کو اس معیار کے ساتھ درجہ بندی کریں:

  • کیا ڈیٹا مقداری ہے یا معیاری؟
  • کیا ڈیٹا منظم، غیر منظم، یا نیم منظم ہے؟

لیکچر کے بعد کا کوئز

جائزہ اور خود مطالعہ

اسائنمنٹ

ڈیٹا سیٹس کی درجہ بندی


ڈسکلیمر:
یہ دستاویز AI ترجمہ سروس Co-op Translator کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا غیر درستیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔