12 KiB
ڈیٹا کی اقسام
جیسا کہ ہم پہلے ذکر کر چکے ہیں، ڈیٹا ہر جگہ موجود ہے۔ ہمیں صرف اسے صحیح طریقے سے حاصل کرنے کی ضرورت ہے! یہ مفید ہے کہ ہم منظم اور غیر منظم ڈیٹا کے درمیان فرق کریں۔ منظم ڈیٹا عام طور پر کسی منظم شکل میں پیش کیا جاتا ہے، جیسے کہ ایک ٹیبل یا کئی ٹیبلز، جبکہ غیر منظم ڈیٹا صرف فائلز کا مجموعہ ہوتا ہے۔ بعض اوقات ہم نیم منظم ڈیٹا کی بھی بات کر سکتے ہیں، جس میں کچھ حد تک ساخت ہوتی ہے جو بہت مختلف ہو سکتی ہے۔
منظم | نیم منظم | غیر منظم |
---|---|---|
لوگوں کی فہرست ان کے فون نمبرز کے ساتھ | ویکیپیڈیا کے صفحات جن میں لنکس شامل ہیں | انسائیکلوپیڈیا برٹانیکا کا متن |
پچھلے 20 سالوں میں ہر منٹ میں ایک عمارت کے تمام کمروں کا درجہ حرارت | سائنسی مقالوں کا مجموعہ JSON فارمیٹ میں، جس میں مصنفین، اشاعت کی تاریخ، اور خلاصہ شامل ہو | کارپوریٹ دستاویزات کے ساتھ فائل شیئر |
عمارت میں داخل ہونے والے تمام لوگوں کی عمر اور جنس کا ڈیٹا | انٹرنیٹ کے صفحات | نگرانی کیمرے سے خام ویڈیو فیڈ |
ڈیٹا کہاں سے حاصل کریں
ڈیٹا کے بہت سے ممکنہ ذرائع ہیں، اور ان سب کو فہرست میں شامل کرنا ناممکن ہوگا! تاہم، آئیے کچھ عام جگہوں کا ذکر کرتے ہیں جہاں سے آپ ڈیٹا حاصل کر سکتے ہیں:
- منظم
- انٹرنیٹ آف تھنگز (IoT)، جس میں مختلف سینسرز جیسے درجہ حرارت یا دباؤ سینسرز سے ڈیٹا شامل ہے، بہت مفید ڈیٹا فراہم کرتا ہے۔ مثال کے طور پر، اگر ایک دفتر کی عمارت IoT سینسرز سے لیس ہو، تو ہم خودکار طور پر حرارت اور روشنی کو کنٹرول کر سکتے ہیں تاکہ اخراجات کم کیے جا سکیں۔
- سروے جو ہم صارفین سے خریداری کے بعد یا ویب سائٹ دیکھنے کے بعد مکمل کرنے کو کہتے ہیں۔
- رویے کا تجزیہ، جو ہمیں یہ سمجھنے میں مدد دے سکتا ہے کہ صارف ویب سائٹ پر کتنی گہرائی میں جاتا ہے، اور عام طور پر ویب سائٹ چھوڑنے کی وجہ کیا ہوتی ہے۔
- غیر منظم
- متن ایک قیمتی ذریعہ ہو سکتا ہے، جیسے مجموعی جذباتی اسکور، یا کلیدی الفاظ اور معنوی مطلب نکالنا۔
- تصاویر یا ویڈیوز۔ نگرانی کیمرے سے ویڈیو سڑک پر ٹریفک کا اندازہ لگانے کے لیے استعمال کی جا سکتی ہے، اور لوگوں کو ممکنہ ٹریفک جام کے بارے میں مطلع کر سکتی ہے۔
- ویب سرور کے لاگز یہ سمجھنے کے لیے استعمال کیے جا سکتے ہیں کہ ہماری ویب سائٹ کے کون سے صفحات سب سے زیادہ دیکھے جاتے ہیں، اور کتنی دیر تک۔
- نیم منظم
- سوشل نیٹ ورک گراف صارفین کی شخصیتوں اور معلومات پھیلانے کی ممکنہ تاثیر کے بارے میں ڈیٹا کے بہترین ذرائع ہو سکتے ہیں۔
- جب ہمارے پاس کسی پارٹی کی تصاویر کا مجموعہ ہو، تو ہم گروپ ڈائنامکس کا ڈیٹا نکالنے کی کوشش کر سکتے ہیں، لوگوں کے ایک دوسرے کے ساتھ تصاویر لینے کے گراف بنا کر۔
مختلف ممکنہ ڈیٹا کے ذرائع کو جان کر، آپ مختلف منظرناموں کے بارے میں سوچ سکتے ہیں جہاں ڈیٹا سائنس کی تکنیکوں کو بہتر طور پر سمجھنے اور کاروباری عمل کو بہتر بنانے کے لیے لاگو کیا جا سکتا ہے۔
ڈیٹا کے ساتھ کیا کیا جا سکتا ہے
ڈیٹا سائنس میں، ہم ڈیٹا کے سفر کے درج ذیل مراحل پر توجہ مرکوز کرتے ہیں:
ڈیجیٹلائزیشن اور ڈیجیٹل ٹرانسفارمیشن
پچھلی دہائی میں، بہت سے کاروباروں نے یہ سمجھنا شروع کیا کہ کاروباری فیصلے کرتے وقت ڈیٹا کی اہمیت کتنی زیادہ ہے۔ ڈیٹا سائنس کے اصولوں کو کاروبار چلانے پر لاگو کرنے کے لیے، سب سے پہلے کچھ ڈیٹا جمع کرنا ضروری ہے، یعنی کاروباری عمل کو ڈیجیٹل شکل میں تبدیل کرنا۔ اسے ڈیجیٹلائزیشن کہا جاتا ہے۔ اس ڈیٹا پر ڈیٹا سائنس کی تکنیکوں کا اطلاق کر کے فیصلوں کی رہنمائی کرنا پیداواریت میں نمایاں اضافہ (یا یہاں تک کہ کاروباری تبدیلی) کا باعث بن سکتا ہے، جسے ڈیجیٹل ٹرانسفارمیشن کہا جاتا ہے۔
آئیے ایک مثال پر غور کریں۔ فرض کریں کہ ہمارے پاس ایک ڈیٹا سائنس کورس ہے (جیسے یہ کورس) جو ہم آن لائن طلباء کو فراہم کرتے ہیں، اور ہم اسے بہتر بنانے کے لیے ڈیٹا سائنس کا استعمال کرنا چاہتے ہیں۔ ہم یہ کیسے کر سکتے ہیں؟
ہم یہ سوال پوچھ کر شروع کر سکتے ہیں کہ "کیا چیز ڈیجیٹلائز کی جا سکتی ہے؟" سب سے آسان طریقہ یہ ہوگا کہ ہم یہ ناپیں کہ ہر طالب علم کو ہر ماڈیول مکمل کرنے میں کتنا وقت لگتا ہے، اور ہر ماڈیول کے اختتام پر ایک ملٹی پل چوائس ٹیسٹ دے کر حاصل کردہ علم کو ناپیں۔ تمام طلباء کے درمیان اوسط وقت نکال کر، ہم یہ معلوم کر سکتے ہیں کہ کون سے ماڈیول طلباء کے لیے سب سے زیادہ مشکلات پیدا کرتے ہیں، اور ان کو آسان بنانے پر کام کر سکتے ہیں۔ آپ یہ دلیل دے سکتے ہیں کہ یہ طریقہ مثالی نہیں ہے، کیونکہ ماڈیولز مختلف لمبائی کے ہو سکتے ہیں۔ شاید زیادہ مناسب یہ ہوگا کہ وقت کو ماڈیول کی لمبائی (حروف کی تعداد میں) کے حساب سے تقسیم کیا جائے، اور ان اقدار کا موازنہ کیا جائے۔ جب ہم کثیر انتخابی ٹیسٹ کے نتائج کا تجزیہ شروع کرتے ہیں، تو ہم یہ جاننے کی کوشش کر سکتے ہیں کہ کون سے تصورات طلباء کے لیے سمجھنے میں مشکل ہیں، اور اس معلومات کو مواد کو بہتر بنانے کے لیے استعمال کر سکتے ہیں۔ ایسا کرنے کے لیے، ہمیں ٹیسٹ اس طرح ڈیزائن کرنے کی ضرورت ہے کہ ہر سوال کسی خاص تصور یا علم کے حصے سے منسلک ہو۔
اگر ہم مزید پیچیدگی میں جانا چاہیں، تو ہم ہر ماڈیول کے لیے لی گئی وقت کو طلباء کی عمر کے زمرے کے ساتھ موازنہ کر سکتے ہیں۔ ہمیں معلوم ہو سکتا ہے کہ کچھ عمر کے زمرے کے لیے ماڈیول مکمل کرنے میں غیر مناسب طور پر زیادہ وقت لگتا ہے، یا طلباء اسے مکمل کرنے سے پہلے ہی چھوڑ دیتے ہیں۔ یہ ہمیں ماڈیول کے لیے عمر کی سفارشات فراہم کرنے میں مدد دے سکتا ہے، اور غلط توقعات سے لوگوں کی ناخوشی کو کم کر سکتا ہے۔
🚀 چیلنج
اس چیلنج میں، ہم ڈیٹا سائنس کے میدان سے متعلق تصورات کو تلاش کرنے کی کوشش کریں گے، متن کو دیکھ کر۔ ہم ڈیٹا سائنس پر ایک ویکیپیڈیا مضمون لیں گے، متن کو ڈاؤنلوڈ اور پراسیس کریں گے، اور پھر ایک ورڈ کلاؤڈ بنائیں گے، جیسے یہ:
notebook.ipynb
پر جائیں تاکہ کوڈ کو پڑھ سکیں۔ آپ کوڈ کو چلا بھی سکتے ہیں، اور دیکھ سکتے ہیں کہ یہ حقیقی وقت میں تمام ڈیٹا تبدیلیاں کیسے انجام دیتا ہے۔
اگر آپ کو معلوم نہیں کہ جیوپیٹر نوٹ بک میں کوڈ کیسے چلایا جائے، تو اس مضمون کو دیکھیں۔
لیکچر کے بعد کا کوئز
اسائنمنٹس
- ٹاسک 1: اوپر دیے گئے کوڈ میں ترمیم کریں تاکہ بگ ڈیٹا اور مشین لرننگ کے میدانوں کے لیے متعلقہ تصورات معلوم کیے جا سکیں۔
- ٹاسک 2: ڈیٹا سائنس کے منظرناموں پر غور کریں
کریڈٹس
یہ سبق ♥️ کے ساتھ Dmitry Soshnikov کے ذریعے تحریر کیا گیا ہے۔
ڈسکلیمر:
یہ دستاویز AI ترجمہ سروس Co-op Translator کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز، جو اس کی مقامی زبان میں ہے، کو مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔