13 KiB
تعريف البيانات
![]() |
---|
تعريف البيانات - رسم توضيحي بواسطة @nitya |
البيانات هي الحقائق، المعلومات، الملاحظات والقياسات التي تُستخدم لاكتشافات ودعم اتخاذ قرارات مستنيرة. نقطة البيانات هي وحدة واحدة من البيانات داخل مجموعة بيانات، وهي عبارة عن مجموعة من نقاط البيانات. قد تأتي مجموعات البيانات في أشكال وهياكل مختلفة، وعادةً ما تعتمد على مصدرها أو المكان الذي جاءت منه البيانات. على سبيل المثال، قد تكون أرباح الشركة الشهرية في جدول بيانات، بينما قد تكون بيانات معدل ضربات القلب لكل ساعة من ساعة ذكية بتنسيق JSON. من الشائع أن يعمل علماء البيانات مع أنواع مختلفة من البيانات داخل مجموعة بيانات واحدة.
تركز هذه الدرس على تحديد وتصنيف البيانات بناءً على خصائصها ومصادرها.
اختبار ما قبل المحاضرة
كيف يتم وصف البيانات
البيانات الخام
البيانات الخام هي البيانات التي تأتي من مصدرها في حالتها الأولية ولم يتم تحليلها أو تنظيمها. لفهم ما يحدث داخل مجموعة بيانات، يجب تنظيمها في شكل يمكن فهمه من قبل البشر وكذلك التكنولوجيا التي قد يستخدمونها لتحليلها بشكل أكبر. تصف بنية مجموعة البيانات كيفية تنظيمها ويمكن تصنيفها إلى: منظمة، غير منظمة، وشبه منظمة. تختلف هذه الأنواع من البنية بناءً على المصدر ولكنها في النهاية تندرج ضمن هذه الفئات الثلاث.
البيانات الكمية
البيانات الكمية هي الملاحظات الرقمية داخل مجموعة البيانات ويمكن عادةً تحليلها وقياسها واستخدامها رياضيًا. بعض الأمثلة على البيانات الكمية هي: عدد سكان بلد، طول شخص، أو أرباح شركة ربع سنوية. مع بعض التحليل الإضافي، يمكن استخدام البيانات الكمية لاكتشاف الاتجاهات الموسمية لمؤشر جودة الهواء (AQI) أو تقدير احتمالية ازدحام المرور خلال يوم عمل عادي.
البيانات النوعية
البيانات النوعية، والمعروفة أيضًا بالبيانات التصنيفية، هي بيانات لا يمكن قياسها بشكل موضوعي مثل ملاحظات البيانات الكمية. عادةً ما تكون بيانات ذاتية بأشكال مختلفة تلتقط جودة شيء ما، مثل منتج أو عملية. أحيانًا تكون البيانات النوعية رقمية ولكنها لا تُستخدم عادةً رياضيًا، مثل أرقام الهواتف أو الطوابع الزمنية. بعض الأمثلة على البيانات النوعية هي: تعليقات الفيديو، نوع وطراز السيارة، أو اللون المفضل لأقرب أصدقائك. يمكن استخدام البيانات النوعية لفهم المنتجات التي يفضلها المستهلكون أو تحديد الكلمات الرئيسية الشائعة في السير الذاتية للوظائف.
البيانات المنظمة
البيانات المنظمة هي البيانات التي يتم تنظيمها في صفوف وأعمدة، حيث يحتوي كل صف على نفس مجموعة الأعمدة. تمثل الأعمدة قيمة لنوع معين ويتم تحديدها باسم يصف ما تمثله القيمة، بينما تحتوي الصفوف على القيم الفعلية. غالبًا ما تحتوي الأعمدة على مجموعة محددة من القواعد أو القيود على القيم، لضمان أن القيم تمثل العمود بدقة. على سبيل المثال، تخيل جدول بيانات للعملاء حيث يجب أن يحتوي كل صف على رقم هاتف ولا تحتوي أرقام الهواتف على أحرف أبجدية. قد تكون هناك قواعد مطبقة على عمود رقم الهاتف لضمان عدم تركه فارغًا وأن يحتوي فقط على أرقام.
ميزة البيانات المنظمة هي أنه يمكن تنظيمها بطريقة تجعلها مرتبطة ببيانات منظمة أخرى. ومع ذلك، نظرًا لأن البيانات مصممة لتكون منظمة بطريقة معينة، فإن إجراء تغييرات على هيكلها العام قد يتطلب جهدًا كبيرًا. على سبيل المثال، إضافة عمود بريد إلكتروني إلى جدول بيانات العملاء الذي لا يمكن أن يكون فارغًا يعني أنك ستحتاج إلى معرفة كيفية إضافة هذه القيم إلى الصفوف الحالية للعملاء في مجموعة البيانات.
أمثلة على البيانات المنظمة: جداول البيانات، قواعد البيانات العلائقية، أرقام الهواتف، كشوف الحسابات البنكية.
البيانات غير المنظمة
البيانات غير المنظمة عادةً لا يمكن تصنيفها إلى صفوف أو أعمدة ولا تحتوي على تنسيق أو مجموعة من القواعد التي يجب اتباعها. نظرًا لأن البيانات غير المنظمة تحتوي على قيود أقل على بنيتها، فمن الأسهل إضافة معلومات جديدة مقارنةً بمجموعة بيانات منظمة. إذا كان جهاز استشعار يلتقط بيانات عن ضغط الهواء كل دقيقتين قد تلقى تحديثًا يسمح له الآن بقياس وتسجيل درجة الحرارة، فإنه لا يتطلب تعديل البيانات الحالية إذا كانت غير منظمة. ومع ذلك، قد يجعل هذا تحليل أو التحقيق في هذا النوع من البيانات يستغرق وقتًا أطول. على سبيل المثال، قد يرغب عالم في العثور على متوسط درجة الحرارة للشهر السابق من بيانات المستشعر، لكنه يكتشف أن المستشعر سجل "e" في بعض بياناته للإشارة إلى أنه كان معطلاً بدلاً من رقم نموذجي، مما يعني أن البيانات غير مكتملة.
أمثلة على البيانات غير المنظمة: ملفات النصوص، الرسائل النصية، ملفات الفيديو.
البيانات شبه المنظمة
البيانات شبه المنظمة تحتوي على ميزات تجعلها مزيجًا من البيانات المنظمة وغير المنظمة. عادةً لا تتوافق مع تنسيق الصفوف والأعمدة ولكنها منظمة بطريقة تُعتبر منظمة وقد تتبع تنسيقًا ثابتًا أو مجموعة من القواعد. تختلف البنية بين المصادر، مثل التسلسل الهرمي المحدد جيدًا إلى شيء أكثر مرونة يسمح بالتكامل السهل للمعلومات الجديدة. البيانات الوصفية هي مؤشرات تساعد في تحديد كيفية تنظيم البيانات وتخزينها وستحمل أسماء مختلفة بناءً على نوع البيانات. بعض الأسماء الشائعة للبيانات الوصفية هي العلامات، العناصر، الكيانات والسمات. على سبيل المثال، رسالة بريد إلكتروني نموذجية ستحتوي على موضوع، نص، ومجموعة من المستلمين ويمكن تنظيمها بناءً على من أرسلها أو متى تم إرسالها.
أمثلة على البيانات شبه المنظمة: HTML، ملفات CSV، JavaScript Object Notation (JSON).
مصادر البيانات
مصدر البيانات هو الموقع الأولي الذي تم فيه إنشاء البيانات، أو المكان الذي "تعيش" فيه، وسيختلف بناءً على كيفية ووقت جمعها. البيانات التي يتم إنشاؤها بواسطة مستخدميها تُعرف بالبيانات الأولية، بينما البيانات الثانوية تأتي من مصدر جمع البيانات للاستخدام العام. على سبيل المثال، مجموعة من العلماء الذين يجمعون ملاحظات في غابة مطيرة سيتم اعتبارها بيانات أولية، وإذا قرروا مشاركتها مع علماء آخرين فستُعتبر بيانات ثانوية بالنسبة لأولئك الذين يستخدمونها.
تُعتبر قواعد البيانات مصدرًا شائعًا وتعتمد على نظام إدارة قواعد البيانات لاستضافة وصيانة البيانات حيث يستخدم المستخدمون أوامر تُعرف بالاستعلامات لاستكشاف البيانات. يمكن أن تكون الملفات كمصادر بيانات عبارة عن ملفات صوتية، صور، وملفات فيديو بالإضافة إلى جداول بيانات مثل Excel. تُعتبر مصادر الإنترنت موقعًا شائعًا لاستضافة البيانات، حيث يمكن العثور على قواعد البيانات وكذلك الملفات. واجهات برمجة التطبيقات، المعروفة أيضًا بـ APIs، تسمح للمبرمجين بإنشاء طرق لمشاركة البيانات مع المستخدمين الخارجيين عبر الإنترنت، بينما عملية استخراج البيانات من صفحات الويب تُعرف بـ web scraping. تركز الدروس في العمل مع البيانات على كيفية استخدام مصادر البيانات المختلفة.
الخاتمة
في هذا الدرس تعلمنا:
- ما هي البيانات
- كيف يتم وصف البيانات
- كيف يتم تصنيف البيانات وفئاتها
- أين يمكن العثور على البيانات
🚀 تحدي
Kaggle هو مصدر ممتاز لمجموعات البيانات المفتوحة. استخدم أداة البحث عن مجموعات البيانات للعثور على بعض مجموعات البيانات المثيرة للاهتمام وصنف 3-5 مجموعات بيانات وفقًا لهذه المعايير:
- هل البيانات كمية أم نوعية؟
- هل البيانات منظمة، غير منظمة، أم شبه منظمة؟
اختبار ما بعد المحاضرة
المراجعة والدراسة الذاتية
- تحتوي وحدة Microsoft Learn بعنوان تصنيف بياناتك على شرح مفصل للبيانات المنظمة، شبه المنظمة، وغير المنظمة.
الواجب
إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.