# تعريف البيانات |![رسم توضيحي بواسطة [(@sketchthedocs)](https://sketchthedocs.dev)](../../sketchnotes/03-DefiningData.png)| |:---:| |تعريف البيانات - _رسم توضيحي بواسطة [@nitya](https://twitter.com/nitya)_ | البيانات هي الحقائق، المعلومات، الملاحظات والقياسات التي تُستخدم لاكتشافات ودعم القرارات المستنيرة. نقطة البيانات هي وحدة واحدة من البيانات داخل مجموعة بيانات، وهي عبارة عن مجموعة من نقاط البيانات. قد تأتي مجموعات البيانات في أشكال وهياكل مختلفة، وعادةً ما تعتمد على مصدرها أو المكان الذي جاءت منه البيانات. على سبيل المثال، قد تكون أرباح الشركة الشهرية في جدول بيانات، بينما قد تكون بيانات معدل ضربات القلب كل ساعة من ساعة ذكية بتنسيق [JSON](https://stackoverflow.com/a/383699). من الشائع أن يعمل علماء البيانات مع أنواع مختلفة من البيانات داخل مجموعة بيانات واحدة. تركز هذه الدرس على تحديد وتصنيف البيانات بناءً على خصائصها ومصادرها. ## [اختبار ما قبل المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/4) ## كيف يتم وصف البيانات ### البيانات الخام البيانات الخام هي البيانات التي تأتي من مصدرها في حالتها الأولية ولم يتم تحليلها أو تنظيمها. لفهم ما يحدث داخل مجموعة بيانات، يجب تنظيمها في شكل يمكن للبشر فهمه وكذلك التكنولوجيا التي قد يستخدمونها لتحليلها بشكل أكبر. تصف بنية مجموعة البيانات كيفية تنظيمها ويمكن تصنيفها إلى: منظمة، غير منظمة، وشبه منظمة. تختلف هذه الأنواع من البنية بناءً على المصدر ولكنها في النهاية تندرج ضمن هذه الفئات الثلاث. ### البيانات الكمية البيانات الكمية هي الملاحظات الرقمية داخل مجموعة البيانات ويمكن عادةً تحليلها وقياسها واستخدامها رياضيًا. بعض الأمثلة على البيانات الكمية هي: عدد سكان بلد معين، طول شخص ما، أو أرباح شركة ربع سنوية. مع بعض التحليل الإضافي، يمكن استخدام البيانات الكمية لاكتشاف الاتجاهات الموسمية لمؤشر جودة الهواء (AQI) أو تقدير احتمالية ازدحام المرور خلال ساعات الذروة في يوم عمل عادي. ### البيانات النوعية البيانات النوعية، والمعروفة أيضًا بالبيانات الفئوية، هي بيانات لا يمكن قياسها بشكل موضوعي مثل ملاحظات البيانات الكمية. عادةً ما تكون بيانات ذات صيغة ذاتية تلتقط جودة شيء ما، مثل منتج أو عملية. أحيانًا تكون البيانات النوعية رقمية ولكنها لا تُستخدم عادةً رياضيًا، مثل أرقام الهواتف أو الطوابع الزمنية. بعض الأمثلة على البيانات النوعية هي: تعليقات الفيديو، نوع وطراز السيارة، أو اللون المفضل لأقرب أصدقائك. يمكن استخدام البيانات النوعية لفهم المنتجات التي يفضلها المستهلكون أو تحديد الكلمات المفتاحية الشائعة في السير الذاتية للوظائف. ### البيانات المنظمة البيانات المنظمة هي البيانات التي يتم تنظيمها في صفوف وأعمدة، حيث يحتوي كل صف على نفس مجموعة الأعمدة. تمثل الأعمدة قيمة لنوع معين ويتم تحديدها باسم يصف ما تمثله القيمة، بينما تحتوي الصفوف على القيم الفعلية. غالبًا ما تحتوي الأعمدة على مجموعة محددة من القواعد أو القيود على القيم لضمان أن القيم تمثل العمود بدقة. على سبيل المثال، تخيل جدول بيانات للعملاء حيث يجب أن يحتوي كل صف على رقم هاتف، ولا تحتوي أرقام الهواتف على أحرف أبجدية. قد تكون هناك قواعد مطبقة على عمود رقم الهاتف لضمان عدم تركه فارغًا وأن يحتوي فقط على أرقام. ميزة البيانات المنظمة هي أنه يمكن تنظيمها بطريقة تجعلها مرتبطة ببيانات منظمة أخرى. ومع ذلك، نظرًا لأن البيانات مصممة لتكون منظمة بطريقة معينة، فإن إجراء تغييرات على هيكلها العام قد يتطلب جهدًا كبيرًا. على سبيل المثال، إضافة عمود بريد إلكتروني إلى جدول بيانات العملاء بحيث لا يمكن أن يكون فارغًا يعني أنك ستحتاج إلى معرفة كيفية إضافة هذه القيم إلى الصفوف الحالية للعملاء في مجموعة البيانات. أمثلة على البيانات المنظمة: جداول البيانات، قواعد البيانات العلائقية، أرقام الهواتف، كشوف الحسابات البنكية. ### البيانات غير المنظمة البيانات غير المنظمة عادةً لا يمكن تصنيفها إلى صفوف أو أعمدة ولا تحتوي على صيغة أو مجموعة من القواعد التي يجب اتباعها. نظرًا لأن البيانات غير المنظمة تحتوي على قيود أقل على بنيتها، فمن الأسهل إضافة معلومات جديدة مقارنةً بمجموعة بيانات منظمة. إذا كان جهاز استشعار يلتقط بيانات عن ضغط الهواء كل دقيقتين قد تلقى تحديثًا يسمح له الآن بقياس وتسجيل درجة الحرارة، فإنه لا يتطلب تعديل البيانات الحالية إذا كانت غير منظمة. ومع ذلك، قد يجعل هذا تحليل أو التحقيق في هذا النوع من البيانات يستغرق وقتًا أطول. على سبيل المثال، قد يرغب عالم في العثور على متوسط درجة الحرارة للشهر السابق من بيانات المستشعر، لكنه يكتشف أن المستشعر سجل "e" في بعض بياناته للإشارة إلى أنه كان معطلاً بدلاً من رقم نموذجي، مما يعني أن البيانات غير مكتملة. أمثلة على البيانات غير المنظمة: ملفات النصوص، الرسائل النصية، ملفات الفيديو. ### البيانات شبه المنظمة البيانات شبه المنظمة لها ميزات تجعلها مزيجًا من البيانات المنظمة وغير المنظمة. عادةً لا تتبع صيغة الصفوف والأعمدة ولكنها منظمة بطريقة تُعتبر منظمة وقد تتبع صيغة ثابتة أو مجموعة من القواعد. تختلف البنية بين المصادر، مثل التسلسل الهرمي المحدد جيدًا إلى شيء أكثر مرونة يسمح بالتكامل السهل للمعلومات الجديدة. البيانات الوصفية هي مؤشرات تساعد في تحديد كيفية تنظيم البيانات وتخزينها وستحمل أسماء مختلفة بناءً على نوع البيانات. بعض الأسماء الشائعة للبيانات الوصفية هي العلامات، العناصر، الكيانات والسمات. على سبيل المثال، تحتوي رسالة البريد الإلكتروني النموذجية على موضوع، نص، ومجموعة من المستلمين ويمكن تنظيمها بناءً على من أرسلها أو متى تم إرسالها. أمثلة على البيانات شبه المنظمة: HTML، ملفات CSV، JavaScript Object Notation (JSON). ## مصادر البيانات مصدر البيانات هو الموقع الأولي الذي تم فيه إنشاء البيانات أو المكان الذي "تعيش" فيه، ويختلف بناءً على كيفية ووقت جمعها. البيانات التي يتم إنشاؤها بواسطة مستخدميها تُعرف بالبيانات الأولية، بينما البيانات الثانوية تأتي من مصدر جمع البيانات للاستخدام العام. على سبيل المثال، مجموعة من العلماء الذين يجمعون ملاحظات في غابة مطيرة يُعتبرون مصدرًا أوليًا، وإذا قرروا مشاركتها مع علماء آخرين، فستُعتبر ثانوية بالنسبة لأولئك الذين يستخدمونها. تُعتبر قواعد البيانات مصدرًا شائعًا وتعتمد على نظام إدارة قواعد البيانات لاستضافة البيانات وصيانتها، حيث يستخدم المستخدمون أوامر تُعرف بالاستعلامات لاستكشاف البيانات. يمكن أن تكون الملفات كمصادر بيانات عبارة عن ملفات صوتية، صور، وملفات فيديو بالإضافة إلى جداول بيانات مثل Excel. تُعتبر مصادر الإنترنت موقعًا شائعًا لاستضافة البيانات، حيث يمكن العثور على قواعد البيانات وكذلك الملفات. واجهات برمجة التطبيقات، المعروفة أيضًا بـ APIs، تسمح للمبرمجين بإنشاء طرق لمشاركة البيانات مع المستخدمين الخارجيين عبر الإنترنت، بينما عملية استخراج البيانات من صفحات الويب تُعرف بـ Web Scraping. تركز [الدروس في العمل مع البيانات](../../../../../../../../../2-Working-With-Data) على كيفية استخدام مصادر البيانات المختلفة. ## الخاتمة في هذا الدرس تعلمنا: - ما هي البيانات - كيف يتم وصف البيانات - كيف يتم تصنيف البيانات وفئاتها - أين يمكن العثور على البيانات ## 🚀 التحدي Kaggle هو مصدر ممتاز لمجموعات البيانات المفتوحة. استخدم [أداة البحث عن مجموعات البيانات](https://www.kaggle.com/datasets) للعثور على بعض مجموعات البيانات المثيرة للاهتمام وصنف 3-5 مجموعات بيانات وفقًا لهذه المعايير: - هل البيانات كمية أم نوعية؟ - هل البيانات منظمة، غير منظمة، أم شبه منظمة؟ ## [اختبار ما بعد المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/5) ## المراجعة والدراسة الذاتية - تحتوي وحدة Microsoft Learn بعنوان [تصنيف بياناتك](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) على شرح مفصل للبيانات المنظمة، شبه المنظمة، وغير المنظمة. ## الواجب [تصنيف مجموعات البيانات](assignment.md) --- **إخلاء المسؤولية**: تم ترجمة هذه الوثيقة باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار الوثيقة الأصلية بلغتها الأصلية المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.