# مقدمة إلى دورة حياة علم البيانات |![رسم توضيحي من [(@sketchthedocs)](https://sketchthedocs.dev)](../../sketchnotes/14-DataScience-Lifecycle.png)| |:---:| | مقدمة إلى دورة حياة علم البيانات - _رسم توضيحي من [@nitya](https://twitter.com/nitya)_ | ## [اختبار ما قبل المحاضرة](https://red-water-0103e7a0f.azurestaticapps.net/quiz/26) في هذه المرحلة، ربما أدركت أن علم البيانات هو عملية. يمكن تقسيم هذه العملية إلى خمس مراحل: - جمع البيانات - المعالجة - التحليل - التواصل - الصيانة تركز هذه الدرسة على ثلاثة أجزاء من دورة الحياة: جمع البيانات، المعالجة، والصيانة. ![رسم بياني لدورة حياة علم البيانات](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.ar.jpg) > صورة من [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) ## جمع البيانات المرحلة الأولى من دورة الحياة مهمة جدًا لأن المراحل التالية تعتمد عليها. عمليًا، تتكون هذه المرحلة من مرحلتين مدمجتين: جمع البيانات وتحديد الغرض والمشكلات التي يجب معالجتها. تحديد أهداف المشروع يتطلب فهمًا أعمق للسياق المحيط بالمشكلة أو السؤال. أولاً، نحتاج إلى تحديد وجمع الأطراف التي تحتاج إلى حل مشكلتها. قد يكون هؤلاء أصحاب المصلحة في شركة أو رعاة المشروع، الذين يمكنهم المساعدة في تحديد من أو ما الذي سيستفيد من هذا المشروع، بالإضافة إلى ما يحتاجونه ولماذا. يجب أن يكون الهدف المحدد جيدًا قابلاً للقياس والكمي لتحديد نتيجة مقبولة. أسئلة قد يطرحها عالم البيانات: - هل تم تناول هذه المشكلة من قبل؟ ماذا تم اكتشافه؟ - هل الغرض والهدف مفهوم من قبل جميع الأطراف المعنية؟ - هل هناك غموض وكيف يمكن تقليله؟ - ما هي القيود؟ - كيف ستبدو النتيجة النهائية المحتملة؟ - ما هي الموارد (الوقت، الأشخاص، الحوسبة) المتاحة؟ بعد ذلك، يتم تحديد البيانات المطلوبة، جمعها، وأخيرًا استكشافها لتحقيق الأهداف المحددة. في هذه الخطوة من جمع البيانات، يجب على علماء البيانات أيضًا تقييم كمية وجودة البيانات. يتطلب ذلك بعض الاستكشاف للتأكد من أن البيانات التي تم جمعها ستدعم تحقيق النتيجة المرجوة. أسئلة قد يطرحها عالم البيانات حول البيانات: - ما هي البيانات المتوفرة لدي بالفعل؟ - من يملك هذه البيانات؟ - ما هي المخاوف المتعلقة بالخصوصية؟ - هل لدي ما يكفي لحل هذه المشكلة؟ - هل جودة البيانات مقبولة لهذه المشكلة؟ - إذا اكتشفت معلومات إضافية من خلال هذه البيانات، هل يجب علينا التفكير في تغيير أو إعادة تعريف الأهداف؟ ## المعالجة تركز مرحلة المعالجة في دورة الحياة على اكتشاف الأنماط في البيانات وكذلك النمذجة. تتطلب بعض التقنيات المستخدمة في هذه المرحلة أساليب إحصائية للكشف عن الأنماط. عادةً ما تكون هذه مهمة شاقة للبشر عند التعامل مع مجموعة بيانات كبيرة، لذا يتم الاعتماد على الحواسيب لتسريع العملية. في هذه المرحلة، يتقاطع علم البيانات مع التعلم الآلي. كما تعلمت في الدرس الأول، التعلم الآلي هو عملية بناء نماذج لفهم البيانات. النماذج هي تمثيل للعلاقة بين المتغيرات في البيانات التي تساعد في التنبؤ بالنتائج. التقنيات الشائعة المستخدمة في هذه المرحلة مغطاة في منهج التعلم الآلي للمبتدئين. تابع الروابط لتتعرف عليها أكثر: - [التصنيف](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): تنظيم البيانات في فئات لاستخدام أكثر كفاءة. - [التجميع](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): تجميع البيانات في مجموعات متشابهة. - [الانحدار](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): تحديد العلاقات بين المتغيرات للتنبؤ بالقيم أو التوقعات. ## الصيانة في الرسم البياني لدورة الحياة، قد تكون لاحظت أن الصيانة تقع بين جمع البيانات والمعالجة. الصيانة هي عملية مستمرة لإدارة البيانات وتخزينها وتأمينها طوال مدة المشروع، ويجب أخذها في الاعتبار طوال المشروع بأكمله. ### تخزين البيانات الاعتبارات المتعلقة بكيفية وأين يتم تخزين البيانات يمكن أن تؤثر على تكلفة التخزين وكذلك على أداء سرعة الوصول إلى البيانات. قرارات مثل هذه ليست من المحتمل أن يتخذها عالم البيانات بمفرده، ولكن قد يجد نفسه يتخذ خيارات حول كيفية التعامل مع البيانات بناءً على كيفية تخزينها. إليك بعض الجوانب المتعلقة بأنظمة تخزين البيانات الحديثة التي يمكن أن تؤثر على هذه الخيارات: **التخزين المحلي مقابل التخزين الخارجي مقابل السحابة العامة أو الخاصة** يشير التخزين المحلي إلى استضافة البيانات وإدارتها على معداتك الخاصة، مثل امتلاك خادم يحتوي على محركات أقراص صلبة لتخزين البيانات، بينما يعتمد التخزين الخارجي على معدات لا تملكها، مثل مركز بيانات. السحابة العامة هي خيار شائع لتخزين البيانات حيث لا يتطلب الأمر معرفة بكيفية أو مكان تخزين البيانات بالضبط، حيث تشير "العامة" إلى بنية تحتية موحدة مشتركة بين جميع مستخدمي السحابة. بعض المؤسسات لديها سياسات أمان صارمة تتطلب الوصول الكامل إلى المعدات التي تستضيف البيانات، وبالتالي تعتمد على السحابة الخاصة التي توفر خدمات سحابية خاصة بها. ستتعلم المزيد عن البيانات في السحابة في [الدروس القادمة](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud). **البيانات الباردة مقابل البيانات الساخنة** عند تدريب النماذج، قد تحتاج إلى المزيد من بيانات التدريب. إذا كنت راضيًا عن نموذجك، ستصل المزيد من البيانات ليخدم النموذج غرضه. في كلتا الحالتين، ستزداد تكلفة تخزين البيانات والوصول إليها مع تراكم المزيد منها. فصل البيانات التي نادرًا ما تُستخدم، والمعروفة بالبيانات الباردة، عن البيانات التي يتم الوصول إليها بشكل متكرر، والمعروفة بالبيانات الساخنة، يمكن أن يكون خيارًا أرخص لتخزين البيانات من خلال الأجهزة أو الخدمات البرمجية. إذا كانت البيانات الباردة بحاجة إلى الوصول، فقد يستغرق استرجاعها وقتًا أطول مقارنة بالبيانات الساخنة. ### إدارة البيانات أثناء العمل مع البيانات، قد تكتشف أن بعض البيانات تحتاج إلى تنظيف باستخدام بعض التقنيات التي تم تناولها في الدرس الخاص بـ [تحضير البيانات](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation) لبناء نماذج دقيقة. عندما تصل بيانات جديدة، ستحتاج إلى تطبيقات مشابهة للحفاظ على اتساق الجودة. بعض المشاريع ستتضمن استخدام أداة آلية للتنظيف، التجميع، والضغط قبل نقل البيانات إلى موقعها النهائي. يعد Azure Data Factory مثالاً على إحدى هذه الأدوات. ### تأمين البيانات أحد الأهداف الرئيسية لتأمين البيانات هو ضمان أن من يعمل عليها يتحكم في ما يتم جمعه وفي أي سياق يتم استخدامه. يتضمن تأمين البيانات تقييد الوصول فقط لمن يحتاجها، الالتزام بالقوانين واللوائح المحلية، وكذلك الحفاظ على المعايير الأخلاقية، كما تم تناوله في [درس الأخلاقيات](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics). إليك بعض الأمور التي قد يقوم بها الفريق مع مراعاة الأمان: - التأكد من أن جميع البيانات مشفرة - تقديم معلومات للعملاء حول كيفية استخدام بياناتهم - إزالة الوصول إلى البيانات من الأشخاص الذين غادروا المشروع - السماح فقط لأعضاء معينين في المشروع بتعديل البيانات ## 🚀 التحدي هناك العديد من الإصدارات لدورة حياة علم البيانات، حيث قد تحتوي كل خطوة على أسماء مختلفة وعدد مراحل مختلف، لكنها ستتضمن نفس العمليات المذكورة في هذا الدرس. استكشف [دورة حياة عملية فريق علم البيانات](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle) و[المعيار الصناعي لعملية التنقيب عن البيانات](https://www.datascience-pm.com/crisp-dm-2/). اذكر 3 أوجه تشابه واختلاف بين الاثنين. |عملية فريق علم البيانات (TDSP)|المعيار الصناعي لعملية التنقيب عن البيانات (CRISP-DM)| |--|--| |![دورة حياة فريق علم البيانات](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.ar.png)|![صورة عملية علم البيانات](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.ar.png)| |صورة من [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle)|صورة من [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/)| ## [اختبار ما بعد المحاضرة](https://red-water-0103e7a0f.azurestaticapps.net/quiz/27) ## المراجعة والدراسة الذاتية تطبيق دورة حياة علم البيانات يتضمن أدوارًا ومهامًا متعددة، حيث قد يركز البعض على أجزاء معينة من كل مرحلة. توفر عملية فريق علم البيانات بعض الموارد التي تشرح أنواع الأدوار والمهام التي قد يتولاها شخص ما في المشروع. * [أدوار ومهام عملية فريق علم البيانات](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks) * [تنفيذ مهام علم البيانات: الاستكشاف، النمذجة، والنشر](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks) ## الواجب [تقييم مجموعة بيانات](assignment.md) --- **إخلاء المسؤولية**: تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.