You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
62 lines
8.6 KiB
62 lines
8.6 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "d92f57eb110dc7f765c05cbf0f837c77",
|
|
"translation_date": "2025-08-27T09:55:11+00:00",
|
|
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
|
|
"language_code": "ar"
|
|
}
|
|
-->
|
|
# دورة حياة علم البيانات: التحليل
|
|
|
|
| ](../../sketchnotes/15-Analyzing.png)|
|
|
|:---:|
|
|
| دورة حياة علم البيانات: التحليل - _رسم توضيحي بواسطة [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
## اختبار ما قبل المحاضرة
|
|
|
|
## [اختبار ما قبل المحاضرة](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28)
|
|
|
|
التحليل في دورة حياة البيانات يؤكد أن البيانات يمكنها الإجابة على الأسئلة المطروحة أو حل مشكلة معينة. يمكن أن يركز هذا الخطوة أيضًا على التأكد من أن النموذج يعالج هذه الأسئلة والمشاكل بشكل صحيح. تركز هذه الدرس على تحليل البيانات الاستكشافي أو EDA، وهي تقنيات لتحديد الميزات والعلاقات داخل البيانات ويمكن استخدامها لتحضير البيانات للنمذجة.
|
|
|
|
سنستخدم مجموعة بيانات كمثال من [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) لنوضح كيف يمكن تطبيق ذلك باستخدام Python ومكتبة Pandas. تحتوي هذه المجموعة على عدد من الكلمات الشائعة الموجودة في رسائل البريد الإلكتروني، ومصادر هذه الرسائل مجهولة. استخدم [دفتر الملاحظات](notebook.ipynb) في هذا الدليل لمتابعة الشرح.
|
|
|
|
## تحليل البيانات الاستكشافي
|
|
|
|
مرحلة الالتقاط في دورة الحياة هي حيث يتم الحصول على البيانات وكذلك المشاكل والأسئلة المطروحة، ولكن كيف نعرف أن البيانات يمكن أن تدعم النتيجة النهائية؟
|
|
تذكر أن عالم البيانات قد يطرح الأسئلة التالية عند الحصول على البيانات:
|
|
- هل لدي بيانات كافية لحل هذه المشكلة؟
|
|
- هل جودة البيانات مقبولة لهذه المشكلة؟
|
|
- إذا اكتشفت معلومات إضافية من خلال هذه البيانات، هل يجب أن نعيد النظر أو نعيد تعريف الأهداف؟
|
|
|
|
تحليل البيانات الاستكشافي هو عملية التعرف على البيانات ويمكن استخدامها للإجابة على هذه الأسئلة، وكذلك تحديد التحديات المتعلقة بالعمل مع مجموعة البيانات. دعونا نركز على بعض التقنيات المستخدمة لتحقيق ذلك.
|
|
|
|
## توصيف البيانات، الإحصاءات الوصفية، وPandas
|
|
كيف نقيم ما إذا كانت لدينا بيانات كافية لحل هذه المشكلة؟ يمكن لتوصيف البيانات تلخيص وجمع بعض المعلومات العامة حول مجموعة البيانات من خلال تقنيات الإحصاءات الوصفية. يساعد توصيف البيانات في فهم ما هو متاح لدينا، وتساعد الإحصاءات الوصفية في فهم عدد الأشياء المتاحة لدينا.
|
|
|
|
في بعض الدروس السابقة، استخدمنا Pandas لتوفير بعض الإحصاءات الوصفية باستخدام وظيفة [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html). توفر هذه الوظيفة العدد، القيم القصوى والدنيا، المتوسط، الانحراف المعياري والكمية على البيانات الرقمية. يمكن أن تساعدك الإحصاءات الوصفية مثل وظيفة `describe()` في تقييم ما لديك وما إذا كنت بحاجة إلى المزيد.
|
|
|
|
## أخذ العينات والاستعلام
|
|
استكشاف كل شيء في مجموعة بيانات كبيرة يمكن أن يكون مستهلكًا للوقت للغاية ومهمة تُترك عادةً للكمبيوتر للقيام بها. ومع ذلك، فإن أخذ العينات هو أداة مفيدة لفهم البيانات ويسمح لنا بفهم أفضل لما تحتويه مجموعة البيانات وما تمثله. باستخدام عينة، يمكنك تطبيق الاحتمالات والإحصاءات للتوصل إلى بعض الاستنتاجات العامة حول بياناتك. على الرغم من عدم وجود قاعدة محددة حول مقدار البيانات التي يجب أخذ عينات منها، من المهم ملاحظة أنه كلما زادت البيانات التي تأخذ عينات منها، زادت دقة التعميم الذي يمكنك القيام به حول البيانات.
|
|
|
|
تحتوي مكتبة Pandas على وظيفة [`sample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) حيث يمكنك تمرير وسيط لتحديد عدد العينات العشوائية التي ترغب في الحصول عليها واستخدامها.
|
|
|
|
يمكن أن يساعد الاستعلام العام عن البيانات في الإجابة على بعض الأسئلة والنظريات العامة التي قد تكون لديك. على عكس أخذ العينات، يسمح لك الاستعلام بالتحكم والتركيز على أجزاء محددة من البيانات التي لديك أسئلة حولها.
|
|
وظيفة [`query()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) في مكتبة Pandas تسمح لك بتحديد الأعمدة والحصول على إجابات بسيطة حول البيانات من خلال الصفوف المسترجعة.
|
|
|
|
## الاستكشاف باستخدام التصورات
|
|
لا يتعين عليك الانتظار حتى يتم تنظيف البيانات وتحليلها بالكامل لبدء إنشاء التصورات. في الواقع، يمكن أن يساعد وجود تمثيل بصري أثناء الاستكشاف في تحديد الأنماط والعلاقات والمشاكل في البيانات. علاوة على ذلك، توفر التصورات وسيلة للتواصل مع أولئك الذين لا يشاركون في إدارة البيانات ويمكن أن تكون فرصة لمشاركة وتوضيح أسئلة إضافية لم يتم تناولها في مرحلة الالتقاط. راجع [القسم الخاص بالتصورات](../../../../../../../../../3-Data-Visualization) لمعرفة المزيد حول بعض الطرق الشائعة للاستكشاف بصريًا.
|
|
|
|
## الاستكشاف لتحديد التناقضات
|
|
يمكن أن تساعد جميع المواضيع في هذا الدرس في تحديد القيم المفقودة أو غير المتسقة، ولكن Pandas توفر وظائف للتحقق من بعضها. [isna() أو isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) يمكنها التحقق من القيم المفقودة. أحد الجوانب المهمة لاستكشاف هذه القيم داخل بياناتك هو استكشاف سبب انتهائها بهذه الطريقة في المقام الأول. يمكن أن يساعدك ذلك في اتخاذ قرار بشأن [الإجراءات اللازمة لحلها](/2-Working-With-Data/08-data-preparation/notebook.ipynb).
|
|
|
|
## [اختبار ما قبل المحاضرة](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27)
|
|
|
|
## المهمة
|
|
|
|
[استكشاف للحصول على الإجابات](assignment.md)
|
|
|
|
---
|
|
|
|
**إخلاء المسؤولية**:
|
|
تم ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة. |