You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ar/4-Data-Science-Lifecycle/15-analyzing
leestott 153371c81d
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

دورة حياة علم البيانات: التحليل

 رسم توضيحي بواسطة (@sketchthedocs)
دورة حياة علم البيانات: التحليل - رسم توضيحي بواسطة @nitya

اختبار ما قبل المحاضرة

التحليل في دورة حياة البيانات يؤكد أن البيانات يمكن أن تجيب على الأسئلة المطروحة أو تحل مشكلة معينة. يمكن أن يركز هذا الخطوة أيضًا على التأكد من أن النموذج يعالج هذه الأسئلة والمشاكل بشكل صحيح. تركز هذه الدرس على تحليل البيانات الاستكشافي أو EDA، وهي تقنيات لتحديد الميزات والعلاقات داخل البيانات ويمكن استخدامها لتحضير البيانات للنمذجة.

سنستخدم مجموعة بيانات كمثال من Kaggle لنوضح كيف يمكن تطبيق ذلك باستخدام Python ومكتبة Pandas. تحتوي هذه المجموعة على عدد من الكلمات الشائعة الموجودة في الرسائل الإلكترونية، ومصادر هذه الرسائل مجهولة. استخدم دفتر الملاحظات في هذا الدليل لمتابعة الشرح.

تحليل البيانات الاستكشافي

مرحلة الالتقاط في دورة الحياة هي حيث يتم جمع البيانات وكذلك تحديد المشاكل والأسئلة المطروحة، ولكن كيف نعرف أن البيانات يمكن أن تدعم النتيجة النهائية؟ تذكر أن عالم البيانات قد يطرح الأسئلة التالية عند الحصول على البيانات:

  • هل لدي بيانات كافية لحل هذه المشكلة؟
  • هل البيانات ذات جودة مقبولة لهذه المشكلة؟
  • إذا اكتشفت معلومات إضافية من خلال هذه البيانات، هل يجب أن نعيد النظر أو نعيد تعريف الأهداف؟ تحليل البيانات الاستكشافي هو عملية التعرف على البيانات ويمكن استخدامها للإجابة على هذه الأسئلة، وكذلك تحديد التحديات المتعلقة بالعمل مع مجموعة البيانات. دعونا نركز على بعض التقنيات المستخدمة لتحقيق ذلك.

توصيف البيانات، الإحصاءات الوصفية، وPandas

كيف نقيم ما إذا كانت لدينا بيانات كافية لحل هذه المشكلة؟ يمكن لتوصيف البيانات تلخيص وجمع بعض المعلومات العامة حول مجموعة البيانات من خلال تقنيات الإحصاءات الوصفية. يساعد توصيف البيانات في فهم ما هو متاح لدينا، وتساعد الإحصاءات الوصفية في فهم عدد الأشياء المتاحة لدينا.

في بعض الدروس السابقة، استخدمنا Pandas لتوفير بعض الإحصاءات الوصفية باستخدام وظيفة describe(). توفر هذه الوظيفة عدد القيم، القيم القصوى والدنيا، المتوسط، الانحراف المعياري والكمية على البيانات الرقمية. يمكن أن تساعدك الإحصاءات الوصفية مثل وظيفة describe() في تقييم ما لديك وما إذا كنت بحاجة إلى المزيد.

أخذ العينات والاستعلام

استكشاف كل شيء في مجموعة بيانات كبيرة يمكن أن يكون مستهلكًا للوقت للغاية وعادة ما يتم تركه للكمبيوتر للقيام به. ومع ذلك، فإن أخذ العينات هو أداة مفيدة لفهم البيانات ويسمح لنا بفهم أفضل لما تحتويه مجموعة البيانات وما تمثله. باستخدام عينة، يمكنك تطبيق الاحتمالات والإحصاءات للتوصل إلى بعض الاستنتاجات العامة حول بياناتك. على الرغم من عدم وجود قاعدة محددة حول مقدار البيانات التي يجب أخذ عينات منها، من المهم ملاحظة أنه كلما زادت البيانات التي تأخذ عينات منها، زادت دقة التعميم الذي يمكنك القيام به حول البيانات. تحتوي مكتبة Pandas على وظيفة sample() حيث يمكنك تمرير وسيط لتحديد عدد العينات العشوائية التي ترغب في الحصول عليها واستخدامها.

الاستعلام العام عن البيانات يمكن أن يساعدك في الإجابة على بعض الأسئلة والنظريات العامة التي قد تكون لديك. على عكس أخذ العينات، يسمح لك الاستعلام بالتحكم والتركيز على أجزاء محددة من البيانات التي لديك أسئلة حولها. وظيفة query() في مكتبة Pandas تسمح لك بتحديد الأعمدة والحصول على إجابات بسيطة حول البيانات من خلال الصفوف المسترجعة.

الاستكشاف باستخدام التصورات

لا يتعين عليك الانتظار حتى يتم تنظيف البيانات وتحليلها بالكامل لبدء إنشاء التصورات. في الواقع، يمكن أن يساعد وجود تمثيل بصري أثناء الاستكشاف في تحديد الأنماط والعلاقات والمشاكل في البيانات. علاوة على ذلك، توفر التصورات وسيلة للتواصل مع أولئك الذين لا يشاركون في إدارة البيانات ويمكن أن تكون فرصة لمشاركة وتوضيح أسئلة إضافية لم يتم تناولها في مرحلة الالتقاط. راجع القسم الخاص بالتصورات لمعرفة المزيد حول بعض الطرق الشائعة للاستكشاف بصريًا.

الاستكشاف لتحديد التناقضات

يمكن لجميع المواضيع في هذا الدرس أن تساعد في تحديد القيم المفقودة أو غير المتسقة، ولكن Pandas توفر وظائف للتحقق من بعضها. isna() أو isnull() يمكن أن تتحقق من القيم المفقودة. أحد الجوانب المهمة لاستكشاف هذه القيم داخل بياناتك هو استكشاف سبب وصولها إلى هذه الحالة في المقام الأول. يمكن أن يساعدك ذلك في اتخاذ الإجراءات اللازمة لحلها.

اختبار ما بعد المحاضرة

المهمة

استكشاف للحصول على الإجابات


إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.