History

localizeflow[bot] 5f2e36d0d3 chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)		1 month ago
..
solution	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	1 month ago
README.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	1 month ago
assignment.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	1 month ago
notebook.ipynb	🌐 Update translations via Co-op Translator	6 months ago

README.md

تعريف علم البيانات


تعريف علم البيانات - رسم توضيحي بواسطة @nitya

اختبار ما قبل المحاضرة

ما هو البيانات؟

في حياتنا اليومية، نحن محاطون دائمًا بالبيانات. النص الذي تقرأه الآن هو بيانات. قائمة أرقام هواتف أصدقائك في هاتفك الذكي هي بيانات، وكذلك الوقت الحالي المعروض على ساعتك. كبشر، نحن نتعامل بشكل طبيعي مع البيانات من خلال عد الأموال التي لدينا أو كتابة الرسائل لأصدقائنا.

ومع ذلك، أصبحت البيانات أكثر أهمية مع ظهور أجهزة الكمبيوتر. الدور الأساسي لأجهزة الكمبيوتر هو إجراء العمليات الحسابية، لكنها تحتاج إلى بيانات للعمل عليها. لذلك، نحتاج إلى فهم كيفية تخزين ومعالجة البيانات بواسطة أجهزة الكمبيوتر.

مع ظهور الإنترنت، زاد دور أجهزة الكمبيوتر كأدوات لمعالجة البيانات. إذا فكرت في الأمر، فإننا نستخدم أجهزة الكمبيوتر الآن بشكل متزايد لمعالجة البيانات والتواصل، بدلاً من العمليات الحسابية الفعلية. عندما نكتب بريدًا إلكترونيًا لصديق أو نبحث عن معلومات على الإنترنت - نحن في الأساس نقوم بإنشاء وتخزين ونقل ومعالجة البيانات.

هل يمكنك تذكر آخر مرة استخدمت فيها الكمبيوتر لإجراء عملية حسابية فعلية؟

ما هو علم البيانات؟

في ويكيبيديا، يتم تعريف علم البيانات على أنه مجال علمي يستخدم الأساليب العلمية لاستخراج المعرفة والرؤى من البيانات المنظمة وغير المنظمة، وتطبيق المعرفة والرؤى القابلة للتنفيذ من البيانات عبر مجموعة واسعة من المجالات التطبيقية.

تسلط هذه التعريف الضوء على الجوانب المهمة التالية لعلم البيانات:

الهدف الرئيسي لعلم البيانات هو استخراج المعرفة من البيانات، بمعنى آخر - فهم البيانات، واكتشاف العلاقات المخفية وبناء نموذج.
يستخدم علم البيانات الأساليب العلمية، مثل الاحتمالات والإحصاء. في الواقع، عندما تم تقديم مصطلح علم البيانات لأول مرة، جادل البعض بأنه مجرد اسم جديد للإحصاء. ولكن الآن أصبح من الواضح أن المجال أوسع بكثير.
يجب تطبيق المعرفة المكتسبة لإنتاج رؤى قابلة للتنفيذ، أي رؤى عملية يمكن تطبيقها على مواقف الأعمال الحقيقية.
يجب أن نكون قادرين على التعامل مع البيانات المنظمة وغير المنظمة. سنعود لمناقشة أنواع البيانات المختلفة لاحقًا في الدورة.
مجال التطبيق هو مفهوم مهم، وغالبًا ما يحتاج علماء البيانات إلى درجة معينة من الخبرة في مجال المشكلة، على سبيل المثال: المالية، الطب، التسويق، إلخ.

جانب مهم آخر لعلم البيانات هو أنه يدرس كيفية جمع البيانات وتخزينها والعمل عليها باستخدام أجهزة الكمبيوتر. بينما توفر الإحصائيات الأسس الرياضية، يطبق علم البيانات المفاهيم الرياضية لاستخلاص الرؤى من البيانات.

إحدى الطرق (المنسوبة إلى جيم غراي) للنظر إلى علم البيانات هي اعتباره نموذجًا منفصلًا للعلم:

تجريبي، حيث نعتمد بشكل أساسي على الملاحظات ونتائج التجارب.
نظري، حيث تنشأ المفاهيم الجديدة من المعرفة العلمية الموجودة.
حسابي، حيث نكتشف مبادئ جديدة بناءً على بعض التجارب الحسابية.
مدفوع بالبيانات، يعتمد على اكتشاف العلاقات والأنماط في البيانات.

مجالات ذات صلة

نظرًا لأن البيانات منتشرة في كل مكان، فإن علم البيانات نفسه هو أيضًا مجال واسع، يتداخل مع العديد من التخصصات الأخرى.

قواعد البيانات: اعتبار مهم هو كيفية تخزين البيانات، أي كيفية هيكلتها بطريقة تسمح بمعالجتها بشكل أسرع. هناك أنواع مختلفة من قواعد البيانات التي تخزن البيانات المنظمة وغير المنظمة، والتي سنناقشها في دورتنا.
البيانات الضخمة: غالبًا ما نحتاج إلى تخزين ومعالجة كميات كبيرة جدًا من البيانات ذات هيكل بسيط نسبيًا. هناك طرق وأدوات خاصة لتخزين تلك البيانات بطريقة موزعة على مجموعة من أجهزة الكمبيوتر ومعالجتها بكفاءة.
التعلم الآلي: إحدى الطرق لفهم البيانات هي بناء نموذج يمكنه التنبؤ بالنتائج المطلوبة. تطوير النماذج من البيانات يُعرف بـالتعلم الآلي. قد ترغب في الاطلاع على منهج التعلم الآلي للمبتدئين لمعرفة المزيد عنه.
الذكاء الاصطناعي: مجال من التعلم الآلي يُعرف بالذكاء الاصطناعي (AI) يعتمد أيضًا على البيانات، ويتضمن بناء نماذج عالية التعقيد تحاكي عمليات التفكير البشري. غالبًا ما تتيح لنا طرق الذكاء الاصطناعي تحويل البيانات غير المنظمة (مثل اللغة الطبيعية) إلى رؤى منظمة.
التصور: كميات كبيرة من البيانات تكون غير مفهومة للبشر، ولكن بمجرد أن نقوم بإنشاء تصورات مفيدة باستخدام تلك البيانات، يمكننا فهمها بشكل أفضل واستخلاص بعض الاستنتاجات. لذلك، من المهم معرفة العديد من الطرق لتصور المعلومات - وهو شيء سنغطيه في القسم الثالث من دورتنا. تشمل المجالات ذات الصلة أيضًا الرسوم البيانية والتفاعل بين الإنسان والحاسوب بشكل عام.

أنواع البيانات

كما ذكرنا سابقًا، البيانات موجودة في كل مكان. نحن فقط بحاجة إلى التقاطها بالطريقة الصحيحة! من المفيد التمييز بين البيانات المنظمة وغير المنظمة. عادةً ما يتم تمثيل النوع الأول في شكل منظم جيدًا، غالبًا كجدول أو عدد من الجداول، بينما النوع الثاني هو مجرد مجموعة من الملفات. في بعض الأحيان يمكننا أيضًا التحدث عن البيانات شبه المنظمة، التي تحتوي على نوع من الهيكل الذي قد يختلف بشكل كبير.

منظمة	شبه منظمة	غير منظمة
قائمة الأشخاص مع أرقام هواتفهم	صفحات ويكيبيديا مع روابط	نص موسوعة بريتانيكا
درجة الحرارة في جميع غرف المبنى في كل دقيقة خلال العشرين سنة الماضية	مجموعة من الأوراق العلمية بتنسيق JSON مع المؤلفين، تاريخ النشر، والملخص	مشاركة الملفات مع الوثائق المؤسسية
بيانات العمر والجنس لجميع الأشخاص الذين يدخلون المبنى	صفحات الإنترنت	بث فيديو خام من كاميرا المراقبة

من أين تحصل على البيانات

هناك العديد من المصادر الممكنة للبيانات، وسيكون من المستحيل سردها جميعًا! ومع ذلك، دعونا نذكر بعض الأماكن النموذجية حيث يمكنك الحصول على البيانات:

منظمة
- إنترنت الأشياء (IoT)، بما في ذلك البيانات من مختلف المستشعرات، مثل مستشعرات الحرارة أو الضغط، يوفر الكثير من البيانات المفيدة. على سبيل المثال، إذا كان مبنى المكتب مجهزًا بمستشعرات إنترنت الأشياء، يمكننا التحكم تلقائيًا في التدفئة والإضاءة لتقليل التكاليف.
- استطلاعات نطلب من المستخدمين إكمالها بعد الشراء، أو بعد زيارة موقع ويب.
- تحليل السلوك يمكن، على سبيل المثال، أن يساعدنا في فهم مدى تعمق المستخدم في الموقع، وما هو السبب النموذجي لمغادرة الموقع.
غير منظمة
- النصوص يمكن أن تكون مصدرًا غنيًا للرؤى، مثل درجة الشعور العامة، أو استخراج الكلمات الرئيسية والمعاني الدلالية.
- الصور أو الفيديو. يمكن استخدام فيديو من كاميرا مراقبة لتقدير حركة المرور على الطريق، وإبلاغ الناس عن الاختناقات المرورية المحتملة.
- سجلات خوادم الويب يمكن استخدامها لفهم الصفحات الأكثر زيارة في موقعنا، ولأي مدة.
شبه منظمة
- رسوم الشبكات الاجتماعية يمكن أن تكون مصادر رائعة للبيانات حول شخصيات المستخدمين والفعالية المحتملة في نشر المعلومات.
- عندما يكون لدينا مجموعة من الصور من حفلة، يمكننا محاولة استخراج بيانات ديناميكيات المجموعة من خلال بناء رسم بياني للأشخاص الذين يلتقطون الصور مع بعضهم البعض.

من خلال معرفة المصادر المختلفة الممكنة للبيانات، يمكنك محاولة التفكير في سيناريوهات مختلفة حيث يمكن تطبيق تقنيات علم البيانات لفهم الوضع بشكل أفضل، وتحسين العمليات التجارية.

ما يمكنك القيام به بالبيانات

في علم البيانات، نركز على الخطوات التالية في رحلة البيانات:

1) جمع البيانات

الخطوة الأولى هي جمع البيانات. بينما في العديد من الحالات يمكن أن تكون عملية مباشرة، مثل البيانات التي تصل إلى قاعدة البيانات من تطبيق ويب، في بعض الأحيان نحتاج إلى استخدام تقنيات خاصة. على سبيل المثال، يمكن أن تكون البيانات من مستشعرات إنترنت الأشياء غامرة، ومن الجيد استخدام نقاط تجميع مثل IoT Hub لجمع جميع البيانات قبل معالجتها.

2) تخزين البيانات

يمكن أن يكون تخزين البيانات تحديًا، خاصة إذا كنا نتحدث عن البيانات الضخمة. عند اتخاذ قرار حول كيفية تخزين البيانات، من المنطقي توقع الطريقة التي ترغب في استعلام البيانات بها في المستقبل. هناك عدة طرق يمكن تخزين البيانات بها:

تخزن قاعدة البيانات العلائقية مجموعة من الجداول، وتستخدم لغة خاصة تسمى SQL لاستعلامها. عادةً ما يتم تنظيم الجداول في مجموعات مختلفة تسمى المخططات. في كثير من الحالات، نحتاج إلى تحويل البيانات من شكلها الأصلي لتناسب المخطط.
قاعدة بيانات NoSQL، مثل CosmosDB، لا تفرض مخططات على البيانات، وتسمح بتخزين بيانات أكثر تعقيدًا، على سبيل المثال، مستندات JSON هرمية أو رسوم بيانية. ومع ذلك، فإن قواعد بيانات NoSQL لا تحتوي على إمكانيات استعلام غنية مثل SQL، ولا يمكنها فرض سلامة العلاقات، أي القواعد المتعلقة بكيفية هيكلة البيانات في الجداول وتنظيم العلاقات بينها.
تخزين بحيرة البيانات يُستخدم لمجموعات كبيرة من البيانات في شكلها الخام وغير المنظم. تُستخدم بحيرات البيانات غالبًا مع البيانات الضخمة، حيث لا يمكن أن تتسع جميع البيانات على جهاز واحد، ويجب تخزينها ومعالجتها بواسطة مجموعة من الخوادم. Parquet هو تنسيق البيانات الذي يُستخدم غالبًا مع البيانات الضخمة.

3) معالجة البيانات

هذه هي الجزء الأكثر إثارة في رحلة البيانات، والذي يتضمن تحويل البيانات من شكلها الأصلي إلى شكل يمكن استخدامه للتصور/تدريب النموذج. عند التعامل مع البيانات غير المنظمة مثل النصوص أو الصور، قد نحتاج إلى استخدام بعض تقنيات الذكاء الاصطناعي لاستخراج الميزات من البيانات، وبالتالي تحويلها إلى شكل منظم.

4) التصور / استنتاجات بشرية

غالبًا، لفهم البيانات، نحتاج إلى تصورها. من خلال امتلاك العديد من تقنيات التصور المختلفة في أدواتنا، يمكننا العثور على العرض المناسب لاستخلاص استنتاج. غالبًا، يحتاج عالم البيانات إلى "اللعب بالبيانات"، تصورها عدة مرات والبحث عن بعض العلاقات. أيضًا، قد نستخدم تقنيات إحصائية لاختبار فرضية أو إثبات وجود علاقة بين أجزاء مختلفة من البيانات.

5) تدريب نموذج تنبؤي

نظرًا لأن الهدف النهائي لعلم البيانات هو القدرة على اتخاذ قرارات بناءً على البيانات، قد نرغب في استخدام تقنيات التعلم الآلي لبناء نموذج تنبؤي. يمكننا بعد ذلك استخدام هذا النموذج لإجراء تنبؤات باستخدام مجموعات بيانات جديدة ذات هياكل مشابهة.

بالطبع، اعتمادًا على البيانات الفعلية، قد تكون بعض الخطوات مفقودة (على سبيل المثال، عندما تكون البيانات موجودة بالفعل في قاعدة البيانات، أو عندما لا نحتاج إلى تدريب النموذج)، أو قد تتكرر بعض الخطوات عدة مرات (مثل معالجة البيانات).

الرقمنة والتحول الرقمي

في العقد الأخير، بدأت العديد من الشركات في فهم أهمية البيانات عند اتخاذ قرارات الأعمال. لتطبيق مبادئ علم البيانات على إدارة الأعمال، يجب أولاً جمع بعض البيانات، أي ترجمة العمليات التجارية إلى شكل رقمي. يُعرف هذا بـ الرقمنة. يمكن أن يؤدي تطبيق تقنيات علم البيانات على هذه البيانات لتوجيه القرارات إلى زيادات كبيرة في الإنتاجية (أو حتى تغيير جذري في الأعمال)، يُطلق عليه التحول الرقمي.

لنفكر في مثال. لنفترض أن لدينا دورة علم بيانات (مثل هذه) نقدمها عبر الإنترنت للطلاب، ونريد استخدام علم البيانات لتحسينها. كيف يمكننا القيام بذلك؟

يمكننا البدء بسؤال "ما الذي يمكن رقمنته؟" أبسط طريقة هي قياس الوقت الذي يستغرقه كل طالب لإكمال كل وحدة، وقياس المعرفة المكتسبة من خلال تقديم اختبار اختيار من متعدد في نهاية كل وحدة. من خلال حساب متوسط الوقت اللازم للإكمال عبر جميع الطلاب، يمكننا معرفة الوحدات التي تسبب أكبر صعوبة للطلاب، والعمل على تبسيطها.

قد تجادل بأن هذه الطريقة ليست مثالية، لأن الوحدات يمكن أن تكون بأطوال مختلفة. ربما يكون من الأكثر عدالة تقسيم الوقت على طول الوحدة (بعدد الأحرف)، ومقارنة تلك القيم بدلاً من ذلك.

عندما نبدأ في تحليل نتائج اختبارات الاختيار المتعدد، يمكننا محاولة تحديد المفاهيم التي يجد الطلاب صعوبة في فهمها، واستخدام تلك المعلومات لتحسين المحتوى. للقيام بذلك، نحتاج إلى تصميم الاختبارات بطريقة تجعل كل سؤال يرتبط بمفهوم معين أو جزء من المعرفة.

إذا أردنا أن نكون أكثر تعقيدًا، يمكننا رسم الوقت المستغرق لكل وحدة مقابل الفئة العمرية للطلاب. قد نكتشف أنه بالنسبة لبعض الفئات العمرية، يستغرق الأمر وقتًا طويلًا بشكل غير مناسب لإكمال الوحدة، أو أن الطلاب ينسحبون قبل إكمالها. يمكن أن يساعدنا هذا في تقديم توصيات عمرية للوحدة وتقليل استياء الناس من التوقعات الخاطئة.

🚀 التحدي

في هذا التحدي، سنحاول العثور على المفاهيم ذات الصلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، ونقوم بتنزيل ومعالجة النص، ثم نبني سحابة كلمات مثل هذه:

قم بزيارة notebook.ipynb لقراءة الكود. يمكنك أيضًا تشغيل الكود، ومشاهدة كيفية تنفيذ جميع تحويلات البيانات في الوقت الفعلي.

إذا كنت لا تعرف كيفية تشغيل الكود في Jupyter Notebook، يمكنك الاطلاع على هذه المقالة.

اختبار ما بعد المحاضرة

المهام

المهمة 1: قم بتعديل الكود أعلاه للعثور على المفاهيم ذات الصلة بمجالي البيانات الضخمة و تعلم الآلة.
المهمة 2: فكر في سيناريوهات علم البيانات

الشكر

تم تأليف هذا الدرس بكل ♥️ بواسطة دميتري سوشنيكوف

إخلاء المسؤولية:
تم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالترجمة البشرية الاحترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.