You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

11 KiB

أنواع البيانات

كما ذكرنا سابقًا، البيانات موجودة في كل مكان. نحن فقط بحاجة إلى التقاطها بالطريقة الصحيحة! من المفيد التمييز بين البيانات المهيكلة وغير المهيكلة. البيانات المهيكلة عادةً ما تكون ممثلة في شكل منظم جيدًا، غالبًا كجدول أو عدد من الجداول، بينما البيانات غير المهيكلة هي مجرد مجموعة من الملفات. أحيانًا يمكننا أيضًا الحديث عن البيانات شبه المهيكلة، التي تحتوي على نوع من الهيكل الذي قد يختلف بشكل كبير.

مهيكلة شبه مهيكلة غير مهيكلة
قائمة بأسماء الأشخاص وأرقام هواتفهم صفحات ويكيبيديا مع روابط نص موسوعة بريتانيكا
درجات الحرارة في جميع غرف المبنى كل دقيقة على مدار العشرين عامًا الماضية مجموعة من الأوراق العلمية بصيغة JSON تحتوي على المؤلفين، تاريخ النشر، والملخص ملفات مشاركة تحتوي على مستندات الشركة
بيانات العمر والجنس لجميع الأشخاص الذين يدخلون المبنى صفحات الإنترنت فيديو خام من كاميرا مراقبة

من أين تحصل على البيانات

هناك العديد من المصادر الممكنة للبيانات، وسيكون من المستحيل سردها جميعًا! ومع ذلك، دعونا نذكر بعض الأماكن النموذجية التي يمكنك الحصول على البيانات منها:

  • مهيكلة
    • إنترنت الأشياء (IoT)، بما في ذلك البيانات من مختلف المستشعرات، مثل مستشعرات الحرارة أو الضغط، توفر الكثير من البيانات المفيدة. على سبيل المثال، إذا كان مبنى المكتب مجهزًا بمستشعرات إنترنت الأشياء، يمكننا التحكم تلقائيًا في التدفئة والإضاءة لتقليل التكاليف.
    • استطلاعات الرأي التي نطلب من المستخدمين إكمالها بعد عملية شراء أو بعد زيارة موقع إلكتروني.
    • تحليل السلوك يمكن أن يساعدنا، على سبيل المثال، في فهم مدى تعمق المستخدم في الموقع، وما هو السبب النموذجي لمغادرة الموقع.
  • غير مهيكلة
    • النصوص يمكن أن تكون مصدرًا غنيًا للرؤى، مثل الحصول على درجة الشعور العام أو استخراج الكلمات الرئيسية والمعاني الدلالية.
    • الصور أو الفيديو. يمكن استخدام فيديو من كاميرا مراقبة لتقدير حركة المرور على الطريق، وإبلاغ الناس عن الاختناقات المرورية المحتملة.
    • سجلات خادم الويب يمكن استخدامها لفهم الصفحات الأكثر زيارة في موقعنا، ومدة الزيارة.
  • شبه مهيكلة
    • رسوم الشبكات الاجتماعية يمكن أن تكون مصادر رائعة للبيانات حول شخصيات المستخدمين وفعالية نشر المعلومات بينهم.
    • عندما يكون لدينا مجموعة من الصور من حفلة، يمكننا محاولة استخراج بيانات ديناميكيات المجموعة من خلال بناء رسم بياني للأشخاص الذين يلتقطون الصور مع بعضهم البعض.

من خلال معرفة المصادر المختلفة للبيانات، يمكنك التفكير في سيناريوهات مختلفة حيث يمكن تطبيق تقنيات علم البيانات لفهم الوضع بشكل أفضل وتحسين العمليات التجارية.

ما الذي يمكنك فعله بالبيانات

في علم البيانات، نركز على الخطوات التالية في رحلة البيانات:

بالطبع، اعتمادًا على البيانات الفعلية، قد تكون بعض الخطوات مفقودة (مثل عندما تكون البيانات موجودة بالفعل في قاعدة البيانات، أو عندما لا نحتاج إلى تدريب نموذج)، أو قد يتم تكرار بعض الخطوات عدة مرات (مثل معالجة البيانات).

الرقمنة والتحول الرقمي

في العقد الأخير، بدأت العديد من الشركات في فهم أهمية البيانات عند اتخاذ القرارات التجارية. لتطبيق مبادئ علم البيانات على إدارة الأعمال، يجب أولاً جمع بعض البيانات، أي ترجمة العمليات التجارية إلى شكل رقمي. يُعرف هذا بـ الرقمنة. تطبيق تقنيات علم البيانات على هذه البيانات لتوجيه القرارات يمكن أن يؤدي إلى زيادات كبيرة في الإنتاجية (أو حتى تغيير جذري في الأعمال)، ويُطلق عليه التحول الرقمي.

دعونا نأخذ مثالًا. لنفترض أن لدينا دورة في علم البيانات (مثل هذه الدورة) نقدمها عبر الإنترنت للطلاب، ونريد استخدام علم البيانات لتحسينها. كيف يمكننا القيام بذلك؟

يمكننا البدء بسؤال "ما الذي يمكن رقمنته؟" أبسط طريقة ستكون قياس الوقت الذي يستغرقه كل طالب لإكمال كل وحدة، وقياس المعرفة المكتسبة من خلال تقديم اختبار متعدد الخيارات في نهاية كل وحدة. من خلال حساب متوسط الوقت للإكمال عبر جميع الطلاب، يمكننا معرفة الوحدات التي تسبب أكبر صعوبة للطلاب والعمل على تبسيطها. قد تجادل بأن هذه الطريقة ليست مثالية، لأن الوحدات يمكن أن تكون بأطوال مختلفة. ربما يكون من الأكثر إنصافًا تقسيم الوقت على طول الوحدة (بعدد الأحرف)، ومقارنة تلك القيم بدلاً من ذلك. عندما نبدأ في تحليل نتائج اختبارات الاختيار المتعدد، يمكننا محاولة تحديد المفاهيم التي يجد الطلاب صعوبة في فهمها، واستخدام تلك المعلومات لتحسين المحتوى. لتحقيق ذلك، نحتاج إلى تصميم الاختبارات بطريقة تجعل كل سؤال يرتبط بمفهوم معين أو جزء من المعرفة.

إذا أردنا أن نكون أكثر تعقيدًا، يمكننا رسم الوقت المستغرق لكل وحدة دراسية مقابل الفئة العمرية للطلاب. قد نكتشف أن بعض الفئات العمرية تستغرق وقتًا طويلًا بشكل غير مناسب لإكمال الوحدة، أو أن الطلاب ينسحبون قبل إكمالها. يمكن أن يساعدنا هذا في تقديم توصيات عمرية للوحدة وتقليل عدم رضا الناس الناتج عن التوقعات الخاطئة.

🚀 التحدي

في هذا التحدي، سنحاول العثور على المفاهيم ذات الصلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، ونقوم بتنزيل ومعالجة النص، ثم نبني سحابة كلمات مثل هذه:

سحابة كلمات لعلم البيانات

قم بزيارة notebook.ipynb لقراءة الكود. يمكنك أيضًا تشغيل الكود ومشاهدة كيفية تنفيذ جميع تحويلات البيانات في الوقت الفعلي.

إذا كنت لا تعرف كيفية تشغيل الكود في Jupyter Notebook، يمكنك الاطلاع على هذه المقالة.

اختبار ما بعد المحاضرة

المهام

الشكر

تم تأليف هذا الدرس بكل ♥️ بواسطة Dmitry Soshnikov


إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.