{ "cells": [ { "cell_type": "markdown", "source": [ "## **تحليل الموسيقى النيجيرية المستخرجة من Spotify**\n", "\n", "التجميع هو نوع من [التعلم غير المراقب](https://wikipedia.org/wiki/Unsupervised_learning) الذي يفترض أن مجموعة البيانات غير مصنفة أو أن مدخلاتها غير مرتبطة بمخرجات محددة مسبقًا. يستخدم خوارزميات مختلفة لفرز البيانات غير المصنفة وتقديم مجموعات بناءً على الأنماط التي يكتشفها في البيانات.\n", "\n", "[**اختبار ما قبل المحاضرة**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **المقدمة**\n", "\n", "[التجميع](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) مفيد جدًا لاستكشاف البيانات. دعونا نرى ما إذا كان يمكنه المساعدة في اكتشاف الاتجاهات والأنماط في طريقة استهلاك الجمهور النيجيري للموسيقى.\n", "\n", "> ✅ خذ دقيقة للتفكير في استخدامات التجميع. في الحياة اليومية، يحدث التجميع عندما يكون لديك كومة من الغسيل وتحتاج إلى فرز ملابس أفراد الأسرة 🧦👕👖🩲. في علم البيانات، يحدث التجميع عند محاولة تحليل تفضيلات المستخدم أو تحديد خصائص أي مجموعة بيانات غير مصنفة. التجميع، بطريقة ما، يساعد في فهم الفوضى، مثل درج الجوارب.\n", "\n", "في بيئة العمل، يمكن استخدام التجميع لتحديد أشياء مثل تقسيم السوق، أو تحديد الفئات العمرية التي تشتري منتجات معينة، على سبيل المثال. استخدام آخر يمكن أن يكون اكتشاف الشذوذ، ربما للكشف عن الاحتيال من مجموعة بيانات معاملات بطاقات الائتمان. أو قد تستخدم التجميع لتحديد الأورام في مجموعة من الفحوصات الطبية.\n", "\n", "✅ فكر لدقيقة كيف قد تكون واجهت التجميع \"في الحياة الواقعية\"، في بيئة مصرفية، تجارة إلكترونية، أو أعمال.\n", "\n", "> 🎓 من المثير للاهتمام أن تحليل التجميع نشأ في مجالات الأنثروبولوجيا وعلم النفس في الثلاثينيات. هل يمكنك تخيل كيف كان يمكن استخدامه؟\n", "\n", "بدلاً من ذلك، يمكنك استخدامه لتجميع نتائج البحث - مثل روابط التسوق، الصور، أو المراجعات، على سبيل المثال. التجميع مفيد عندما يكون لديك مجموعة بيانات كبيرة تريد تقليلها وتريد إجراء تحليل أكثر تفصيلًا عليها، لذا يمكن استخدام هذه التقنية للتعرف على البيانات قبل بناء نماذج أخرى.\n", "\n", "✅ بمجرد تنظيم بياناتك في مجموعات، يمكنك تعيين معرف مجموعة لها، وهذه التقنية يمكن أن تكون مفيدة عند الحفاظ على خصوصية مجموعة البيانات؛ يمكنك بدلاً من ذلك الإشارة إلى نقطة بيانات بمعرف المجموعة، بدلاً من بيانات تعريفية أكثر كشفًا. هل يمكنك التفكير في أسباب أخرى قد تجعلك تشير إلى معرف المجموعة بدلاً من عناصر أخرى في المجموعة لتحديدها؟\n", "\n", "### البدء مع التجميع\n", "\n", "> 🎓 كيفية إنشاء المجموعات تعتمد بشكل كبير على كيفية جمع نقاط البيانات في مجموعات. دعونا نستعرض بعض المصطلحات:\n", ">\n", "> 🎓 ['الاستنتاج الانتقالي' مقابل 'الاستنتاج الاستقرائي'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> الاستنتاج الانتقالي مشتق من حالات تدريب ملاحظة ترتبط بحالات اختبار محددة. الاستنتاج الاستقرائي مشتق من حالات تدريب ترتبط بقواعد عامة يتم تطبيقها بعد ذلك فقط على حالات الاختبار.\n", ">\n", "> مثال: تخيل أن لديك مجموعة بيانات مصنفة جزئيًا فقط. بعض الأشياء هي \"سجلات\"، وبعضها \"أقراص مدمجة\"، وبعضها فارغ. مهمتك هي توفير تسميات للفارغات. إذا اخترت نهجًا استقرائيًا، ستدرب نموذجًا يبحث عن \"السجلات\" و\"الأقراص المدمجة\"، وتطبق تلك التسميات على بياناتك غير المصنفة. هذا النهج سيواجه صعوبة في تصنيف الأشياء التي هي في الواقع \"كاسيتات\". من ناحية أخرى، النهج الانتقالي يتعامل مع هذه البيانات غير المعروفة بشكل أكثر فعالية حيث يعمل على تجميع العناصر المتشابهة معًا ثم يطبق تسمية على المجموعة. في هذه الحالة، قد تعكس المجموعات \"أشياء موسيقية دائرية\" و\"أشياء موسيقية مربعة\".\n", ">\n", "> 🎓 ['الهندسة غير المسطحة' مقابل 'الهندسة المسطحة'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> مشتقة من المصطلحات الرياضية، تشير الهندسة غير المسطحة مقابل الهندسة المسطحة إلى قياس المسافات بين النقاط إما بطرق هندسية \"مسطحة\" ([إقليدية](https://wikipedia.org/wiki/Euclidean_geometry)) أو \"غير مسطحة\" (غير إقليدية).\n", ">\n", "> \"مسطحة\" في هذا السياق تشير إلى الهندسة الإقليدية (بعض أجزائها تُدرس كـ \"هندسة مستوية\")، و\"غير مسطحة\" تشير إلى الهندسة غير الإقليدية. ما علاقة الهندسة بتعلم الآلة؟ حسنًا، كحقلين متجذرين في الرياضيات، يجب أن يكون هناك طريقة مشتركة لقياس المسافات بين النقاط في المجموعات، ويمكن القيام بذلك بطريقة \"مسطحة\" أو \"غير مسطحة\"، اعتمادًا على طبيعة البيانات. [المسافات الإقليدية](https://wikipedia.org/wiki/Euclidean_distance) تُقاس كطول قطعة مستقيمة بين نقطتين. [المسافات غير الإقليدية](https://wikipedia.org/wiki/Non-Euclidean_geometry) تُقاس على طول منحنى. إذا كانت بياناتك، عند تصورها، تبدو وكأنها لا توجد على مستوى، قد تحتاج إلى استخدام خوارزمية متخصصة للتعامل معها.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"