{ "cells": [ { "cell_type": "markdown", "source": [ "## **تحلیل موسیقی نیجریهای استخراجشده از اسپاتیفای**\n", "\n", "خوشهبندی نوعی از [یادگیری بدون نظارت](https://wikipedia.org/wiki/Unsupervised_learning) است که فرض میکند یک مجموعه داده برچسبگذاری نشده است یا ورودیهای آن با خروجیهای از پیش تعریفشده مطابقت ندارند. این روش از الگوریتمهای مختلفی استفاده میکند تا دادههای بدون برچسب را مرتب کرده و بر اساس الگوهایی که در دادهها تشخیص میدهد، گروهبندیهایی ارائه دهد.\n", "\n", "[**آزمون پیش از درس**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **مقدمه**\n", "\n", "[خوشهبندی](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) برای کاوش دادهها بسیار مفید است. بیایید ببینیم آیا میتواند به کشف روندها و الگوها در نحوه مصرف موسیقی توسط مخاطبان نیجریهای کمک کند یا خیر.\n", "\n", "> ✅ یک دقیقه وقت بگذارید و به کاربردهای خوشهبندی فکر کنید. در زندگی روزمره، خوشهبندی زمانی اتفاق میافتد که شما یک توده لباس دارید و باید لباسهای اعضای خانوادهتان را جدا کنید 🧦👕👖🩲. در علم داده، خوشهبندی زمانی اتفاق میافتد که بخواهید ترجیحات یک کاربر را تحلیل کنید یا ویژگیهای یک مجموعه داده بدون برچسب را تعیین کنید. خوشهبندی به نوعی به ایجاد نظم در میان آشفتگی کمک میکند، مثل مرتب کردن کشوی جورابها.\n", "\n", "در محیط حرفهای، خوشهبندی میتواند برای تعیین مواردی مانند تقسیمبندی بازار، مشخص کردن اینکه چه گروههای سنی چه کالاهایی را خریداری میکنند، استفاده شود. کاربرد دیگر میتواند تشخیص ناهنجاریها باشد، مثلاً برای شناسایی تقلب در یک مجموعه داده از تراکنشهای کارت اعتباری. یا ممکن است از خوشهبندی برای شناسایی تومورها در مجموعهای از اسکنهای پزشکی استفاده کنید.\n", "\n", "✅ یک دقیقه فکر کنید که چگونه ممکن است در دنیای واقعی، در بانکداری، تجارت الکترونیک یا محیط کسبوکار با خوشهبندی مواجه شده باشید.\n", "\n", "> 🎓 جالب است بدانید که تحلیل خوشهای در دهه ۱۹۳۰ در حوزههای انسانشناسی و روانشناسی آغاز شد. آیا میتوانید تصور کنید که چگونه از آن استفاده میشده است؟\n", "\n", "همچنین میتوانید از آن برای گروهبندی نتایج جستجو استفاده کنید - مثلاً بر اساس لینکهای خرید، تصاویر یا نظرات. خوشهبندی زمانی مفید است که یک مجموعه داده بزرگ دارید که میخواهید آن را کاهش دهید و تحلیل دقیقتری روی آن انجام دهید، بنابراین این تکنیک میتواند برای یادگیری درباره دادهها قبل از ساخت مدلهای دیگر استفاده شود.\n", "\n", "✅ وقتی دادههای شما در خوشهها سازماندهی شد، به آنها یک شناسه خوشه اختصاص میدهید. این تکنیک میتواند زمانی مفید باشد که بخواهید حریم خصوصی یک مجموعه داده را حفظ کنید؛ به جای استفاده از دادههای شناساییکننده، میتوانید به یک نقطه داده با شناسه خوشه آن اشاره کنید. آیا میتوانید دلایل دیگری برای استفاده از شناسه خوشه به جای عناصر دیگر خوشه برای شناسایی آن تصور کنید؟\n", "\n", "### شروع کار با خوشهبندی\n", "\n", "> 🎓 نحوه ایجاد خوشهها ارتباط زیادی با چگونگی گروهبندی نقاط داده دارد. بیایید برخی از واژگان را بررسی کنیم:\n", ">\n", "> 🎓 ['انتقالی' در مقابل 'استقرایی'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> استنتاج انتقالی از موارد آموزشی مشاهدهشده که به موارد آزمایشی خاص نگاشت میشوند، استخراج میشود. استنتاج استقرایی از موارد آموزشی که به قوانین کلی نگاشت میشوند و سپس به موارد آزمایشی اعمال میشوند، استخراج میشود.\n", ">\n", "> یک مثال: تصور کنید یک مجموعه داده دارید که فقط بخشی از آن برچسبگذاری شده است. برخی موارد 'صفحه گرامافون' هستند، برخی 'سیدی' و برخی خالی هستند. وظیفه شما این است که برای موارد خالی برچسب تعیین کنید. اگر رویکرد استقرایی را انتخاب کنید، مدلی برای شناسایی 'صفحه گرامافون' و 'سیدی' آموزش میدهید و این برچسبها را به دادههای بدون برچسب اعمال میکنید. این رویکرد در طبقهبندی مواردی که در واقع 'کاست' هستند، مشکل خواهد داشت. اما یک رویکرد انتقالی این دادههای ناشناخته را مؤثرتر مدیریت میکند، زیرا تلاش میکند موارد مشابه را گروهبندی کرده و سپس به یک گروه برچسب اختصاص دهد. در این حالت، خوشهها ممکن است 'اشیای موسیقی گرد' و 'اشیای موسیقی مربعی' را منعکس کنند.\n", ">\n", "> 🎓 ['هندسه تخت' در مقابل 'غیرتخت'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> اصطلاحات هندسی تخت و غیرتخت به اندازهگیری فاصله بین نقاط با استفاده از روشهای هندسی 'تخت' ([اقلیدسی](https://wikipedia.org/wiki/Euclidean_geometry)) یا 'غیرتخت' (غیر اقلیدسی) اشاره دارد.\n", ">\n", "> 'تخت' در این زمینه به هندسه اقلیدسی (که بخشی از آن به عنوان هندسه 'مسطح' آموزش داده میشود) اشاره دارد و غیرتخت به هندسه غیر اقلیدسی اشاره دارد. هندسه چه ارتباطی با یادگیری ماشین دارد؟ خب، به عنوان دو حوزهای که ریشه در ریاضیات دارند، باید یک روش مشترک برای اندازهگیری فاصله بین نقاط در خوشهها وجود داشته باشد، و این میتواند به صورت 'تخت' یا 'غیرتخت' انجام شود، بسته به ماهیت دادهها. [فاصلههای اقلیدسی](https://wikipedia.org/wiki/Euclidean_distance) به عنوان طول یک خط مستقیم بین دو نقطه اندازهگیری میشوند. [فاصلههای غیر اقلیدسی](https://wikipedia.org/wiki/Non-Euclidean_geometry) در طول یک منحنی اندازهگیری میشوند. اگر دادههای شما، وقتی تجسم میشوند، به نظر میرسد که روی یک صفحه قرار ندارند، ممکن است نیاز به استفاده از الگوریتم خاصی برای مدیریت آن داشته باشید.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"