{ "cells": [ { "cell_type": "markdown", "source": [ "## **Нігерійська музика, зібрана зі Spotify - аналіз**\n", "\n", "Кластеризація — це тип [навчання без учителя](https://wikipedia.org/wiki/Unsupervised_learning), який передбачає, що набір даних не має міток або його вхідні дані не співвідносяться з визначеними вихідними. Вона використовує різні алгоритми для аналізу немаркованих даних і створення груп на основі виявлених у даних закономірностей.\n", "\n", "[**Тест перед лекцією**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Вступ**\n", "\n", "[Кластеризація](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) дуже корисна для дослідження даних. Давайте подивимося, чи може вона допомогти виявити тенденції та закономірності у способах споживання музики нігерійською аудиторією.\n", "\n", "> ✅ Зробіть паузу і подумайте про застосування кластеризації. У реальному житті кластеризація відбувається, коли ви маєте купу білизни і сортуєте одяг членів вашої родини 🧦👕👖🩲. У сфері науки про дані кластеризація відбувається під час аналізу уподобань користувачів або визначення характеристик будь-якого немаркованого набору даних. Кластеризація, певною мірою, допомагає навести лад у хаосі, як у шухляді для шкарпеток.\n", "\n", "У професійному середовищі кластеризацію можна використовувати для визначення сегментації ринку, наприклад, щоб зрозуміти, які вікові групи купують певні товари. Інше застосування — виявлення аномалій, наприклад, для виявлення шахрайства у наборі даних про транзакції з кредитними картками. Або ж кластеризацію можна використовувати для визначення пухлин у серії медичних сканів.\n", "\n", "✅ Подумайте хвилину про те, як ви могли зустрічати кластеризацію у реальному житті, наприклад, у банківській сфері, електронній комерції чи бізнесі.\n", "\n", "> 🎓 Цікаво, що аналіз кластерів виник у галузях антропології та психології у 1930-х роках. Як ви думаєте, як його могли використовувати?\n", "\n", "Альтернативно, кластеризацію можна використовувати для групування результатів пошуку — за посиланнями на покупки, зображеннями чи відгуками, наприклад. Кластеризація корисна, коли у вас є великий набір даних, який потрібно зменшити і на якому ви хочете провести більш детальний аналіз, тому цей метод можна використовувати для вивчення даних перед створенням інших моделей.\n", "\n", "✅ Коли ваші дані організовані у кластери, ви присвоюєте їм ідентифікатор кластеру, і цей метод може бути корисним для збереження конфіденційності набору даних; замість того, щоб посилатися на точку даних за її більш розкриваючими ідентифікаційними даними, ви можете використовувати ідентифікатор кластеру. Чи можете ви придумати інші причини, чому ви б використовували ідентифікатор кластеру замість інших елементів кластеру для його ідентифікації?\n", "\n", "### Початок роботи з кластеризацією\n", "\n", "> 🎓 Те, як ми створюємо кластери, багато в чому залежить від того, як ми групуємо точки даних у групи. Давайте розберемо деякі терміни:\n", ">\n", "> 🎓 ['Трансдуктивний' vs. 'індуктивний'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Трансдуктивний висновок базується на спостережуваних навчальних випадках, які відповідають конкретним тестовим випадкам. Індуктивний висновок базується на навчальних випадках, які формують загальні правила, що потім застосовуються до тестових випадків.\n", ">\n", "> Приклад: Уявіть, що у вас є набір даних, який частково має мітки. Деякі речі — це 'платівки', деякі — 'CD', а деякі — без міток. Ваше завдання — надати мітки для порожніх даних. Якщо ви обираєте індуктивний підхід, ви тренуєте модель, шукаючи 'платівки' і 'CD', і застосовуєте ці мітки до немаркованих даних. Цей підхід матиме труднощі з класифікацією речей, які насправді є 'касетами'. Трансдуктивний підхід, навпаки, ефективніше працює з невідомими даними, оскільки він групує схожі елементи разом і потім застосовує мітку до групи. У цьому випадку кластери можуть відображати 'круглі музичні речі' і 'квадратні музичні речі'.\n", ">\n", "> 🎓 ['Неплоска' vs. 'плоска' геометрія](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Взята з математичної термінології, неплоска vs. плоска геометрія стосується вимірювання відстаней між точками за допомогою 'плоских' ([евклідових](https://wikipedia.org/wiki/Euclidean_geometry)) або 'неплоских' (неевклідових) геометричних методів.\n", ">\n", "> 'Плоска' у цьому контексті стосується евклідової геометрії (частини якої викладаються як 'планіметрія'), а неплоска — неевклідової геометрії. Що геометрія має спільного з машинним навчанням? Як дві галузі, що базуються на математиці, має бути спільний спосіб вимірювання відстаней між точками у кластерах, і це можна зробити 'плоским' або 'неплоским' способом, залежно від природи даних. [Евклідові відстані](https://wikipedia.org/wiki/Euclidean_distance) вимірюються як довжина відрізка між двома точками. [Неевклідові відстані](https://wikipedia.org/wiki/Non-Euclidean_geometry) вимірюються вздовж кривої. Якщо ваші дані, візуалізовані, здаються такими, що не існують на площині, вам може знадобитися спеціалізований алгоритм для їх обробки.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"