{ "cells": [ { "cell_type": "markdown", "source": [ "## **Нигерийская музыка, собранная со Spotify - анализ**\n", "\n", "Кластеризация — это вид [обучения без учителя](https://wikipedia.org/wiki/Unsupervised_learning), который предполагает, что набор данных не имеет меток или что его входные данные не связаны с заранее определенными выходными. Она использует различные алгоритмы для обработки немаркированных данных и группировки их на основе выявленных закономерностей.\n", "\n", "[**Тест перед лекцией**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Введение**\n", "\n", "[Кластеризация](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) очень полезна для исследования данных. Давайте посмотрим, может ли она помочь выявить тенденции и закономерности в том, как нигерийская аудитория потребляет музыку.\n", "\n", "> ✅ Подумайте минуту о применении кластеризации. В реальной жизни кластеризация происходит, когда у вас есть куча белья, и вы сортируете одежду членов семьи 🧦👕👖🩲. В науке о данных кластеризация используется для анализа предпочтений пользователей или определения характеристик любого немаркированного набора данных. Кластеризация, в некотором смысле, помогает навести порядок в хаосе, как в ящике с носками.\n", "\n", "В профессиональной среде кластеризация может использоваться для таких задач, как сегментация рынка, определение возрастных групп, покупающих определенные товары. Другой пример — обнаружение аномалий, например, для выявления мошенничества в наборе данных о транзакциях по кредитным картам. Или вы можете использовать кластеризацию для определения опухолей в серии медицинских снимков.\n", "\n", "✅ Подумайте минуту, как вы могли сталкиваться с кластеризацией в реальной жизни, например, в банковской сфере, электронной коммерции или бизнесе.\n", "\n", "> 🎓 Интересно, что анализ кластеров возник в области антропологии и психологии в 1930-х годах. Как вы думаете, как он мог использоваться тогда?\n", "\n", "Кроме того, кластеризацию можно использовать для группировки результатов поиска — например, по ссылкам на покупки, изображениям или отзывам. Кластеризация полезна, когда у вас есть большой набор данных, который вы хотите уменьшить и на котором хотите провести более детальный анализ. Таким образом, этот метод помогает изучить данные перед созданием других моделей.\n", "\n", "✅ После того как ваши данные организованы в кластеры, вы присваиваете им идентификатор кластера. Этот метод может быть полезен для сохранения конфиденциальности набора данных: вместо использования более раскрывающих данных вы можете ссылаться на точку данных по ее идентификатору кластера. Можете ли вы придумать другие причины, по которым вы бы использовали идентификатор кластера вместо других элементов кластера для его идентификации?\n", "\n", "### Начало работы с кластеризацией\n", "\n", "> 🎓 То, как мы создаем кластеры, во многом зависит от того, как мы группируем точки данных. Давайте разберем несколько терминов:\n", ">\n", "> 🎓 ['Трансдуктивный' vs. 'индуктивный'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Трансдуктивный вывод основывается на наблюдаемых обучающих примерах, которые сопоставляются с конкретными тестовыми случаями. Индуктивный вывод основывается на обучающих примерах, которые формируют общие правила, применяемые затем к тестовым случаям.\n", ">\n", "> Пример: Представьте, что у вас есть набор данных, который частично размечен. Некоторые элементы — это 'пластинки', некоторые — 'CD', а некоторые не имеют меток. Ваша задача — присвоить метки пустым элементам. Если вы выберете индуктивный подход, вы обучите модель на 'пластинках' и 'CD' и примените эти метки к немаркированным данным. Этот подход может столкнуться с трудностями при классификации элементов, которые на самом деле являются 'кассетами'. Трансдуктивный подход, напротив, более эффективно справляется с неизвестными данными, группируя похожие элементы вместе и затем присваивая метку группе. В этом случае кластеры могут отражать 'круглые музыкальные вещи' и 'квадратные музыкальные вещи'.\n", ">\n", "> 🎓 ['Неплоская' vs. 'плоская' геометрия](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Этот термин происходит из математики и относится к измерению расстояний между точками с использованием либо 'плоской' ([евклидовой](https://wikipedia.org/wiki/Euclidean_geometry)), либо 'неплоской' (неевклидовой) геометрии.\n", ">\n", "> 'Плоская' геометрия относится к евклидовой геометрии (части которой изучаются как 'планиметрия'), а 'неплоская' — к неевклидовой геометрии. Как геометрия связана с машинным обучением? Поскольку обе области основаны на математике, должен быть общий способ измерения расстояний между точками в кластерах, и это можно сделать 'плоским' или 'неплоским' способом, в зависимости от природы данных. [Евклидовы расстояния](https://wikipedia.org/wiki/Euclidean_distance) измеряются как длина отрезка между двумя точками. [Неевклидовы расстояния](https://wikipedia.org/wiki/Non-Euclidean_geometry) измеряются вдоль кривой. Если ваши данные, визуализированные, не лежат на плоскости, вам может понадобиться специализированный алгоритм для их обработки.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"