Кластеризация - это задача машинного обучения, в которой происходит поиск похожих друг на друга объектов и объединение их в группы, называемые кластерами. Что отличает кластеризацию от других подходов в машинном обучении, так это то, что все происходит автоматически, и справедливо будет сказать, что это противоположность обучению с учителем.
Разнообразная публика Нигерии имеет самые разные музыкальные вкусы. Используя данные, полученные от Spotify (на основе [этой статьи](https://towardsdatascience.com/country-wise-visual-analysis-of-music-taste-using-spotify-api-seaborn-in-python-77f5b749b421), давайте посмотрим на популярную музыку в Нигерии. Этот набор данных включает данные о "танцевальности", "акустичности", громкости, "разговорчивости", популярности и энергии различных песен. Будет интересно обнаружить закономерности в этих данных!
В этой серии уроков вы откроете для себя новые способы анализа данных с помощью методов кластеризации. Кластеризация особенно полезна, когда в наборе данных отсутствуют метки. Если в нем есть метки, тогда могут быть более полезными методы классификации, подобные тем, которые вы изучили на предыдущих уроках. Но в случаях, когда вы хотите сгруппировать данные без меток, кластеризация - отличный способ обнаружить закономерности.
> Существуют инструменты, не требующие написания большого количества кода, которые могут помочь вам узнать о моделях кластеризации. Попробуйте [Azure ML для этой задачи](https://docs.microsoft.com/learn/modules/create-clustering-model-azure-machine-learning-designer/?WT.mc_id=academic-77952-leestott).
Эти уроки были написаны [Джен Лупер](https://www.twitter.com/jenlooper) с 🎶 и полезными комментариями от [Ришит Дагли](https://rishit_dagli) и [Мухаммад Сакиб Хан Инан](https://twitter.com/Sakibinan).
Полезные примеры K-средних, которые помогли в создании этого урока, включают [исследование цветков ирисов](https://www.kaggle.com/bburns/iris-exploration-pca-k-means-and-gmm-clustering), [вводный блокнот](https://www.kaggle.com/prashant111/k-means-clustering-with-python) и [пример гипотетической НПО](https://www.kaggle.com/ankandash/pca-k-means-clustering-hierarchical-clustering).