{ "cells": [ { "cell_type": "markdown", "source": [ "## **Análisis de música nigeriana extraída de Spotify**\n", "\n", "El clustering es un tipo de [aprendizaje no supervisado](https://wikipedia.org/wiki/Aprendizaje_no_supervisado) que asume que un conjunto de datos no está etiquetado o que sus entradas no están asociadas a salidas predefinidas. Utiliza varios algoritmos para clasificar datos no etiquetados y proporcionar agrupaciones según los patrones que detecta en los datos.\n", "\n", "[**Cuestionario previo a la lección**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Introducción**\n", "\n", "El [clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) es muy útil para la exploración de datos. Veamos si puede ayudar a descubrir tendencias y patrones en la forma en que las audiencias nigerianas consumen música.\n", "\n", "> ✅ Tómate un minuto para pensar en los usos del clustering. En la vida cotidiana, el clustering ocurre cuando tienes un montón de ropa sucia y necesitas clasificar la ropa de los miembros de tu familia 🧦👕👖🩲. En ciencia de datos, el clustering ocurre al intentar analizar las preferencias de un usuario o determinar las características de un conjunto de datos no etiquetado. El clustering, de alguna manera, ayuda a dar sentido al caos, como un cajón de calcetines.\n", "\n", "En un entorno profesional, el clustering puede usarse para determinar cosas como la segmentación de mercado, identificando qué grupos de edad compran qué productos, por ejemplo. Otro uso sería la detección de anomalías, tal vez para identificar fraudes en un conjunto de datos de transacciones con tarjetas de crédito. O podrías usar el clustering para identificar tumores en un lote de escaneos médicos.\n", "\n", "✅ Piensa un momento en cómo podrías haber encontrado clustering \"en la vida real\", en un entorno bancario, de comercio electrónico o empresarial.\n", "\n", "> 🎓 Curiosamente, el análisis de clústeres se originó en los campos de la Antropología y la Psicología en la década de 1930. ¿Puedes imaginar cómo podría haberse utilizado?\n", "\n", "Alternativamente, podrías usarlo para agrupar resultados de búsqueda, como enlaces de compras, imágenes o reseñas, por ejemplo. El clustering es útil cuando tienes un conjunto de datos grande que deseas reducir y sobre el cual deseas realizar un análisis más detallado, por lo que la técnica puede usarse para aprender sobre los datos antes de construir otros modelos.\n", "\n", "✅ Una vez que tus datos están organizados en clústeres, les asignas un Id de clúster, y esta técnica puede ser útil para preservar la privacidad de un conjunto de datos; en lugar de referirte a un punto de datos por información más reveladora, puedes referirte a él por su Id de clúster. ¿Puedes pensar en otras razones por las que preferirías referirte a un Id de clúster en lugar de otros elementos del clúster para identificarlo?\n", "\n", "### Comenzando con el clustering\n", "\n", "> 🎓 La forma en que creamos clústeres tiene mucho que ver con cómo agrupamos los puntos de datos. Vamos a desglosar algo de vocabulario:\n", ">\n", "> 🎓 ['Transductivo' vs. 'inductivo'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> La inferencia transductiva se deriva de casos de entrenamiento observados que se mapean a casos de prueba específicos. La inferencia inductiva se deriva de casos de entrenamiento que se mapean a reglas generales que luego se aplican a los casos de prueba.\n", ">\n", "> Un ejemplo: Imagina que tienes un conjunto de datos que está parcialmente etiquetado. Algunas cosas son 'discos', otras 'CDs', y otras están en blanco. Tu tarea es proporcionar etiquetas para los elementos en blanco. Si eliges un enfoque inductivo, entrenarías un modelo buscando 'discos' y 'CDs', y aplicarías esas etiquetas a tus datos no etiquetados. Este enfoque tendrá problemas para clasificar cosas que en realidad son 'cassettes'. Un enfoque transductivo, por otro lado, maneja estos datos desconocidos de manera más efectiva al agrupar elementos similares y luego aplicar una etiqueta a un grupo. En este caso, los clústeres podrían reflejar 'cosas musicales redondas' y 'cosas musicales cuadradas'.\n", ">\n", "> 🎓 ['Geometría no plana' vs. 'plana'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Derivado de la terminología matemática, la geometría no plana vs. plana se refiere a la medida de distancias entre puntos mediante métodos geométricos 'planos' ([Euclidianos](https://wikipedia.org/wiki/Geometr%C3%ADa_euclidiana)) o 'no planos' (no Euclidianos).\n", ">\n", "> 'Plana' en este contexto se refiere a la geometría Euclidiana (partes de la cual se enseñan como geometría 'plana'), y no plana se refiere a la geometría no Euclidiana. ¿Qué tiene que ver la geometría con el aprendizaje automático? Bueno, como dos campos que tienen raíces en las matemáticas, debe haber una forma común de medir distancias entre puntos en clústeres, y eso puede hacerse de manera 'plana' o 'no plana', dependiendo de la naturaleza de los datos. Las [distancias Euclidianas](https://wikipedia.org/wiki/Distancia_euclidiana) se miden como la longitud de un segmento de línea entre dos puntos. Las [distancias no Euclidianas](https://wikipedia.org/wiki/Geometr%C3%ADa_no_euclidiana) se miden a lo largo de una curva. Si tus datos, al visualizarlos, parecen no existir en un plano, podrías necesitar usar un algoritmo especializado para manejarlos.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"