{ "cells": [ { "cell_type": "markdown", "source": [ "## **Musique nigériane extraite de Spotify - une analyse**\n", "\n", "Le clustering est un type d'[apprentissage non supervisé](https://wikipedia.org/wiki/Apprentissage_non_supervis%C3%A9) qui suppose qu'un ensemble de données n'est pas étiqueté ou que ses entrées ne sont pas associées à des sorties prédéfinies. Il utilise divers algorithmes pour trier les données non étiquetées et fournir des regroupements en fonction des motifs qu'il discerne dans les données.\n", "\n", "[**Quiz avant le cours**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Introduction**\n", "\n", "[Le clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) est très utile pour explorer les données. Voyons s'il peut aider à découvrir des tendances et des motifs dans la manière dont les audiences nigérianes consomment de la musique.\n", "\n", "> ✅ Prenez une minute pour réfléchir aux utilisations du clustering. Dans la vie quotidienne, le clustering se produit chaque fois que vous avez une pile de linge à trier pour séparer les vêtements des membres de votre famille 🧦👕👖🩲. En science des données, le clustering intervient lorsqu'il s'agit d'analyser les préférences d'un utilisateur ou de déterminer les caractéristiques d'un ensemble de données non étiqueté. Le clustering, d'une certaine manière, aide à donner du sens au chaos, comme un tiroir à chaussettes.\n", "\n", "Dans un cadre professionnel, le clustering peut être utilisé pour déterminer des segments de marché, comme identifier quels groupes d'âge achètent quels articles, par exemple. Une autre utilisation serait la détection d'anomalies, peut-être pour repérer des fraudes dans un ensemble de données de transactions par carte de crédit. Ou encore, vous pourriez utiliser le clustering pour identifier des tumeurs dans un lot de scans médicaux.\n", "\n", "✅ Prenez une minute pour réfléchir à la manière dont vous avez pu rencontrer le clustering 'dans la nature', dans un contexte bancaire, e-commerce ou commercial.\n", "\n", "> 🎓 Fait intéressant, l'analyse de clusters a vu le jour dans les domaines de l'anthropologie et de la psychologie dans les années 1930. Pouvez-vous imaginer comment elle aurait pu être utilisée ?\n", "\n", "Alternativement, vous pourriez l'utiliser pour regrouper des résultats de recherche - par liens d'achat, images ou avis, par exemple. Le clustering est utile lorsque vous avez un grand ensemble de données que vous souhaitez réduire et sur lequel vous voulez effectuer une analyse plus détaillée. Cette technique peut donc être utilisée pour mieux comprendre les données avant de construire d'autres modèles.\n", "\n", "✅ Une fois vos données organisées en clusters, vous leur attribuez un identifiant de cluster. Cette technique peut être utile pour préserver la confidentialité d'un ensemble de données ; vous pouvez alors vous référer à un point de données par son identifiant de cluster, plutôt que par des données identifiables plus révélatrices. Pouvez-vous penser à d'autres raisons pour lesquelles vous préféreriez utiliser un identifiant de cluster plutôt que d'autres éléments du cluster pour l'identifier ?\n", "\n", "### Premiers pas avec le clustering\n", "\n", "> 🎓 La manière dont nous créons des clusters dépend beaucoup de la façon dont nous regroupons les points de données en groupes. Décomposons un peu le vocabulaire :\n", ">\n", "> 🎓 ['Transductif' vs. 'inductif'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> L'inférence transductive est dérivée des cas d'entraînement observés qui correspondent à des cas de test spécifiques. L'inférence inductive est dérivée des cas d'entraînement qui mènent à des règles générales, lesquelles sont ensuite appliquées aux cas de test.\n", ">\n", "> Un exemple : Imaginez que vous avez un ensemble de données partiellement étiqueté. Certains éléments sont des 'disques', d'autres des 'CD', et certains sont vides. Votre tâche est de fournir des étiquettes pour les éléments vides. Si vous choisissez une approche inductive, vous entraîneriez un modèle à rechercher des 'disques' et des 'CD', et appliqueriez ces étiquettes aux données non étiquetées. Cette approche aurait du mal à classer des éléments qui sont en réalité des 'cassettes'. Une approche transductive, en revanche, gère ces données inconnues plus efficacement en regroupant des éléments similaires et en appliquant ensuite une étiquette à un groupe. Dans ce cas, les clusters pourraient refléter 'objets musicaux ronds' et 'objets musicaux carrés'.\n", ">\n", "> 🎓 ['Géométrie non plate' vs. 'plate'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Tirée de la terminologie mathématique, la géométrie non plate vs. plate fait référence à la mesure des distances entre les points par des méthodes géométriques 'plates' ([Euclidiennes](https://wikipedia.org/wiki/G%C3%A9om%C3%A9trie_euclidienne)) ou 'non plates' (non Euclidiennes).\n", ">\n", "> 'Plate' dans ce contexte fait référence à la géométrie Euclidienne (dont certaines parties sont enseignées comme la géométrie 'plane'), et 'non plate' fait référence à la géométrie non Euclidienne. Quel rapport avec l'apprentissage automatique ? Eh bien, en tant que deux domaines enracinés dans les mathématiques, il doit y avoir une manière commune de mesurer les distances entre les points dans les clusters, et cela peut être fait de manière 'plate' ou 'non plate', selon la nature des données. Les [distances Euclidiennes](https://wikipedia.org/wiki/Distance_euclidienne) sont mesurées comme la longueur d'un segment de ligne entre deux points. Les [distances non Euclidiennes](https://wikipedia.org/wiki/G%C3%A9om%C3%A9trie_non_euclidienne) sont mesurées le long d'une courbe. Si vos données, visualisées, semblent ne pas exister sur un plan, vous pourriez avoir besoin d'utiliser un algorithme spécialisé pour les traiter.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"