{ "cells": [ { "cell_type": "markdown", "source": [ "## **Musica Nigeriana estratta da Spotify - un'analisi**\n", "\n", "Il clustering è un tipo di [Apprendimento Non Supervisionato](https://wikipedia.org/wiki/Apprendimento_non_supervisionato) che presuppone che un dataset non sia etichettato o che i suoi input non siano associati a output predefiniti. Utilizza vari algoritmi per analizzare dati non etichettati e fornire raggruppamenti basati sui pattern individuati nei dati.\n", "\n", "[**Quiz pre-lezione**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Introduzione**\n", "\n", "Il [clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) è molto utile per l'esplorazione dei dati. Vediamo se può aiutarci a scoprire tendenze e pattern nel modo in cui il pubblico nigeriano consuma musica.\n", "\n", "> ✅ Prenditi un minuto per riflettere sugli utilizzi del clustering. Nella vita quotidiana, il clustering avviene ogni volta che hai un mucchio di bucato da smistare tra i vestiti dei membri della tua famiglia 🧦👕👖🩲. In data science, il clustering avviene quando si cerca di analizzare le preferenze di un utente o di determinare le caratteristiche di un dataset non etichettato. In un certo senso, il clustering aiuta a dare un senso al caos, come un cassetto di calzini.\n", "\n", "In un contesto professionale, il clustering può essere utilizzato per determinare, ad esempio, la segmentazione del mercato, identificando quali fasce d'età acquistano determinati prodotti. Un altro utilizzo potrebbe essere il rilevamento di anomalie, ad esempio per individuare frodi in un dataset di transazioni con carta di credito. Oppure potresti usarlo per identificare tumori in un lotto di scansioni mediche.\n", "\n", "✅ Rifletti un momento su come potresti aver incontrato il clustering \"nel mondo reale\", in un contesto bancario, di e-commerce o aziendale.\n", "\n", "> 🎓 Curiosamente, l'analisi dei cluster ha avuto origine nei campi dell'Antropologia e della Psicologia negli anni '30. Riesci a immaginare come potrebbe essere stata utilizzata?\n", "\n", "In alternativa, potresti usarla per raggruppare risultati di ricerca - ad esempio per link di shopping, immagini o recensioni. Il clustering è utile quando hai un grande dataset che vuoi ridurre e su cui vuoi eseguire un'analisi più dettagliata, quindi questa tecnica può essere utilizzata per comprendere i dati prima di costruire altri modelli.\n", "\n", "✅ Una volta che i tuoi dati sono organizzati in cluster, assegni loro un Id di cluster, e questa tecnica può essere utile per preservare la privacy di un dataset; puoi fare riferimento a un punto dati tramite il suo Id di cluster, piuttosto che tramite dati identificativi più rivelatori. Riesci a pensare ad altri motivi per cui potresti preferire fare riferimento a un Id di cluster piuttosto che ad altri elementi del cluster per identificarlo?\n", "\n", "### Iniziare con il clustering\n", "\n", "> 🎓 Il modo in cui creiamo i cluster dipende molto da come raggruppiamo i punti dati in gruppi. Esploriamo un po' di vocabolario:\n", ">\n", "> 🎓 ['Transduttivo' vs. 'induttivo'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> L'inferenza transduttiva è derivata da casi di addestramento osservati che si mappano a casi di test specifici. L'inferenza induttiva è derivata da casi di addestramento che si mappano a regole generali, applicate solo successivamente ai casi di test.\n", ">\n", "> Un esempio: Immagina di avere un dataset parzialmente etichettato. Alcuni elementi sono 'dischi', altri 'cd', e altri sono vuoti. Il tuo compito è fornire etichette per i vuoti. Se scegli un approccio induttivo, addestreresti un modello cercando 'dischi' e 'cd', e applicheresti quelle etichette ai dati non etichettati. Questo approccio avrebbe difficoltà a classificare elementi che in realtà sono 'cassette'. Un approccio transduttivo, invece, gestisce questi dati sconosciuti in modo più efficace, lavorando per raggruppare elementi simili e poi applicando un'etichetta a un gruppo. In questo caso, i cluster potrebbero riflettere 'oggetti musicali rotondi' e 'oggetti musicali quadrati'.\n", ">\n", "> 🎓 ['Geometria non piatta' vs. 'piatta'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Derivata dalla terminologia matematica, la geometria non piatta vs. piatta si riferisce alla misura delle distanze tra punti utilizzando metodi geometrici 'piatti' ([Euclidei](https://wikipedia.org/wiki/Geometria_euclidea)) o 'non piatti' (non Euclidei).\n", ">\n", "> 'Piatta' in questo contesto si riferisce alla geometria euclidea (insegnata in parte come 'geometria piana'), mentre 'non piatta' si riferisce alla geometria non euclidea. Cosa c'entra la geometria con il machine learning? Bene, essendo due campi radicati nella matematica, deve esserci un modo comune per misurare le distanze tra punti nei cluster, e ciò può essere fatto in modo 'piatto' o 'non piatto', a seconda della natura dei dati. Le [distanze euclidee](https://wikipedia.org/wiki/Distanza_euclidea) sono misurate come la lunghezza di un segmento di linea tra due punti. Le [distanze non euclidee](https://wikipedia.org/wiki/Geometria_non_euclidea) sono misurate lungo una curva. Se i tuoi dati, visualizzati, sembrano non esistere su un piano, potresti dover utilizzare un algoritmo specializzato per gestirli.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"