{ "cells": [ { "cell_type": "markdown", "source": [ "## **Muzica nigeriană extrasă de pe Spotify - o analiză**\n", "\n", "Clusteringul este un tip de [Învățare Nesupervizată](https://wikipedia.org/wiki/Unsupervised_learning) care presupune că un set de date nu este etichetat sau că intrările sale nu sunt asociate cu rezultate predefinite. Folosește diverse algoritmi pentru a analiza datele neetichetate și a oferi grupări în funcție de modelele pe care le identifică în date.\n", "\n", "[**Chestionar înainte de lecție**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Introducere**\n", "\n", "[Clusteringul](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) este foarte util pentru explorarea datelor. Să vedem dacă poate ajuta la descoperirea tendințelor și modelelor în modul în care publicul nigerian consumă muzică.\n", "\n", "> ✅ Ia un minut să te gândești la utilizările clusteringului. În viața reală, clusteringul se întâmplă ori de câte ori ai o grămadă de rufe și trebuie să sortezi hainele membrilor familiei tale 🧦👕👖🩲. În știința datelor, clusteringul se întâmplă atunci când încerci să analizezi preferințele unui utilizator sau să determini caracteristicile unui set de date neetichetat. Clusteringul, într-un fel, ajută la organizarea haosului, cum ar fi un sertar de șosete.\n", "\n", "Într-un mediu profesional, clusteringul poate fi utilizat pentru a determina lucruri precum segmentarea pieței, identificarea grupelor de vârstă care cumpără anumite produse, de exemplu. O altă utilizare ar fi detectarea anomaliilor, poate pentru a identifica fraude într-un set de date cu tranzacții de carduri de credit. Sau ai putea folosi clusteringul pentru a identifica tumori într-un lot de scanări medicale.\n", "\n", "✅ Gândește-te un minut la modul în care ai întâlnit clusteringul 'în natură', într-un context bancar, de comerț electronic sau de afaceri.\n", "\n", "> 🎓 Interesant, analiza clusterelor a apărut în domeniile Antropologiei și Psihologiei în anii 1930. Îți poți imagina cum ar fi fost utilizată?\n", "\n", "Alternativ, ai putea să-l folosești pentru gruparea rezultatelor căutării - după linkuri de cumpărături, imagini sau recenzii, de exemplu. Clusteringul este util atunci când ai un set de date mare pe care vrei să-l reduci și pe care vrei să efectuezi o analiză mai detaliată, astfel încât tehnica poate fi utilizată pentru a învăța despre date înainte de a construi alte modele.\n", "\n", "✅ Odată ce datele tale sunt organizate în clustere, le atribui un Id de cluster, iar această tehnică poate fi utilă pentru a păstra confidențialitatea unui set de date; poți să te referi la un punct de date prin Id-ul său de cluster, mai degrabă decât prin date identificabile mai revelatoare. Poți să te gândești la alte motive pentru care ai prefera să te referi la un Id de cluster în loc de alte elemente ale clusterului pentru identificare?\n", "\n", "### Începerea cu clusteringul\n", "\n", "> 🎓 Modul în care creăm clustere are mult de-a face cu modul în care grupăm punctele de date în grupuri. Să deslușim câteva concepte:\n", ">\n", "> 🎓 ['Transductiv' vs. 'inductiv'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Inferența transductivă este derivată din cazurile de antrenament observate care se mapază la cazuri de testare specifice. Inferența inductivă este derivată din cazurile de antrenament care se mapază la reguli generale care sunt aplicate ulterior cazurilor de testare.\n", ">\n", "> Un exemplu: Imaginează-ți că ai un set de date care este doar parțial etichetat. Unele lucruri sunt 'discuri', altele 'cd-uri', iar unele sunt goale. Sarcina ta este să oferi etichete pentru cele goale. Dacă alegi o abordare inductivă, ai antrena un model căutând 'discuri' și 'cd-uri' și ai aplica aceste etichete datelor neetichetate. Această abordare va avea dificultăți în clasificarea lucrurilor care sunt de fapt 'casete'. O abordare transductivă, pe de altă parte, gestionează aceste date necunoscute mai eficient, deoarece lucrează pentru a grupa obiecte similare împreună și apoi aplică o etichetă unui grup. În acest caz, clusterele ar putea reflecta 'lucruri muzicale rotunde' și 'lucruri muzicale pătrate'.\n", ">\n", "> 🎓 ['Geometrie neplată' vs. 'geometrie plată'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Derivată din terminologia matematică, geometria neplată vs. plată se referă la măsurarea distanțelor între puncte fie prin metode geometrice 'plate' ([Euclidiene](https://wikipedia.org/wiki/Euclidean_geometry)) fie 'neplate' (non-Euclidiene).\n", ">\n", "> 'Plat' în acest context se referă la geometria Euclidiană (părți din care sunt predate ca geometrie 'plană'), iar neplat se referă la geometria non-Euclidiană. Ce legătură are geometria cu învățarea automată? Ei bine, ca două domenii care sunt bazate pe matematică, trebuie să existe o modalitate comună de a măsura distanțele între puncte în clustere, iar acest lucru poate fi făcut într-un mod 'plat' sau 'neplat', în funcție de natura datelor. [Distanțele Euclidiene](https://wikipedia.org/wiki/Euclidean_distance) sunt măsurate ca lungimea unui segment de linie între două puncte. [Distanțele non-Euclidiene](https://wikipedia.org/wiki/Non-Euclidean_geometry) sunt măsurate de-a lungul unei curbe. Dacă datele tale, vizualizate, par să nu existe pe un plan, s-ar putea să fie nevoie să folosești un algoritm specializat pentru a le gestiona.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"