{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigerijska glasba pridobljena s Spotifyja - analiza**\n", "\n", "Grozdanje je vrsta [nenadzorovanega učenja](https://wikipedia.org/wiki/Unsupervised_learning), ki predpostavlja, da je podatkovni niz neoznačen ali da njegovi vnosi niso povezani z vnaprej določenimi izhodi. Uporablja različne algoritme za razvrščanje neoznačenih podatkov in zagotavljanje skupin glede na vzorce, ki jih zazna v podatkih.\n", "\n", "[**Predhodni kviz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Uvod**\n", "\n", "[Grozdanje](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je zelo uporabno za raziskovanje podatkov. Poglejmo, ali lahko pomaga odkriti trende in vzorce v načinu, kako nigerijsko občinstvo posluša glasbo.\n", "\n", "> ✅ Vzemite si trenutek in razmislite o uporabi grozdanja. V vsakdanjem življenju se grozdanje zgodi, kadar imate kup perila in morate razvrstiti oblačila družinskih članov 🧦👕👖🩲. V podatkovni znanosti se grozdanje zgodi, ko poskušate analizirati uporabnikove preference ali določiti značilnosti katerega koli neoznačenega podatkovnega niza. Grozdanje na nek način pomaga ustvariti red iz kaosa, kot je predal za nogavice.\n", "\n", "V profesionalnem okolju se grozdanje lahko uporablja za določanje stvari, kot je segmentacija trga, na primer za ugotavljanje, katere starostne skupine kupujejo določene izdelke. Druga uporaba bi bila odkrivanje anomalij, morda za zaznavanje goljufij v podatkovnem nizu transakcij s kreditnimi karticami. Lahko pa uporabite grozdanje za določanje tumorjev v seriji medicinskih skenov.\n", "\n", "✅ Razmislite za trenutek, kako ste morda naleteli na grozdanje 'v naravi', v bančništvu, e-trgovini ali poslovnem okolju.\n", "\n", "> 🎓 Zanimivo je, da analiza grozdov izvira iz področij antropologije in psihologije v 1930-ih. Si lahko predstavljate, kako bi jo takrat uporabljali?\n", "\n", "Alternativno bi jo lahko uporabili za razvrščanje rezultatov iskanja - na primer po nakupovalnih povezavah, slikah ali ocenah. Grozdanje je uporabno, kadar imate velik podatkovni niz, ki ga želite zmanjšati in na katerem želite opraviti bolj podrobno analizo, zato se tehnika lahko uporablja za spoznavanje podatkov, preden se zgradijo drugi modeli.\n", "\n", "✅ Ko so vaši podatki organizirani v grozde, jim dodelite ID grozda, kar je lahko uporabno pri ohranjanju zasebnosti podatkovnega niza; namesto bolj razkrivajočih identifikacijskih podatkov lahko uporabite ID grozda za sklicevanje na podatkovno točko. Ali lahko pomislite na druge razloge, zakaj bi za identifikacijo raje uporabili ID grozda kot druge elemente grozda?\n", "\n", "### Začetek z grozdanjem\n", "\n", "> 🎓 Način, kako ustvarimo grozde, je močno povezan s tem, kako združimo podatkovne točke v skupine. Razčistimo nekaj terminologije:\n", ">\n", "> 🎓 ['Transduktivno' vs. 'induktivno'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transduktivno sklepanje izhaja iz opazovanih primerov usposabljanja, ki se preslikajo na specifične testne primere. Induktivno sklepanje izhaja iz primerov usposabljanja, ki se preslikajo na splošna pravila, ki se nato uporabijo na testnih primerih.\n", ">\n", "> Primer: Predstavljajte si, da imate podatkovni niz, ki je le delno označen. Nekatere stvari so 'plošče', nekatere 'CD-ji', nekatere pa so prazne. Vaša naloga je dodeliti oznake praznim. Če izberete induktivni pristop, bi usposobili model za iskanje 'plošč' in 'CD-jev' ter te oznake uporabili na neoznačenih podatkih. Ta pristop bo imel težave pri razvrščanju stvari, ki so dejansko 'kasete'. Transduktivni pristop pa bo to neznano podatkovno točko obravnaval bolj učinkovito, saj deluje tako, da združi podobne predmete in nato skupini dodeli oznako. V tem primeru bi grozdi lahko odražali 'okrogle glasbene stvari' in 'kvadratne glasbene stvari'.\n", ">\n", "> 🎓 ['Neploskovna' vs. 'ploskovna' geometrija](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Izpeljano iz matematične terminologije, neploskovna vs. ploskovna geometrija se nanaša na merjenje razdalj med točkami bodisi s 'ploskovnimi' ([Evklidskimi](https://wikipedia.org/wiki/Euclidean_geometry)) bodisi z neploskovnimi (neevklidskimi) geometrijskimi metodami.\n", ">\n", "> 'Ploskovna' v tem kontekstu se nanaša na evklidsko geometrijo (deli katere se učijo kot 'ravninska' geometrija), medtem ko se neploskovna nanaša na neevklidsko geometrijo. Kaj ima geometrija skupnega z strojno učenje? Kot dve področji, ki temeljita na matematiki, mora obstajati skupen način za merjenje razdalj med točkami v grozdih, kar se lahko izvede na 'ploskovni' ali 'neploskovni' način, odvisno od narave podatkov. [Evklidske razdalje](https://wikipedia.org/wiki/Euclidean_distance) se merijo kot dolžina odseka med dvema točkama. [Neevklidske razdalje](https://wikipedia.org/wiki/Non-Euclidean_geometry) se merijo vzdolž krivulje. Če se vaši podatki, vizualizirani, ne nahajajo na ravnini, boste morda morali uporabiti specializiran algoritem za obdelavo.\n", ">\n", "> 🎓 ['Razdalje'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)\n", ">\n", "> Grozdi so opredeljeni z matriko razdalj, npr. razdaljami med točkami. Te razdalje je mogoče meriti na več načinov. Evklidski grozdi so opredeljeni z povprečjem vrednosti točk in vsebujejo 'centroid' ali osrednjo točko. Razdalje se tako merijo glede na razdaljo do tega centroida. Neevklidske razdalje se nanašajo na 'clustroid', točko, ki je najbližja drugim točkam. Clustroidi so lahko opredeljeni na različne načine.\n", ">\n", "> 🎓 ['Omejeno'](https://wikipedia.org/wiki/Constrained_clustering)\n", ">\n", "> [Omejeno grozdanje](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) uvaja 'polnadzorovano' učenje v to nenadzorovano metodo. Razmerja med točkami so označena kot 'ne smejo se povezati' ali 'morajo se povezati', tako da se na podatkovni niz uvedejo določena pravila.\n", ">\n", "> Primer: Če je algoritem sproščen na serijo neoznačenih ali delno označenih podatkov, so lahko grozdi, ki jih ustvari, slabe kakovosti. V zgornjem primeru bi grozdi lahko združevali 'okrogle glasbene stvari', 'kvadratne glasbene stvari', 'trikotne stvari' in 'piškote'. Če se uvedejo določene omejitve ali pravila (\"predmet mora biti iz plastike\", \"predmet mora biti sposoben proizvajati glasbo\"), to lahko pomaga 'omejiti' algoritem, da sprejema boljše odločitve.\n", ">\n", "> 🎓 'Gostota'\n", ">\n", "> Podatki, ki so 'hrupni', se štejejo za 'goste'. Razdalje med točkami v vsakem od njegovih grozdov se lahko ob pregledu izkažejo za bolj ali manj goste ali 'natrpane', zato je treba te podatke analizirati z ustrezno metodo grozdanja. [Ta članek](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) prikazuje razliko med uporabo algoritmov K-Means grozdanja in HDBSCAN za raziskovanje hrupnega podatkovnega niza z neenakomerno gostoto grozdov.\n", "\n", "Poglobite svoje razumevanje tehnik grozdanja v tem [učnem modulu](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott)\n", "\n", "### **Algoritmi grozdanja**\n", "\n", "Obstaja več kot 100 algoritmov za grozdanje, njihova uporaba pa je odvisna od narave podatkov. Oglejmo si nekatere glavne:\n", "\n", "- **Hierarhično grozdanje**. Če je predmet razvrščen glede na svojo bližino bližnjemu predmetu, namesto bolj oddaljenemu, se grozdi oblikujejo na podlagi razdalje med člani. Hierarhično grozdanje je značilno po tem, da se dva grozda večkrat združita.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"