{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigerijská hudba zozbieraná zo Spotify - analýza**\n", "\n", "Clustering je typ [neučenej metódy](https://wikipedia.org/wiki/Unsupervised_learning), ktorá predpokladá, že dataset nie je označený alebo že jeho vstupy nie sú spojené s preddefinovanými výstupmi. Používa rôzne algoritmy na triedenie neoznačených dát a poskytuje skupiny podľa vzorov, ktoré rozpozná v dátach.\n", "\n", "[**Kvíz pred prednáškou**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Úvod**\n", "\n", "[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je veľmi užitočný na prieskum dát. Pozrime sa, či nám môže pomôcť objaviť trendy a vzory v tom, ako nigérijské publikum konzumuje hudbu.\n", "\n", "> ✅ Zamyslite sa na chvíľu nad využitím clusteringu. V reálnom živote clustering nastáva vždy, keď máte kopu bielizne a potrebujete roztriediť oblečenie členov rodiny 🧦👕👖🩲. V dátovej vede clustering nastáva pri analýze preferencií používateľov alebo pri určovaní charakteristík akéhokoľvek neoznačeného datasetu. Clustering pomáha urobiť poriadok v chaose, ako napríklad v zásuvke na ponožky.\n", "\n", "V profesionálnom prostredí sa clustering môže použiť na určenie vecí, ako je segmentácia trhu, napríklad na zistenie, ktoré vekové skupiny kupujú aké produkty. Ďalším využitím by mohlo byť odhaľovanie anomálií, napríklad na detekciu podvodov v datasete transakcií kreditných kariet. Alebo by ste mohli použiť clustering na identifikáciu nádorov v dávke medicínskych skenov.\n", "\n", "✅ Zamyslite sa na chvíľu nad tým, ako ste sa mohli stretnúť s clusteringom „v divočine“, napríklad v bankovníctve, e-commerce alebo podnikateľskom prostredí.\n", "\n", "> 🎓 Zaujímavé je, že analýza klastrov vznikla v oblasti antropológie a psychológie v 30. rokoch 20. storočia. Dokážete si predstaviť, ako mohla byť použitá?\n", "\n", "Alternatívne by ste ju mohli použiť na zoskupovanie výsledkov vyhľadávania – napríklad podľa nákupných odkazov, obrázkov alebo recenzií. Clustering je užitočný, keď máte veľký dataset, ktorý chcete zmenšiť a na ktorom chcete vykonať podrobnejšiu analýzu, takže táto technika môže byť použitá na získanie informácií o dátach pred vytvorením iných modelov.\n", "\n", "✅ Keď sú vaše dáta organizované v klastroch, priradíte im identifikátor klastru. Táto technika môže byť užitočná pri zachovaní súkromia datasetu; namiesto toho môžete odkazovať na dátový bod podľa jeho identifikátora klastru, namiesto odhaľovania identifikovateľných údajov. Dokážete si predstaviť ďalšie dôvody, prečo by ste odkazovali na identifikátor klastru namiesto iných prvkov klastru na jeho identifikáciu?\n", "\n", "### Začíname s clusteringom\n", "\n", "> 🎓 Spôsob, akým vytvárame klastre, má veľa spoločného s tým, ako zhromažďujeme dátové body do skupín. Poďme si rozobrať niektoré pojmy:\n", ">\n", "> 🎓 ['Transduktívny' vs. 'induktívny'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transduktívna inferencia je odvodená z pozorovaných tréningových prípadov, ktoré sa mapujú na konkrétne testovacie prípady. Induktívna inferencia je odvodená z tréningových prípadov, ktoré sa mapujú na všeobecné pravidlá, ktoré sa až potom aplikujú na testovacie prípady.\n", ">\n", "> Príklad: Predstavte si, že máte dataset, ktorý je len čiastočne označený. Niektoré veci sú „platne“, niektoré „CD“ a niektoré sú prázdne. Vašou úlohou je poskytnúť označenia pre prázdne miesta. Ak si zvolíte induktívny prístup, trénovali by ste model hľadajúci „platne“ a „CD“ a aplikovali tieto označenia na neoznačené dáta. Tento prístup bude mať problém klasifikovať veci, ktoré sú vlastne „kazety“. Transduktívny prístup na druhej strane efektívnejšie spracováva tieto neznáme dáta, pretože pracuje na zoskupovaní podobných položiek a potom aplikuje označenie na skupinu. V tomto prípade by klastre mohli odrážať „okrúhle hudobné veci“ a „štvorcové hudobné veci“.\n", ">\n", "> 🎓 ['Nerovinná' vs. 'rovinná' geometria](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Odvodené z matematickej terminológie, nerovinná vs. rovinná geometria sa týka merania vzdialeností medzi bodmi buď „rovinnými“ ([Euklidovskými](https://wikipedia.org/wiki/Euclidean_geometry)) alebo „nerovinnými“ (ne-Euklidovskými) geometrickými metódami.\n", ">\n", "> „Rovinná“ v tomto kontexte odkazuje na Euklidovskú geometriu (časti ktorej sa učia ako „plánová“ geometria) a nerovinná odkazuje na ne-Euklidovskú geometriu. Čo má geometria spoločné s machine learningom? No, ako dve oblasti zakorenené v matematike, musí existovať spoločný spôsob merania vzdialeností medzi bodmi v klastroch, a to sa dá urobiť „rovinným“ alebo „nerovinným“ spôsobom, v závislosti od povahy dát. [Euklidovské vzdialenosti](https://wikipedia.org/wiki/Euclidean_distance) sa merajú ako dĺžka úsečky medzi dvoma bodmi. [Ne-Euklidovské vzdialenosti](https://wikipedia.org/wiki/Non-Euclidean_geometry) sa merajú pozdĺž krivky. Ak vaše dáta, vizualizované, neexistujú na rovine, možno budete potrebovať špecializovaný algoritmus na ich spracovanie.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"