{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigerijska glazba prikupljena sa Spotifyja - analiza**\n", "\n", "Klasteriranje je vrsta [nenadziranog učenja](https://wikipedia.org/wiki/Unsupervised_learning) koja pretpostavlja da je skup podataka neoznačen ili da njegovi ulazi nisu povezani s unaprijed definiranim izlazima. Koristi razne algoritme za analizu neoznačenih podataka i pruža grupiranja prema obrascima koje prepoznaje u podacima.\n", "\n", "[**Kviz prije predavanja**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Uvod**\n", "\n", "[Klasteriranje](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je vrlo korisno za istraživanje podataka. Pogledajmo može li pomoći u otkrivanju trendova i obrazaca u načinu na koji nigerijska publika konzumira glazbu.\n", "\n", "> ✅ Odvojite trenutak da razmislite o primjenama klasteriranja. U stvarnom životu, klasteriranje se događa kad imate hrpu rublja i trebate razvrstati odjeću članova obitelji 🧦👕👖🩲. U znanosti o podacima, klasteriranje se događa pri analizi korisničkih preferencija ili određivanju karakteristika bilo kojeg neoznačenog skupa podataka. Klasteriranje, na neki način, pomaže u stvaranju reda iz kaosa, poput ladice za čarape.\n", "\n", "U profesionalnom okruženju, klasteriranje se može koristiti za određivanje stvari poput segmentacije tržišta, primjerice za utvrđivanje koje dobne skupine kupuju koje proizvode. Druga primjena mogla bi biti otkrivanje anomalija, možda za otkrivanje prijevara u skupu podataka o transakcijama kreditnim karticama. Ili biste mogli koristiti klasteriranje za određivanje tumora u seriji medicinskih skenova.\n", "\n", "✅ Razmislite na trenutak o tome kako ste možda naišli na klasteriranje 'u divljini', u bankarstvu, e-trgovini ili poslovnom okruženju.\n", "\n", "> 🎓 Zanimljivo je da je analiza klastera nastala u područjima antropologije i psihologije 1930-ih. Možete li zamisliti kako se mogla koristiti?\n", "\n", "Alternativno, mogli biste je koristiti za grupiranje rezultata pretraživanja - prema poveznicama za kupovinu, slikama ili recenzijama, na primjer. Klasteriranje je korisno kada imate veliki skup podataka koji želite smanjiti i na kojem želite provesti detaljniju analizu, pa se tehnika može koristiti za upoznavanje podataka prije nego što se izgrade drugi modeli.\n", "\n", "✅ Kada su vaši podaci organizirani u klastere, dodjeljujete im identifikator klastera, a ova tehnika može biti korisna pri očuvanju privatnosti skupa podataka; umjesto da se referirate na podatkovnu točku pomoću otkrivajućih identifikacijskih podataka, možete koristiti identifikator klastera. Možete li smisliti druge razloge zašto biste koristili identifikator klastera umjesto drugih elemenata klastera za identifikaciju?\n", "\n", "### Početak rada s klasteriranjem\n", "\n", "> 🎓 Način na koji stvaramo klastere uvelike ovisi o tome kako grupiramo podatkovne točke. Razjasnimo neke pojmove:\n", ">\n", "> 🎓 ['Transduktivno' naspram 'induktivno'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transduktivno zaključivanje proizlazi iz promatranih slučajeva obuke koji se mapiraju na specifične testne slučajeve. Induktivno zaključivanje proizlazi iz slučajeva obuke koji se mapiraju na opća pravila koja se tek tada primjenjuju na testne slučajeve.\n", ">\n", "> Primjer: Zamislite da imate skup podataka koji je samo djelomično označen. Neke stvari su 'ploče', neke 'CD-i', a neke su prazne. Vaš zadatak je dodijeliti oznake praznim podacima. Ako odaberete induktivni pristup, trenirali biste model tražeći 'ploče' i 'CD-e' te primijenili te oznake na neoznačene podatke. Ovaj pristup imat će poteškoća u klasifikaciji stvari koje su zapravo 'kazete'. Transduktivni pristup, s druge strane, učinkovitije obrađuje ove nepoznate podatke jer radi na grupiranju sličnih stavki i zatim primjenjuje oznaku na grupu. U ovom slučaju, klasteri bi mogli odražavati 'okrugle glazbene stvari' i 'kvadratne glazbene stvari'.\n", ">\n", "> 🎓 ['Neravna' naspram 'ravna' geometrija](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Izvedeno iz matematičke terminologije, neravna naspram ravna geometrija odnosi se na mjerenje udaljenosti između točaka pomoću 'ravnih' ([Euklidskih](https://wikipedia.org/wiki/Euclidean_geometry)) ili 'neravnih' (ne-Euklidskih) geometrijskih metoda.\n", ">\n", "> 'Ravna' u ovom kontekstu odnosi se na Euklidsku geometriju (dijelovi koje se uče kao 'planimetrija'), a neravna se odnosi na ne-Euklidsku geometriju. Što geometrija ima s učenjem strojeva? Pa, kao dva područja koja su ukorijenjena u matematici, mora postojati zajednički način mjerenja udaljenosti između točaka u klasterima, a to se može učiniti na 'ravni' ili 'neravni' način, ovisno o prirodi podataka. [Euklidske udaljenosti](https://wikipedia.org/wiki/Euclidean_distance) mjere se kao duljina segmenta između dvije točke. [Ne-Euklidske udaljenosti](https://wikipedia.org/wiki/Non-Euclidean_geometry) mjere se duž krivulje. Ako se vaši podaci, vizualizirani, čine kao da ne postoje na ravnini, možda ćete trebati koristiti specijalizirani algoritam za njihovu obradu.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"