{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigeriansk musik hentet fra Spotify - en analyse**\n", "\n", "Clustering er en type [Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning), der antager, at et datasæt er ulabeleret, eller at dets input ikke er matchet med foruddefinerede output. Det bruger forskellige algoritmer til at sortere gennem ulabeleret data og levere grupperinger baseret på mønstre, det identificerer i dataene.\n", "\n", "[**Quiz før forelæsning**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Introduktion**\n", "\n", "[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) er meget nyttigt til dataudforskning. Lad os se, om det kan hjælpe med at opdage tendenser og mønstre i den måde, nigerianske lyttere forbruger musik på.\n", "\n", "> ✅ Tag et øjeblik til at tænke over anvendelserne af clustering. I hverdagen sker clustering, når du har en bunke vasketøj og skal sortere familiens tøj 🧦👕👖🩲. I datavidenskab sker clustering, når man forsøger at analysere en brugers præferencer eller bestemme egenskaberne for et ulabeleret datasæt. Clustering hjælper på en måde med at skabe orden i kaos, som en rodet sokkeskuffe.\n", "\n", "I en professionel kontekst kan clustering bruges til at bestemme ting som markedssegmentering, f.eks. hvilke aldersgrupper der køber hvilke varer. En anden anvendelse kunne være at opdage anomalier, måske for at afsløre svindel i et datasæt med kreditkorttransaktioner. Eller du kunne bruge clustering til at identificere tumorer i en samling af medicinske scanninger.\n", "\n", "✅ Tænk et øjeblik over, hvordan du måske har stødt på clustering 'i det virkelige liv', i en bank-, e-handels- eller forretningssammenhæng.\n", "\n", "> 🎓 Interessant nok stammer clusteranalyse fra antropologi og psykologi i 1930'erne. Kan du forestille dig, hvordan det kunne være blevet brugt?\n", "\n", "Alternativt kunne du bruge det til at gruppere søgeresultater - f.eks. efter shoppinglinks, billeder eller anmeldelser. Clustering er nyttigt, når du har et stort datasæt, som du vil reducere og analysere mere detaljeret, så teknikken kan bruges til at lære om data, før andre modeller konstrueres.\n", "\n", "✅ Når dine data er organiseret i klynger, tildeler du dem en cluster-id, og denne teknik kan være nyttig til at bevare et datasæts privatliv; du kan i stedet referere til et datapunkt ved dets cluster-id frem for mere afslørende identificerbare data. Kan du komme på andre grunde til, hvorfor du ville referere til et cluster-id frem for andre elementer i klyngen for at identificere det?\n", "\n", "### Kom godt i gang med clustering\n", "\n", "> 🎓 Hvordan vi skaber klynger har meget at gøre med, hvordan vi samler datapunkterne i grupper. Lad os dykke ned i nogle begreber:\n", ">\n", "> 🎓 ['Transduktiv' vs. 'induktiv'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transduktiv inferens er afledt af observerede træningscases, der kortlægges til specifikke testcases. Induktiv inferens er afledt af træningscases, der kortlægges til generelle regler, som først derefter anvendes på testcases.\n", ">\n", "> Et eksempel: Forestil dig, at du har et datasæt, der kun delvist er labeleret. Nogle ting er 'plader', nogle 'cd'er', og nogle er blanke. Din opgave er at give labels til de blanke. Hvis du vælger en induktiv tilgang, ville du træne en model til at finde 'plader' og 'cd'er' og anvende disse labels på dine ulabelerede data. Denne tilgang vil have svært ved at klassificere ting, der faktisk er 'kassetter'. En transduktiv tilgang håndterer derimod denne ukendte data mere effektivt, da den arbejder på at gruppere lignende ting sammen og derefter anvender en label på en gruppe. I dette tilfælde kunne klynger afspejle 'runde musikting' og 'firkantede musikting'.\n", ">\n", "> 🎓 ['Ikke-flad' vs. 'flad' geometri](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Afledt af matematisk terminologi refererer ikke-flad vs. flad geometri til målingen af afstande mellem punkter ved enten 'flade' ([Euclidiske](https://wikipedia.org/wiki/Euclidean_geometry)) eller 'ikke-flade' (ikke-Euclidiske) geometriske metoder.\n", ">\n", "> 'Flad' i denne sammenhæng refererer til Euclidisk geometri (dele af det undervises som 'plan' geometri), og ikke-flad refererer til ikke-Euclidisk geometri. Hvad har geometri med maskinlæring at gøre? Som to felter, der er rodfæstet i matematik, skal der være en fælles måde at måle afstande mellem punkter i klynger, og det kan gøres på en 'flad' eller 'ikke-flad' måde, afhængigt af dataens natur. [Euclidiske afstande](https://wikipedia.org/wiki/Euclidean_distance) måles som længden af en linjesegment mellem to punkter. [Ikke-Euclidiske afstande](https://wikipedia.org/wiki/Non-Euclidean_geometry) måles langs en kurve. Hvis dine data, visualiseret, ikke ser ud til at eksistere på en plan, kan du have brug for en specialiseret algoritme til at håndtere det.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"