{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigeriansk musikk hentet fra Spotify - en analyse**\n", "\n", "Clustering er en type [usupervisert læring](https://wikipedia.org/wiki/Unsupervised_learning) som forutsetter at et datasett er umerket, eller at inngangene ikke er koblet til forhåndsdefinerte utganger. Det bruker ulike algoritmer for å sortere gjennom umerkede data og gi grupperinger basert på mønstre det oppdager i dataene.\n", "\n", "[**Quiz før forelesning**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Introduksjon**\n", "\n", "[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) er svært nyttig for datautforskning. La oss se om det kan hjelpe oss med å oppdage trender og mønstre i hvordan nigerianske lyttere konsumerer musikk.\n", "\n", "> ✅ Ta et øyeblikk til å tenke på bruksområdene for clustering. I hverdagen skjer clustering når du har en haug med klesvask og må sortere klærne til familiemedlemmene dine 🧦👕👖🩲. I dataanalyse skjer clustering når man prøver å analysere brukerpreferanser eller bestemme egenskapene til et umerket datasett. Clustering hjelper på en måte med å skape orden i kaos, som i en sokkeskuff.\n", "\n", "I en profesjonell sammenheng kan clustering brukes til ting som markedssegmentering, for eksempel for å finne ut hvilke aldersgrupper som kjøper hvilke varer. Et annet bruksområde kan være å oppdage avvik, som for eksempel å avsløre svindel i et datasett med kredittkorttransaksjoner. Eller du kan bruke clustering til å identifisere svulster i en samling medisinske skanninger.\n", "\n", "✅ Tenk et øyeblikk på hvordan du kan ha støtt på clustering i praksis, enten i bank, e-handel eller forretningssammenheng.\n", "\n", "> 🎓 Interessant nok oppsto clusteranalyse innen antropologi og psykologi på 1930-tallet. Kan du forestille deg hvordan det kan ha blitt brukt?\n", "\n", "Alternativt kan du bruke det til å gruppere søkeresultater – for eksempel etter shoppinglenker, bilder eller anmeldelser. Clustering er nyttig når du har et stort datasett som du ønsker å redusere og analysere mer detaljert, slik at teknikken kan brukes til å lære om data før andre modeller bygges.\n", "\n", "✅ Når dataene dine er organisert i klynger, tildeler du dem en cluster-ID. Denne teknikken kan være nyttig for å bevare et datasets personvern; du kan referere til et datapunkt med cluster-ID-en i stedet for mer avslørende identifiserbare data. Kan du tenke på andre grunner til å bruke en cluster-ID i stedet for andre elementer i klyngen for å identifisere den?\n", "\n", "### Komme i gang med clustering\n", "\n", "> 🎓 Hvordan vi lager klynger har mye å gjøre med hvordan vi samler datapunktene i grupper. La oss se nærmere på noen begreper:\n", ">\n", "> 🎓 ['Transduktiv' vs. 'induktiv'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transduktiv inferens er avledet fra observerte treningsdata som kartlegges til spesifikke testdata. Induktiv inferens er avledet fra treningsdata som kartlegges til generelle regler som deretter brukes på testdata.\n", ">\n", "> Et eksempel: Tenk deg at du har et datasett som bare er delvis merket. Noen ting er 'plater', noen 'CD-er', og noen er blanke. Oppgaven din er å gi etiketter til de blanke. Hvis du velger en induktiv tilnærming, vil du trene en modell for å finne 'plater' og 'CD-er' og bruke disse etikettene på de umerkede dataene. Denne tilnærmingen vil ha problemer med å klassifisere ting som faktisk er 'kassetter'. En transduktiv tilnærming håndterer derimot ukjente data mer effektivt ved å gruppere lignende elementer sammen og deretter tildele en etikett til en gruppe. I dette tilfellet kan klynger reflektere 'runde musikalske ting' og 'firkantede musikalske ting'.\n", ">\n", "> 🎓 ['Ikke-flat' vs. 'flat' geometri](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Avledet fra matematisk terminologi refererer ikke-flat vs. flat geometri til måling av avstander mellom punkter ved enten 'flat' ([Euklidsk](https://wikipedia.org/wiki/Euclidean_geometry)) eller 'ikke-flat' (ikke-Euklidsk) geometriske metoder.\n", ">\n", "> 'Flat' i denne sammenhengen refererer til Euklidsk geometri (deler av dette læres som 'plan' geometri), og ikke-flat refererer til ikke-Euklidsk geometri. Hva har geometri med maskinlæring å gjøre? Vel, som to felt som er forankret i matematikk, må det finnes en felles måte å måle avstander mellom punkter i klynger, og det kan gjøres på en 'flat' eller 'ikke-flat' måte, avhengig av dataens natur. [Euklidske avstander](https://wikipedia.org/wiki/Euclidean_distance) måles som lengden på en linjesegment mellom to punkter. [Ikke-Euklidske avstander](https://wikipedia.org/wiki/Non-Euclidean_geometry) måles langs en kurve. Hvis dataene dine, visualisert, ikke ser ut til å eksistere på et plan, kan det hende du må bruke en spesialisert algoritme for å håndtere det.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"