{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigeriansk musik hämtad från Spotify - en analys**\n", "\n", "Klustring är en typ av [Oövervakad inlärning](https://wikipedia.org/wiki/Unsupervised_learning) som förutsätter att en dataset är oetiketterad eller att dess indata inte matchas med fördefinierade utdata. Den använder olika algoritmer för att sortera igenom oetiketterad data och skapa grupper baserat på mönster den identifierar i datan.\n", "\n", "[**Quiz före föreläsningen**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Introduktion**\n", "\n", "[Klustring](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) är mycket användbart för datautforskning. Låt oss se om det kan hjälpa oss att upptäcka trender och mönster i hur nigerianska lyssnare konsumerar musik.\n", "\n", "> ✅ Ta en minut och fundera över användningsområden för klustring. I vardagen sker klustring när du har en hög med tvätt och behöver sortera ut familjemedlemmarnas kläder 🧦👕👖🩲. Inom datavetenskap sker klustring när man försöker analysera en användares preferenser eller bestämma egenskaperna hos en oetiketterad dataset. Klustring hjälper på sätt och vis att skapa ordning i kaos, som en strumplåda.\n", "\n", "I en professionell miljö kan klustring användas för att bestämma saker som marknadssegmentering, till exempel vilka åldersgrupper som köper vilka produkter. Ett annat användningsområde kan vara att upptäcka avvikelser, kanske för att identifiera bedrägerier i en dataset med kreditkortstransaktioner. Eller så kan du använda klustring för att identifiera tumörer i en samling medicinska skanningar.\n", "\n", "✅ Fundera en minut på hur du kan ha stött på klustring \"i det vilda\", inom bank, e-handel eller affärsverksamhet.\n", "\n", "> 🎓 Intressant nog har klusteranalys sitt ursprung inom antropologi och psykologi på 1930-talet. Kan du föreställa dig hur det kan ha använts?\n", "\n", "Alternativt kan du använda det för att gruppera sökresultat - till exempel shoppinglänkar, bilder eller recensioner. Klustring är användbart när du har en stor dataset som du vill reducera och analysera mer detaljerat, så tekniken kan användas för att förstå data innan andra modeller konstrueras.\n", "\n", "✅ När din data är organiserad i kluster tilldelar du den ett kluster-ID, och denna teknik kan vara användbar för att bevara en datasets integritet; du kan istället referera till en datapunkt med dess kluster-ID, snarare än med mer avslöjande identifierbar data. Kan du tänka dig andra anledningar till varför du skulle referera till ett kluster-ID istället för andra element i klustret för att identifiera det?\n", "\n", "### Kom igång med klustring\n", "\n", "> 🎓 Hur vi skapar kluster har mycket att göra med hur vi samlar datapunkterna i grupper. Låt oss packa upp lite terminologi:\n", ">\n", "> 🎓 ['Transduktiv' vs. 'induktiv'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transduktiv inferens härleds från observerade träningsfall som kartläggs till specifika testfall. Induktiv inferens härleds från träningsfall som kartläggs till generella regler som sedan tillämpas på testfall.\n", ">\n", "> Ett exempel: Föreställ dig att du har en dataset som bara är delvis etiketterad. Vissa saker är \"skivor\", vissa \"cd-skivor\" och vissa är tomma. Din uppgift är att tilldela etiketter till de tomma. Om du väljer en induktiv metod skulle du träna en modell som letar efter \"skivor\" och \"cd-skivor\" och tillämpa dessa etiketter på din oetiketterade data. Denna metod skulle ha svårt att klassificera saker som faktiskt är \"kassetter\". En transduktiv metod, å andra sidan, hanterar denna okända data mer effektivt eftersom den arbetar för att gruppera liknande objekt och sedan tilldelar en etikett till en grupp. I detta fall kan kluster reflektera \"runda musikföremål\" och \"fyrkantiga musikföremål\".\n", ">\n", "> 🎓 ['Icke-platt' vs. 'platt' geometri](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Härstammar från matematisk terminologi, icke-platt vs. platt geometri hänvisar till mätningen av avstånd mellan punkter antingen med \"platt\" ([Euklidisk](https://wikipedia.org/wiki/Euclidean_geometry)) eller \"icke-platt\" (icke-Euklidisk) geometriska metoder.\n", ">\n", "> \"Platt\" i detta sammanhang hänvisar till Euklidisk geometri (delar av vilken lärs ut som \"plan\" geometri), och icke-platt hänvisar till icke-Euklidisk geometri. Vad har geometri med maskininlärning att göra? Tja, som två områden som är rotade i matematik måste det finnas ett gemensamt sätt att mäta avstånd mellan punkter i kluster, och det kan göras på ett \"platt\" eller \"icke-platt\" sätt, beroende på datans natur. [Euklidiska avstånd](https://wikipedia.org/wiki/Euclidean_distance) mäts som längden på en linjesegment mellan två punkter. [Icke-Euklidiska avstånd](https://wikipedia.org/wiki/Non-Euclidean_geometry) mäts längs en kurva. Om din data, visualiserad, verkar inte existera på en plan, kan du behöva använda en specialiserad algoritm för att hantera den.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"