{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigerialainen musiikki Spotifyssa - analyysi**\n", "\n", "Klusterointi on eräänlainen [valvomaton oppiminen](https://wikipedia.org/wiki/Unsupervised_learning), joka olettaa, että datasetti on merkitsemätön tai että sen syötteet eivät ole yhdistetty ennalta määriteltyihin tuloksiin. Se käyttää erilaisia algoritmeja käydäkseen läpi merkitsemätöntä dataa ja luodakseen ryhmiä datasta havaitsemiensa kuvioiden perusteella.\n", "\n", "[**Esiluennon kysely**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Johdanto**\n", "\n", "[Klusterointi](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) on erittäin hyödyllinen datan tutkimiseen. Katsotaanpa, voiko se auttaa löytämään trendejä ja kuvioita siitä, miten nigerialaiset yleisöt kuluttavat musiikkia.\n", "\n", "> ✅ Mieti hetki klusteroinnin käyttötarkoituksia. Arkielämässä klusterointi tapahtuu aina, kun sinulla on kasa pyykkiä ja sinun täytyy lajitella perheenjäsenten vaatteet 🧦👕👖🩲. Data-analytiikassa klusterointi tapahtuu, kun yritetään analysoida käyttäjän mieltymyksiä tai määrittää minkä tahansa merkitsemättömän datasetin ominaisuuksia. Klusterointi auttaa tavallaan tuomaan järjestystä kaaokseen, kuten sukkalaatikkoon.\n", "\n", "Ammatillisessa ympäristössä klusterointia voidaan käyttää esimerkiksi markkinasegmentointiin, kuten määrittämään, mitkä ikäryhmät ostavat mitäkin tuotteita. Toinen käyttötarkoitus voisi olla poikkeavuuksien havaitseminen, esimerkiksi luottokorttitapahtumien datasetistä petosten tunnistamiseen. Tai klusterointia voisi käyttää kasvainten tunnistamiseen lääketieteellisten skannauksien joukosta.\n", "\n", "✅ Mieti hetki, miten olet saattanut kohdata klusterointia \"luonnossa\", esimerkiksi pankkitoiminnassa, verkkokaupassa tai liiketoiminnassa.\n", "\n", "> 🎓 Mielenkiintoista on, että klusterianalyysi sai alkunsa antropologian ja psykologian aloilla 1930-luvulla. Voitko kuvitella, miten sitä saatettiin käyttää?\n", "\n", "Vaihtoehtoisesti sitä voisi käyttää hakutulosten ryhmittelyyn - esimerkiksi ostoslinkkien, kuvien tai arvostelujen mukaan. Klusterointi on hyödyllistä, kun sinulla on suuri datasetti, jonka haluat pienentää ja jolle haluat tehdä tarkempaa analyysiä. Tekniikkaa voidaan käyttää datan tutkimiseen ennen muiden mallien rakentamista.\n", "\n", "✅ Kun datasi on järjestetty klustereihin, sille annetaan klusteri-ID, ja tämä tekniikka voi olla hyödyllinen datasetin yksityisyyden säilyttämisessä; voit viitata datapisteeseen klusteri-ID:n avulla sen sijaan, että käyttäisit paljastavampia tunnistettavia tietoja. Voitko keksiä muita syitä, miksi käyttäisit klusteri-ID:tä sen sijaan, että viittaisit klusterin muihin elementteihin?\n", "\n", "### Klusteroinnin aloittaminen\n", "\n", "> 🎓 Klusterien luominen liittyy vahvasti siihen, miten datan pisteet ryhmitellään. Puretaanpa hieman sanastoa:\n", ">\n", "> 🎓 ['Transduktiivinen' vs. 'induktiivinen'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transduktiivinen päättely johdetaan havaituista harjoitustapauksista, jotka vastaavat tiettyjä testitapauksia. Induktiivinen päättely johdetaan harjoitustapauksista, jotka johtavat yleisiin sääntöihin, joita sovelletaan vasta testitapauksiin.\n", ">\n", "> Esimerkki: Kuvittele, että sinulla on datasetti, joka on vain osittain merkitty. Jotkut asiat ovat 'levyjä', jotkut 'CD-levyjä', ja jotkut ovat tyhjiä. Tehtäväsi on antaa tyhjille kohteille merkinnät. Jos valitset induktiivisen lähestymistavan, kouluttaisit mallin etsimään 'levyjä' ja 'CD-levyjä' ja soveltaisit näitä merkintöjä merkitsemättömään dataan. Tämä lähestymistapa kohtaisi vaikeuksia luokitella asioita, jotka ovat oikeasti 'kasetteja'. Transduktiivinen lähestymistapa sen sijaan käsittelee tuntematonta dataa tehokkaammin, koska se pyrkii ryhmittelemään samankaltaiset kohteet yhteen ja antaa ryhmälle merkinnän. Tässä tapauksessa klusterit saattaisivat kuvastaa 'pyöreitä musiikkiesineitä' ja 'neliömäisiä musiikkiesineitä'.\n", ">\n", "> 🎓 ['Ei-tasainen' vs. 'tasainen geometria'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Matemaattisesta terminologiasta johdettuna ei-tasainen vs. tasainen geometria viittaa pisteiden välisten etäisyyksien mittaamiseen joko 'tasaisilla' ([euklidisilla](https://wikipedia.org/wiki/Euclidean_geometry)) tai 'ei-tasaisilla' (ei-euklidisilla) geometrisilla menetelmillä.\n", ">\n", "> 'Tasainen' tässä yhteydessä viittaa euklidiseen geometriaan (osaa siitä opetetaan 'tasogeometriana'), ja ei-tasainen viittaa ei-euklidiseen geometriaan. Mitä geometrialla on tekemistä koneoppimisen kanssa? No, koska molemmat alat perustuvat matematiikkaan, täytyy olla yhteinen tapa mitata pisteiden välisiä etäisyyksiä klustereissa, ja tämä voidaan tehdä 'tasaisella' tai 'ei-tasaisella' tavalla datan luonteen mukaan. [Euklidiset etäisyydet](https://wikipedia.org/wiki/Euclidean_distance) mitataan kahden pisteen välisenä viivan pituutena. [Ei-euklidiset etäisyydet](https://wikipedia.org/wiki/Non-Euclidean_geometry) mitataan käyrän pitkin. Jos datasi, visualisoituna, ei näytä olevan tasossa, saatat tarvita erikoistuneen algoritmin sen käsittelemiseen.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"