{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigériai zene Spotify-ról - egy elemzés**\n", "\n", "A klaszterezés a [felügyelet nélküli tanulás](https://wikipedia.org/wiki/Unsupervised_learning) egyik típusa, amely feltételezi, hogy az adathalmaz címkézetlen, vagy hogy a bemenetek nincsenek előre meghatározott kimenetekhez társítva. Különböző algoritmusokat használ arra, hogy átvizsgálja a címkézetlen adatokat, és csoportosításokat hozzon létre az adatokban észlelt minták alapján.\n", "\n", "[**Előadás előtti kvíz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Bevezetés**\n", "\n", "A [klaszterezés](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) nagyon hasznos az adatok feltárásában. Nézzük meg, hogy segíthet-e trendek és minták felfedezésében a nigériai közönség zenehallgatási szokásai kapcsán.\n", "\n", "> ✅ Gondolkodj el egy percre a klaszterezés felhasználási lehetőségein. A való életben klaszterezés történik, amikor van egy halom szennyesed, és szét kell válogatnod a családtagjaid ruháit 🧦👕👖🩲. Az adatkutatásban klaszterezés történik, amikor egy felhasználó preferenciáit elemzed, vagy egy címkézetlen adathalmaz jellemzőit próbálod meghatározni. A klaszterezés segít rendet teremteni a káoszban, mint például egy zoknis fiókban.\n", "\n", "A szakmai környezetben a klaszterezés felhasználható például piaci szegmentáció meghatározására, például annak megállapítására, hogy mely korcsoportok vásárolnak bizonyos termékeket. Egy másik felhasználási terület lehet az anomália detektálás, például csalás észlelése egy hitelkártya-tranzakciókat tartalmazó adathalmazban. Vagy használhatod a klaszterezést daganatok azonosítására orvosi vizsgálatok során.\n", "\n", "✅ Gondolkodj el egy percre, hogy találkoztál-e már klaszterezéssel a való életben, például banki, e-kereskedelmi vagy üzleti környezetben.\n", "\n", "> 🎓 Érdekes módon a klaszterelemzés az antropológia és pszichológia területén jelent meg először az 1930-as években. El tudod képzelni, hogyan használták?\n", "\n", "Alternatívaként használhatod keresési eredmények csoportosítására - például vásárlási linkek, képek vagy vélemények alapján. A klaszterezés hasznos, ha van egy nagy adathalmazod, amelyet szeretnél csökkenteni, és amelyen részletesebb elemzést szeretnél végezni, így a technika segíthet az adatok megértésében, mielőtt más modelleket építenél.\n", "\n", "✅ Miután az adataid klaszterekbe rendeződtek, hozzárendelhetsz egy klaszterazonosítót, és ez a technika hasznos lehet az adathalmaz adatvédelmének megőrzésében; hivatkozhatsz egy adatpontra a klaszterazonosítója alapján, ahelyett, hogy azonosíthatóbb adatokat használnál. Tudsz más okokat is mondani, hogy miért hivatkoznál egy klaszterazonosítóra a klaszter más elemei helyett?\n", "\n", "### Klaszterezés alapjai\n", "\n", "> 🎓 Az, hogy hogyan hozunk létre klasztereket, nagyban függ attól, hogyan csoportosítjuk az adatpontokat csoportokba. Nézzük meg néhány alapfogalmat:\n", ">\n", "> 🎓 ['Transzduktív' vs. 'induktív'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> A transzduktív következtetés megfigyelt tanulási esetekből származik, amelyek konkrét tesztesetekhez kapcsolódnak. Az induktív következtetés tanulási esetekből származik, amelyek általános szabályokat határoznak meg, és ezeket csak később alkalmazzák tesztesetekre.\n", ">\n", "> Példa: Képzeld el, hogy van egy adathalmazod, amely csak részben van címkézve. Néhány elem 'lemezek', néhány 'cd-k', és néhány üres. A feladatod az üres elemek címkézése. Ha induktív megközelítést választasz, egy modellt tanítasz 'lemezek' és 'cd-k' keresésére, és ezeket a címkéket alkalmazod a címkézetlen adatokra. Ez a megközelítés nehézségekbe ütközhet olyan dolgok osztályozásakor, amelyek valójában 'kazetták'. A transzduktív megközelítés viszont hatékonyabban kezeli az ismeretlen adatokat, mivel hasonló elemeket csoportosít, majd címkét rendel a csoporthoz. Ebben az esetben a klaszterek például 'kerek zenei dolgokat' és 'szögletes zenei dolgokat' tükrözhetnek.\n", ">\n", "> 🎓 ['Nem sík' vs. 'sík' geometria](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Matematikai terminológiából származik, a nem sík vs. sík geometria az adatpontok közötti távolságok mérésére utal, akár 'sík' ([Euklideszi](https://wikipedia.org/wiki/Euclidean_geometry)), akár 'nem sík' (nem Euklideszi) geometriai módszerekkel.\n", ">\n", "> 'Sík' ebben az összefüggésben az Euklideszi geometriára utal (amelynek részeit 'síkmértan' néven tanítják), míg a nem sík a nem Euklideszi geometriára utal. Mi köze van a geometriának a gépi tanuláshoz? Nos, mivel mindkét terület matematikai alapokon nyugszik, szükség van egy közös módszerre az adatpontok közötti távolságok mérésére a klaszterekben, és ezt 'sík' vagy 'nem sík' módon lehet megtenni, az adatok természetétől függően. Az [Euklideszi távolságokat](https://wikipedia.org/wiki/Euclidean_distance) két pont közötti szakasz hosszával mérik. A [nem Euklideszi távolságokat](https://wikipedia.org/wiki/Non-Euclidean_geometry) görbe mentén mérik. Ha az adataid, vizualizálva, nem síkban léteznek, akkor speciális algoritmusra lehet szükséged a kezelésükhöz.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"