{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigerijská hudba získaná ze Spotify - analýza**\n", "\n", "Clustering je typ [neřízeného učení](https://wikipedia.org/wiki/Unsupervised_learning), který předpokládá, že dataset není označený nebo že jeho vstupy nejsou spárovány s předem definovanými výstupy. Používá různé algoritmy k třídění neoznačených dat a poskytuje skupiny podle vzorců, které v datech rozpozná.\n", "\n", "[**Kvíz před přednáškou**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Úvod**\n", "\n", "[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je velmi užitečný pro průzkum dat. Podívejme se, zda nám může pomoci objevit trendy a vzorce ve způsobu, jakým nigerijské publikum konzumuje hudbu.\n", "\n", "> ✅ Udělejte si chvíli na zamyšlení nad využitím clusteringu. V reálném životě clustering probíhá například tehdy, když máte hromadu prádla a potřebujete roztřídit oblečení jednotlivých členů rodiny 🧦👕👖🩲. V datové vědě clustering probíhá při analýze preferencí uživatelů nebo při určování charakteristik jakéhokoli neoznačeného datasetu. Clustering tak trochu pomáhá dát chaosu smysl, jako třeba šuplíku na ponožky.\n", "\n", "V profesionálním prostředí může být clustering použit například k určení segmentace trhu, k zjištění, jaké věkové skupiny kupují jaké produkty. Dalším využitím může být detekce anomálií, například odhalování podvodů v datasetu transakcí kreditních karet. Nebo můžete clustering použít k určení nádorů v dávce lékařských skenů.\n", "\n", "✅ Zamyslete se chvíli nad tím, jak jste se mohli setkat s clusteringem „v divočině“, například v bankovnictví, e-commerce nebo obchodním prostředí.\n", "\n", "> 🎓 Zajímavé je, že analýza clusterů vznikla v oborech antropologie a psychologie ve 30. letech 20. století. Dokážete si představit, jak mohla být použita?\n", "\n", "Alternativně ji můžete použít ke skupinování výsledků vyhledávání – například podle nákupních odkazů, obrázků nebo recenzí. Clustering je užitečný, když máte velký dataset, který chcete zmenšit a na kterém chcete provést podrobnější analýzu, takže tato technika může být použita k poznání dat před vytvořením dalších modelů.\n", "\n", "✅ Jakmile jsou vaše data organizována do clusterů, přiřadíte jim ID clusteru, což může být užitečné při zachování soukromí datasetu; místo odkazování na konkrétní data můžete použít ID clusteru. Dokážete si představit další důvody, proč byste odkazovali na ID clusteru místo na jiné prvky clusteru?\n", "\n", "### Začínáme s clusteringem\n", "\n", "> 🎓 Jak vytváříme clustery, hodně závisí na tom, jak shromažďujeme datové body do skupin. Pojďme si rozebrat některé pojmy:\n", ">\n", "> 🎓 ['Transduktivní' vs. 'induktivní'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transduktivní inference je odvozena z pozorovaných tréninkových případů, které se mapují na konkrétní testovací případy. Induktivní inference je odvozena z tréninkových případů, které se mapují na obecná pravidla, která jsou teprve poté aplikována na testovací případy.\n", ">\n", "> Příklad: Představte si, že máte dataset, který je pouze částečně označený. Některé věci jsou „desky“, některé „CD“ a některé jsou prázdné. Vaším úkolem je poskytnout štítky pro prázdné položky. Pokud zvolíte induktivní přístup, vytrénujete model hledající „desky“ a „CD“ a aplikujete tyto štítky na neoznačená data. Tento přístup bude mít problém klasifikovat věci, které jsou ve skutečnosti „kazety“. Transduktivní přístup naopak zvládá tato neznámá data efektivněji, protože pracuje na seskupení podobných položek dohromady a poté aplikuje štítek na skupinu. V tomto případě mohou clustery odrážet „kulaté hudební věci“ a „čtvercové hudební věci“.\n", ">\n", "> 🎓 ['Neplochá' vs. 'plochá' geometrie](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Odvozeno z matematické terminologie, neplochá vs. plochá geometrie se týká měření vzdáleností mezi body buď „plochými“ ([Euklidovskými](https://wikipedia.org/wiki/Euclidean_geometry)) nebo „neplochými“ (ne-Euklidovskými) geometrickými metodami.\n", ">\n", "> „Plochá“ v tomto kontextu odkazuje na Euklidovskou geometrii (části z ní se učí jako „rovinná“ geometrie) a neplochá odkazuje na ne-Euklidovskou geometrii. Co má geometrie společného s machine learningem? Jako dvě oblasti, které jsou zakořeněné v matematice, musí existovat společný způsob měření vzdáleností mezi body v clusterech, a to může být provedeno „plochým“ nebo „neplochým“ způsobem, v závislosti na povaze dat. [Euklidovské vzdálenosti](https://wikipedia.org/wiki/Euclidean_distance) se měří jako délka úsečky mezi dvěma body. [Ne-Euklidovské vzdálenosti](https://wikipedia.org/wiki/Non-Euclidean_geometry) se měří podél křivky. Pokud vaše data, vizualizovaná, nevypadají, že existují na rovině, možná budete potřebovat použít specializovaný algoritmus k jejich zpracování.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"