{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigerijska muzyka zebrana ze Spotify - analiza**\n", "\n", "Klasteryzacja to rodzaj [uczenia bez nadzoru](https://wikipedia.org/wiki/Unsupervised_learning), który zakłada, że zbiór danych jest nieoznaczony lub że jego dane wejściowe nie są powiązane z wcześniej zdefiniowanymi wynikami. Wykorzystuje różne algorytmy do analizy nieoznaczonych danych i tworzenia grup na podstawie wzorców wykrytych w danych.\n", "\n", "[**Quiz przed wykładem**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Wprowadzenie**\n", "\n", "[Klasteryzacja](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) jest bardzo przydatna w eksploracji danych. Zobaczmy, czy może pomóc odkryć trendy i wzorce w sposobie, w jaki nigeryjscy odbiorcy konsumują muzykę.\n", "\n", "> ✅ Poświęć chwilę na zastanowienie się nad zastosowaniami klasteryzacji. W codziennym życiu klasteryzacja ma miejsce, gdy masz stos prania i musisz posortować ubrania członków rodziny 🧦👕👖🩲. W data science klasteryzacja występuje podczas analizy preferencji użytkownika lub określania cech dowolnego nieoznaczonego zbioru danych. Klasteryzacja w pewnym sensie pomaga uporządkować chaos, jak w przypadku szuflady na skarpetki.\n", "\n", "W środowisku zawodowym klasteryzacja może być używana do określania segmentacji rynku, na przykład do ustalenia, jakie grupy wiekowe kupują jakie produkty. Innym zastosowaniem może być wykrywanie anomalii, na przykład w celu wykrycia oszustw w zbiorze danych dotyczących transakcji kartami kredytowymi. Możesz również użyć klasteryzacji do identyfikacji guzów w serii skanów medycznych.\n", "\n", "✅ Zastanów się przez chwilę, jak mogłeś spotkać się z klasteryzacją „w terenie”, w bankowości, e-commerce lub biznesie.\n", "\n", "> 🎓 Co ciekawe, analiza klastrów wywodzi się z dziedzin antropologii i psychologii w latach 30. XX wieku. Wyobraź sobie, jak mogła być wtedy wykorzystywana.\n", "\n", "Alternatywnie, można ją wykorzystać do grupowania wyników wyszukiwania – na przykład według linków zakupowych, obrazów lub recenzji. Klasteryzacja jest przydatna, gdy masz duży zbiór danych, który chcesz zredukować i na którym chcesz przeprowadzić bardziej szczegółową analizę, więc technika ta może być używana do poznania danych przed skonstruowaniem innych modeli.\n", "\n", "✅ Gdy dane są zorganizowane w klastry, przypisujesz im identyfikator klastra, a ta technika może być przydatna przy zachowaniu prywatności zbioru danych; zamiast bardziej ujawniających danych identyfikacyjnych możesz odwoływać się do punktu danych za pomocą identyfikatora klastra. Czy możesz wymyślić inne powody, dla których warto odwoływać się do identyfikatora klastra zamiast innych elementów klastra, aby go zidentyfikować?\n", "\n", "### Wprowadzenie do klasteryzacji\n", "\n", "> 🎓 Sposób tworzenia klastrów ma wiele wspólnego z tym, jak grupujemy punkty danych w grupy. Rozpakujmy trochę terminologii:\n", ">\n", "> 🎓 ['Transdukcyjny' vs. 'indukcyjny'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Wnioskowanie transdukcyjne pochodzi z zaobserwowanych przypadków treningowych, które są mapowane na konkretne przypadki testowe. Wnioskowanie indukcyjne pochodzi z przypadków treningowych, które są mapowane na ogólne reguły, które dopiero potem są stosowane do przypadków testowych.\n", ">\n", "> Przykład: Wyobraź sobie, że masz zbiór danych, który jest tylko częściowo oznaczony. Niektóre rzeczy to „płyty”, inne „CD”, a niektóre są puste. Twoim zadaniem jest przypisanie etykiet do pustych danych. Jeśli wybierzesz podejście indukcyjne, wytrenujesz model szukający „płyt” i „CD” i zastosujesz te etykiety do nieoznaczonych danych. Podejście to będzie miało trudności z klasyfikacją rzeczy, które są faktycznie „kasetami”. Podejście transdukcyjne natomiast skuteczniej radzi sobie z tymi nieznanymi danymi, ponieważ działa na zasadzie grupowania podobnych elementów razem, a następnie przypisuje etykietę do grupy. W tym przypadku klastry mogą odzwierciedlać „okrągłe muzyczne rzeczy” i „kwadratowe muzyczne rzeczy”.\n", ">\n", "> 🎓 ['Niepłaska' vs. 'płaska' geometria](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Wywodząca się z terminologii matematycznej, niepłaska vs. płaska geometria odnosi się do pomiaru odległości między punktami za pomocą metod geometrycznych „płaskich” ([euklidesowych](https://wikipedia.org/wiki/Euclidean_geometry)) lub „niepłaskich” (nieeuklidesowych).\n", ">\n", "> „Płaska” w tym kontekście odnosi się do geometrii euklidesowej (części której są nauczane jako „geometria płaszczyzny”), a niepłaska odnosi się do geometrii nieeuklidesowej. Co geometria ma wspólnego z uczeniem maszynowym? Cóż, jako dwie dziedziny zakorzenione w matematyce, musi istnieć wspólny sposób pomiaru odległości między punktami w klastrach, a to można zrobić w sposób „płaski” lub „niepłaski”, w zależności od charakteru danych. [Odległości euklidesowe](https://wikipedia.org/wiki/Euclidean_distance) są mierzone jako długość odcinka między dwoma punktami. [Odległości nieeuklidesowe](https://wikipedia.org/wiki/Non-Euclidean_geometry) są mierzone wzdłuż krzywej. Jeśli Twoje dane, wizualizowane, wydają się nie istnieć na płaszczyźnie, możesz potrzebować specjalistycznego algorytmu do ich obsługi.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"