{ "cells": [ { "cell_type": "markdown", "source": [ "## **Нигеријска музика преузета са Spotify - анализа**\n", "\n", "Кластеризација је врста [ненаџираног учења](https://wikipedia.org/wiki/Unsupervised_learning) која претпоставља да је скуп података необележен или да његови уноси нису повезани са унапред дефинисаним излазима. Користи различите алгоритме за сортирање необележених података и пружа груписања на основу образаца које препознаје у подацима.\n", "\n", "[**Квиз пре предавања**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Увод**\n", "\n", "[Кластеризација](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) је веома корисна за истраживање података. Хајде да видимо да ли може помоћи у откривању трендова и образаца у начину на који нигеријска публика конзумира музику.\n", "\n", "> ✅ Одвојите минут да размислите о употреби кластеризације. У стварном животу, кластеризација се дешава кад год имате гомилу веша и треба да сортирате одећу чланова породице 🧦👕👖🩲. У науци о подацима, кластеризација се дешава када покушавате да анализирате корисничке преференције или одредите карактеристике било ког необележеног скупа података. Кластеризација, на неки начин, помаже да се уведе ред у хаос, као у фиоци за чарапе.\n", "\n", "У професионалном окружењу, кластеризација се може користити за одређивање сегментације тржишта, на пример, за утврђивање које старосне групе купују које производе. Друга употреба би била откривање аномалија, можда за откривање преваре из скупа података о трансакцијама кредитним картицама. Или бисте могли да користите кластеризацију за одређивање тумора у серији медицинских снимака.\n", "\n", "✅ Одвојите минут да размислите о томе како сте можда наишли на кластеризацију „у природи“, у банкарству, е-трговини или пословном окружењу.\n", "\n", "> 🎓 Занимљиво је да је анализа кластера настала у областима антропологије и психологије 1930-их. Можете ли замислити како је могла бити коришћена?\n", "\n", "Алтернативно, могли бисте је користити за груписање резултата претраге - на пример, по куповним линковима, сликама или рецензијама. Кластеризација је корисна када имате велики скуп података који желите да смањите и на којем желите да извршите детаљнију анализу, па се техника може користити за учење о подацима пре него што се изграде други модели.\n", "\n", "✅ Када су ваши подаци организовани у кластере, додељујете им идентификатор кластера, а ова техника може бити корисна када желите да сачувате приватност скупа података; можете се уместо тога позивати на тачку података преко њеног идентификатора кластера, а не преко откривенијих идентификационих података. Можете ли смислити друге разлоге зашто бисте се позивали на идентификатор кластера уместо на друге елементе кластера да бисте га идентификовали?\n", "\n", "### Почетак рада са кластеризацијом\n", "\n", "> 🎓 Начин на који креирамо кластере има много везе са начином на који групишемо тачке података у групе. Хајде да разјаснимо неке термине:\n", ">\n", "> 🎓 ['Трансдуктивно' наспрам 'индуктивно'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Трансдуктивно закључивање се изводи из посматраних случајева обуке који се мапирају на одређене тест случајеве. Индуктивно закључивање се изводи из случајева обуке који се мапирају на општа правила која се тек онда примењују на тест случајеве.\n", ">\n", "> Пример: Замислите да имате скуп података који је само делимично обележен. Неке ствари су „плоче“, неке „ЦД-ови“, а неке су празне. Ваш задатак је да обезбедите ознаке за празнине. Ако изаберете индуктивни приступ, обучили бисте модел тражећи „плоче“ и „ЦД-ове“ и применили те ознаке на необележене податке. Овај приступ ће имати потешкоћа у класификовању ствари које су заправо „касете“. Трансдуктивни приступ, с друге стране, ефикасније обрађује ове непознате податке јер ради на груписању сличних ставки и затим примењује ознаку на групу. У овом случају, кластери би могли одражавати „округле музичке ствари“ и „квадратне музичке ствари“.\n", ">\n", "> 🎓 ['Нефлатна' наспрам 'флатна' геометрија](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Изведено из математичке терминологије, нефлатна наспрам флатна геометрија односи се на мерење удаљености између тачака било „флатним“ ([Еуклидским](https://wikipedia.org/wiki/Euclidean_geometry)) или „нефлатним“ (не-Еуклидским) геометријским методама.\n", ">\n", "> „Флатна“ у овом контексту се односи на Еуклидску геометрију (делови које се уче као „планарна“ геометрија), а нефлатна се односи на не-Еуклидску геометрију. Шта геометрија има са машинским учењем? Па, као две области које су укорењене у математици, мора постојати заједнички начин мерења удаљености између тачака у кластерима, а то се може урадити на „флатан“ или „нефлатан“ начин, у зависности од природе података. [Еуклидске удаљености](https://wikipedia.org/wiki/Euclidean_distance) се мере као дужина сегмента линије између две тачке. [Не-Еуклидске удаљености](https://wikipedia.org/wiki/Non-Euclidean_geometry) се мере дуж криве. Ако ваши подаци, визуализовани, изгледају као да не постоје на равни, можда ћете морати да користите специјализовани алгоритам за њихово обрађивање.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"