{ "cells": [ { "cell_type": "markdown", "source": [ "## **Нигерийска музика, извлечена от Spotify - анализ**\n", "\n", "Клъстерирането е вид [Ненадзиравано обучение](https://wikipedia.org/wiki/Unsupervised_learning), което предполага, че даден набор от данни е без етикети или че входните данни не са свързани с предварително дефинирани изходи. То използва различни алгоритми, за да сортира неетикетирани данни и да предостави групировки според моделите, които открива в данните.\n", "\n", "[**Тест преди лекцията**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Въведение**\n", "\n", "[Клъстерирането](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) е много полезно за изследване на данни. Нека видим дали може да помогне за откриване на тенденции и модели в начина, по който нигерийската аудитория консумира музика.\n", "\n", "> ✅ Отделете минута, за да помислите за приложенията на клъстерирането. В реалния живот клъстерирането се случва, когато имате купчина пране и трябва да сортирате дрехите на членовете на семейството си 🧦👕👖🩲. В науката за данни клъстерирането се случва, когато се опитвате да анализирате предпочитанията на потребителите или да определите характеристиките на който и да е набор от данни без етикети. Клъстерирането, по някакъв начин, помага да се внесе ред в хаоса, като например чекмедже за чорапи.\n", "\n", "В професионална среда клъстерирането може да се използва за определяне на неща като сегментация на пазара, например за установяване кои възрастови групи купуват какви продукти. Друго приложение би било откриването на аномалии, например за откриване на измами в набор от данни с транзакции с кредитни карти. Или може да използвате клъстериране, за да идентифицирате тумори в група медицински сканирания.\n", "\n", "✅ Помислете за момент как сте се сблъсквали с клъстериране „в дивата природа“, в банковия сектор, електронната търговия или бизнес среда.\n", "\n", "> 🎓 Интересно е, че анализът на клъстери произхожда от областите на антропологията и психологията през 1930-те години. Можете ли да си представите как е бил използван?\n", "\n", "Алтернативно, можете да го използвате за групиране на резултати от търсене - например по връзки за пазаруване, изображения или ревюта. Клъстерирането е полезно, когато имате голям набор от данни, който искате да намалите и върху който искате да извършите по-детайлен анализ, така че техниката може да се използва за изучаване на данни преди изграждането на други модели.\n", "\n", "✅ След като данните ви са организирани в клъстери, им присвоявате идентификатор на клъстер, и тази техника може да бъде полезна за запазване на поверителността на набора от данни; вместо това можете да се позовавате на точка от данни чрез идентификатора на клъстера, вместо чрез по-разкриващи идентифицируеми данни. Можете ли да се сетите за други причини, поради които бихте се позовали на идентификатор на клъстер, вместо на други елементи от клъстера, за да го идентифицирате?\n", "\n", "### Започване с клъстериране\n", "\n", "> 🎓 Как създаваме клъстери има много общо с начина, по който събираме точките от данни в групи. Нека разгледаме някои термини:\n", ">\n", "> 🎓 ['Трансдуктивно' срещу 'индуктивно'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Трансдуктивното заключение се извежда от наблюдавани тренировъчни случаи, които се свързват със специфични тестови случаи. Индуктивното заключение се извежда от тренировъчни случаи, които се свързват с общи правила, които след това се прилагат към тестови случаи.\n", ">\n", "> Пример: Представете си, че имате набор от данни, който е само частично етикетиран. Някои неща са „плочи“, някои „CD-та“, а някои са празни. Вашата задача е да предоставите етикети за празните. Ако изберете индуктивен подход, бихте обучили модел, който търси „плочи“ и „CD-та“, и бихте приложили тези етикети към неетикетираните данни. Този подход ще има проблеми с класифицирането на неща, които всъщност са „касети“. Трансдуктивният подход, от друга страна, се справя с тези неизвестни данни по-ефективно, тъй като работи за групиране на подобни елементи заедно и след това прилага етикет към групата. В този случай клъстерите може да отразяват „кръгли музикални неща“ и „квадратни музикални неща“.\n", ">\n", "> 🎓 ['Неплоска' срещу 'плоска' геометрия](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Произхождаща от математическата терминология, неплоска срещу плоска геометрия се отнася до измерването на разстоянията между точки чрез „плоски“ ([Евклидови](https://wikipedia.org/wiki/Euclidean_geometry)) или „неплоски“ (неевклидови) геометрични методи.\n", ">\n", "> „Плоска“ в този контекст се отнася до Евклидова геометрия (части от която се преподават като „планиметрия“), а неплоска се отнася до неевклидова геометрия. Какво общо има геометрията с машинното обучение? Е, като две области, които са вкоренени в математиката, трябва да има общ начин за измерване на разстоянията между точки в клъстери, и това може да се направи по „плосък“ или „неплосък“ начин, в зависимост от естеството на данните. [Евклидовите разстояния](https://wikipedia.org/wiki/Euclidean_distance) се измерват като дължината на отсечка между две точки. [Неевклидовите разстояния](https://wikipedia.org/wiki/Non-Euclidean_geometry) се измерват по крива. Ако вашите данни, визуализирани, изглежда не съществуват на равнина, може да се наложи да използвате специализиран алгоритъм, за да ги обработите.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"