{ "cells": [ { "cell_type": "markdown", "source": [ "## **Nigerian Music na Nakalap mula sa Spotify - Isang Pagsusuri**\n", "\n", "Ang clustering ay isang uri ng [Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning) na ipinapalagay na ang isang dataset ay walang label o ang mga input nito ay hindi tumutugma sa mga paunang natukoy na output. Gumagamit ito ng iba't ibang mga algorithm upang ayusin ang mga unlabeled na data at magbigay ng mga pangkat batay sa mga pattern na natutukoy nito sa data.\n", "\n", "[**Pre-lecture quiz**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Panimula**\n", "\n", "Ang [Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ay napaka-kapaki-pakinabang para sa pagsusuri ng data. Tingnan natin kung makakatulong ito sa pagtuklas ng mga uso at pattern sa paraan ng pagkonsumo ng musika ng mga tagapakinig sa Nigeria.\n", "\n", "> ✅ Maglaan ng isang minuto upang pag-isipan ang mga gamit ng clustering. Sa totoong buhay, nangyayari ang clustering tuwing may tambak kang labahin at kailangang ayusin ang mga damit ng bawat miyembro ng pamilya 🧦👕👖🩲. Sa data science, nangyayari ang clustering kapag sinusubukang suriin ang mga kagustuhan ng isang user, o tukuyin ang mga katangian ng anumang unlabeled na dataset. Sa isang paraan, ang clustering ay tumutulong upang maunawaan ang kaguluhan, tulad ng drawer ng medyas.\n", "\n", "Sa isang propesyonal na setting, maaaring gamitin ang clustering upang matukoy ang segmentation ng merkado, tulad ng pagtukoy kung anong mga pangkat ng edad ang bumibili ng partikular na mga produkto. Isa pang gamit nito ay ang anomaly detection, halimbawa, upang matukoy ang pandaraya mula sa isang dataset ng mga transaksyon sa credit card. Maaari mo ring gamitin ang clustering upang matukoy ang mga tumor sa isang batch ng mga medikal na scan.\n", "\n", "✅ Maglaan ng isang minuto upang pag-isipan kung paano mo maaaring naranasan ang clustering sa totoong buhay, tulad ng sa bangko, e-commerce, o negosyo.\n", "\n", "> 🎓 Nakakatuwang isipin na ang cluster analysis ay nagmula sa mga larangan ng Anthropology at Psychology noong 1930s. Paano kaya ito ginamit noon?\n", "\n", "Bukod dito, maaari mo itong gamitin para sa pag-grupo ng mga resulta ng paghahanap - tulad ng mga link sa pamimili, mga larawan, o mga review. Ang clustering ay kapaki-pakinabang kapag mayroon kang malaking dataset na nais mong bawasan at suriin nang mas detalyado, kaya't ang teknik na ito ay maaaring gamitin upang matuto tungkol sa data bago bumuo ng iba pang mga modelo.\n", "\n", "✅ Kapag naayos na ang iyong data sa mga cluster, maaari mo itong bigyan ng cluster Id. Ang teknik na ito ay kapaki-pakinabang din sa pagpapanatili ng privacy ng dataset; maaari mong tukuyin ang isang data point gamit ang cluster Id nito, sa halip na mas detalyado at sensitibong impormasyon. Maaari mo bang maisip ang iba pang dahilan kung bakit mas pipiliin mong tukuyin ang isang cluster gamit ang Id nito kaysa sa iba pang elemento ng cluster?\n", "\n", "### Pagsisimula sa clustering\n", "\n", "> 🎓 Ang paraan ng paglikha natin ng mga cluster ay may kinalaman sa kung paano natin pinagsasama-sama ang mga data point sa mga pangkat. Tuklasin natin ang ilang terminolohiya:\n", ">\n", "> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Ang transductive inference ay nagmumula sa mga naobserbahang training cases na tumutugma sa mga partikular na test cases. Ang inductive inference naman ay nagmumula sa mga training cases na bumubuo ng mga pangkalahatang patakaran na pagkatapos ay inilalapat sa mga test cases.\n", ">\n", "> Halimbawa: Isipin na mayroon kang dataset na bahagyang may label. Ang ilan ay 'records', ang ilan ay 'cds', at ang ilan ay walang label. Ang trabaho mo ay magbigay ng label para sa mga walang label. Kung pipiliin mo ang inductive approach, magtetrain ka ng model na naghahanap ng 'records' at 'cds', at ilalapat ang mga label na iyon sa iyong unlabeled na data. Ang approach na ito ay mahihirapang mag-classify ng mga bagay na aktwal na 'cassettes'. Ang transductive approach, sa kabilang banda, ay mas mahusay sa paghawak ng hindi kilalang data dahil gumagana ito upang pagsama-samahin ang mga magkatulad na item at pagkatapos ay maglapat ng label sa isang pangkat. Sa kasong ito, maaaring ipakita ng mga cluster ang 'mga bilog na bagay na pangmusika' at 'mga parisukat na bagay na pangmusika'.\n", ">\n", "> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Ang terminong ito ay nagmula sa matematika, kung saan ang 'flat' ay tumutukoy sa [Euclidean](https://wikipedia.org/wiki/Euclidean_geometry) geometry, at ang 'non-flat' ay tumutukoy sa non-Euclidean geometry. Ang geometry ay mahalaga sa machine learning dahil ito ang batayan ng pagsukat ng distansya sa pagitan ng mga puntos sa mga cluster. Ang [Euclidean distances](https://wikipedia.org/wiki/Euclidean_distance) ay sinusukat bilang haba ng linya sa pagitan ng dalawang puntos, habang ang [Non-Euclidean distances](https://wikipedia.org/wiki/Non-Euclidean_geometry) ay sinusukat sa kahabaan ng kurba. Kung ang iyong data ay tila hindi umiiral sa isang patag na eroplano, maaaring kailanganin mong gumamit ng espesyal na algorithm upang hawakan ito.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"