{ "cells": [ { "cell_type": "markdown", "source": [ "## **Muziki wa Nigeria uliokusanywa kutoka Spotify - uchambuzi**\n", "\n", "Clustering ni aina ya [Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning) inayodhani kuwa seti ya data haina lebo au kwamba maingizo yake hayajafungamanishwa na matokeo yaliyoainishwa. Inatumia algorithmi mbalimbali kuchambua data isiyo na lebo na kutoa makundi kulingana na mifumo inayotambua kwenye data.\n", "\n", "[**Maswali ya awali ya somo**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Utangulizi**\n", "\n", "[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ni muhimu sana kwa uchunguzi wa data. Hebu tuone kama inaweza kusaidia kugundua mitindo na mifumo katika jinsi hadhira ya Nigeria inavyotumia muziki.\n", "\n", "> ✅ Chukua dakika moja kufikiria matumizi ya clustering. Katika maisha ya kila siku, clustering hutokea unapokuwa na rundo la nguo na unahitaji kupanga nguo za wanafamilia wako 🧦👕👖🩲. Katika sayansi ya data, clustering hutokea unapojaribu kuchambua mapendeleo ya mtumiaji, au kubaini sifa za seti yoyote ya data isiyo na lebo. Kwa namna fulani, clustering husaidia kuleta mpangilio katika hali ya fujo, kama droo ya soksi.\n", "\n", "Katika mazingira ya kitaalamu, clustering inaweza kutumika kubaini mambo kama mgawanyiko wa soko, kubaini ni makundi ya umri gani yanayonunua bidhaa fulani, kwa mfano. Matumizi mengine yanaweza kuwa kugundua hali zisizo za kawaida, labda kugundua udanganyifu kutoka kwa seti ya data ya miamala ya kadi za mkopo. Au unaweza kutumia clustering kubaini uvimbe katika kundi la skani za matibabu.\n", "\n", "✅ Fikiria kwa dakika moja jinsi unavyoweza kuwa umekutana na clustering 'katika mazingira halisi', katika benki, biashara ya mtandaoni, au mazingira ya kibiashara.\n", "\n", "> 🎓 Kwa kushangaza, uchambuzi wa makundi ulianzia katika nyanja za Anthropolojia na Saikolojia katika miaka ya 1930. Je, unaweza kufikiria jinsi ulivyotumika?\n", "\n", "Vinginevyo, unaweza kuitumia kwa kupanga matokeo ya utafutaji - kwa viungo vya ununuzi, picha, au hakiki, kwa mfano. Clustering ni muhimu unapokuwa na seti kubwa ya data unayotaka kupunguza na ambayo unataka kufanya uchambuzi wa kina zaidi, hivyo mbinu hii inaweza kutumika kujifunza kuhusu data kabla ya kujenga mifano mingine.\n", "\n", "✅ Mara data yako inapopangwa katika makundi, unaiwekea kitambulisho cha kundi, na mbinu hii inaweza kuwa muhimu katika kuhifadhi faragha ya seti ya data; badala yake unaweza kurejelea kipengele cha data kwa kitambulisho cha kundi, badala ya data inayofichua zaidi. Je, unaweza kufikiria sababu nyingine za kurejelea kitambulisho cha kundi badala ya vipengele vingine vya kundi ili kukitambua?\n", "\n", "### Kuanza na clustering\n", "\n", "> 🎓 Jinsi tunavyounda makundi inahusiana sana na jinsi tunavyokusanya vipengele vya data katika vikundi. Hebu tuchambue baadhi ya istilahi:\n", ">\n", "> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Utoaji wa hitimisho wa transductive hutokana na kesi za mafunzo zilizotazamwa ambazo zinahusiana na kesi maalum za majaribio. Utoaji wa hitimisho wa inductive hutokana na kesi za mafunzo ambazo zinahusiana na sheria za jumla ambazo baadaye tu zinatumika kwa kesi za majaribio.\n", ">\n", "> Mfano: Fikiria una seti ya data ambayo imewekwa lebo kwa sehemu tu. Baadhi ya vitu ni 'rekodi', baadhi ni 'cds', na baadhi havina lebo. Kazi yako ni kutoa lebo kwa vile visivyo na lebo. Ukichagua mbinu ya inductive, ungefundisha mfano kutafuta 'rekodi' na 'cds', na kutumia lebo hizo kwa data isiyo na lebo. Mbinu hii itakuwa na shida kuainisha vitu ambavyo kwa kweli ni 'kanda za kaseti'. Mbinu ya transductive, kwa upande mwingine, hushughulikia data isiyojulikana kwa ufanisi zaidi kwani inafanya kazi ya kuunda vikundi vya vitu vinavyofanana na kisha kutumia lebo kwa kundi. Katika kesi hii, makundi yanaweza kuonyesha 'vitu vya muziki vya mviringo' na 'vitu vya muziki vya mraba'.\n", ">\n", "> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Imetokana na istilahi za hisabati, 'non-flat' vs. 'flat' geometry inahusu kipimo cha umbali kati ya vipengele kwa kutumia mbinu za kijiometri za 'flat' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) au 'non-flat' (non-Euclidean).\n", ">\n", "> 'Flat' katika muktadha huu inahusu jiometri ya Euclidean (sehemu zake hufundishwa kama jiometri ya 'plane'), na 'non-flat' inahusu jiometri isiyo ya Euclidean. Jiometri inahusiana vipi na ujifunzaji wa mashine? Kweli, kama nyanja mbili zinazotokana na hisabati, lazima kuwe na njia ya kawaida ya kupima umbali kati ya vipengele katika makundi, na hiyo inaweza kufanywa kwa njia ya 'flat' au 'non-flat', kulingana na asili ya data. [Umbali wa Euclidean](https://wikipedia.org/wiki/Euclidean_distance) hupimwa kama urefu wa sehemu ya mstari kati ya vipengele viwili. [Umbali usio wa Euclidean](https://wikipedia.org/wiki/Non-Euclidean_geometry) hupimwa kando ya mkurva. Ikiwa data yako, ikionyeshwa, inaonekana haipo kwenye ndege, unaweza kuhitaji kutumia algorithmi maalum kuishughulikia.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"