You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ml/5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb

500 lines
51 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

{
"cells": [
{
"cell_type": "markdown",
"source": [
"## **സ്പോട്ടിഫൈയിൽ നിന്നുള്ള നൈജീരിയൻ സംഗീതം - ഒരു വിശകലനം**\r\n",
"\r\n",
"ക്ലസ്റ്ററിംഗ് ഒരു തരത്തിലുള്ള [Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning) ആണ്, ഇത് ഒരു ഡാറ്റാസെറ്റ് ലേബൽ ചെയ്യപ്പെടാത്തതാണെന്ന് അല്ലെങ്കിൽ അതിന്റെ ഇൻപുട്ടുകൾ മുൻകൂട്ടി നിർവചിച്ച ഔട്ട്പുട്ടുകളുമായി പൊരുത്തപ്പെടാത്തതാണെന്ന് കരുതുന്നു. ഡാറ്റയിൽ കാണുന്ന പാറ്റേണുകൾ അനുസരിച്ച് ഗ്രൂപ്പുകൾ നൽകാൻ വിവിധ ആൽഗോരിതങ്ങൾ ഉപയോഗിച്ച് ലേബൽ ചെയ്യാത്ത ഡാറ്റ പരിശോധിക്കുന്നു.\r\n",
"\r\n",
"[**പ്രീ-ലെക്ചർ ക്വിസ്**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\r\n",
"\r\n",
"### **പരിചയം**\r\n",
"\r\n",
"[ക്ലസ്റ്ററിംഗ്](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ഡാറ്റാ എക്സ്പ്ലോറേഷനിൽ വളരെ ഉപകാരപ്രദമാണ്. നൈജീരിയൻ പ്രേക്ഷകർ സംഗീതം എങ്ങനെ ഉപഭോഗിക്കുന്നു എന്നതിൽ ട്രെൻഡുകളും പാറ്റേണുകളും കണ്ടെത്താൻ ഇത് സഹായിക്കുമോ എന്ന് നോക്കാം.\r\n",
"\r\n",
"> ✅ ക്ലസ്റ്ററിംഗിന്റെ ഉപയോഗങ്ങളെ കുറിച്ച് ഒരു മിനിറ്റ് ചിന്തിക്കുക. യഥാർത്ഥ ജീവിതത്തിൽ, ക്ലസ്റ്ററിംഗ് നിങ്ങളുടെ കുടുംബാംഗങ്ങളുടെ വസ്ത്രങ്ങൾ വേർതിരിക്കേണ്ടി വരുന്നപ്പോൾ ഉണ്ടാകുന്നു 🧦👕👖🩲. ഡാറ്റാ സയൻസിൽ, ഉപയോക്താവിന്റെ ഇഷ്ടങ്ങൾ വിശകലനം ചെയ്യുമ്പോഴും, ലേബൽ ചെയ്യാത്ത ഡാറ്റാസെറ്റിന്റെ സവിശേഷതകൾ നിർണയിക്കുമ്പോഴും ക്ലസ്റ്ററിംഗ് നടക്കുന്നു. ക്ലസ്റ്ററിംഗ് ഒരു വിധത്തിൽ അഴുക്കും കലക്കവും മനസ്സിലാക്കാൻ സഹായിക്കുന്നു, ഒരു സോക്ക് ഡ്രോയർ പോലെയാണ്.\r\n",
"\r\n",
"പ്രൊഫഷണൽ സാഹചര്യത്തിൽ, മാർക്കറ്റ് സെഗ്മെന്റേഷൻ, ഉദാഹരണത്തിന് ഏത് പ്രായസംഘം ഏത് വസ്തുക്കൾ വാങ്ങുന്നു എന്നത് നിർണയിക്കാൻ ക്ലസ്റ്ററിംഗ് ഉപയോഗിക്കാം. മറ്റൊരു ഉപയോഗം അനോമലി ഡിറ്റക്ഷൻ ആണ്, ഉദാഹരണത്തിന് ക്രെഡിറ്റ് കാർഡ് ഇടപാടുകളുടെ ഡാറ്റാസെറ്റിൽ നിന്ന് തട്ടിപ്പ് കണ്ടെത്താൻ. അല്ലെങ്കിൽ മെഡിക്കൽ സ്കാനുകളുടെ ബാച്ചിൽ ട്യൂമറുകൾ കണ്ടെത്താൻ ക്ലസ്റ്ററിംഗ് ഉപയോഗിക്കാം.\r\n",
"\r\n",
"✅ ബാങ്കിംഗ്, ഇ-കൊമേഴ്സ്, ബിസിനസ് തുടങ്ങിയ മേഖലകളിൽ ക്ലസ്റ്ററിംഗ് 'വൈൽഡിൽ' നിങ്ങൾ എങ്ങനെ കണ്ടിട്ടുണ്ടെന്ന് ഒരു മിനിറ്റ് ചിന്തിക്കുക.\r\n",
"\r\n",
"> 🎓 രസകരമായി, ക്ലസ്റ്റർ വിശകലനം 1930-കളിൽ ആൻത്രോപോളജി, സൈക്കോളജി മേഖലകളിൽ ആരംഭിച്ചു. അത് എങ്ങനെ ഉപയോഗിച്ചിരിക്കാമെന്ന് നിങ്ങൾക്ക് കണക്കാക്കാമോ?\r\n",
"\r\n",
"അല്ലെങ്കിൽ, ഷോപ്പിംഗ് ലിങ്കുകൾ, ചിത്രങ്ങൾ, റിവ്യൂകൾ എന്നിവയുടെ അടിസ്ഥാനത്തിൽ തിരയൽ ഫലങ്ങൾ ഗ്രൂപ്പുചെയ്യാൻ ഇത് ഉപയോഗിക്കാം. വലിയ ഡാറ്റാസെറ്റുകൾ കുറയ്ക്കാനും കൂടുതൽ സൂക്ഷ്മമായ വിശകലനം നടത്താനും ക്ലസ്റ്ററിംഗ് സഹായിക്കുന്നു, അതിനാൽ മറ്റ് മോഡലുകൾ നിർമ്മിക്കുന്നതിന് മുമ്പ് ഡാറ്റയെ കുറിച്ച് പഠിക്കാൻ ഈ സാങ്കേതിക വിദ്യ ഉപയോഗിക്കാം.\r\n",
"\r\n",
"✅ ഡാറ്റ ക്ലസ്റ്ററുകളായി ക്രമീകരിച്ച ശേഷം, അതിന് ക്ലസ്റ്റർ ഐഡി നൽകുന്നു, ഇത് ഡാറ്റാസെറ്റിന്റെ സ്വകാര്യത സംരക്ഷിക്കാൻ സഹായകമാണ്; ഒരു ഡാറ്റ പോയിന്റിനെ അതിന്റെ ക്ലസ്റ്റർ ഐഡി ഉപയോഗിച്ച് സൂചിപ്പിക്കാം, കൂടുതൽ വെളിപ്പെടുത്തുന്ന തിരിച്ചറിയാവുന്ന ഡാറ്റയിലൂടെ അല്ല. ക്ലസ്റ്റർ ഐഡി ഉപയോഗിച്ച് തിരിച്ചറിയാൻ മറ്റെന്തെങ്കിലും കാരണങ്ങൾ നിങ്ങൾക്ക് തോന്നുന്നുണ്ടോ?\r\n",
"\r\n",
"### ക്ലസ്റ്ററിംഗ് ആരംഭിക്കുന്നത്\r\n",
"\r\n",
"> 🎓 ക്ലസ്റ്ററുകൾ സൃഷ്ടിക്കുന്നത് ഡാറ്റ പോയിന്റുകൾ ഗ്രൂപ്പുകളായി എങ്ങനെ കൂട്ടിച്ചേർക്കുന്നു എന്നതിൽ ആശ്രയിച്ചിരിക്കുന്നു. ചില പദങ്ങൾ വിശദീകരിക്കാം:\r\n",
">\r\n",
"> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))\r\n",
">\r\n",
"> ട്രാൻസ്ഡക്ടീവ് ഇൻഫറൻസ് നിരീക്ഷിച്ച ട്രെയിനിംഗ് കേസുകളിൽ നിന്നാണ് ലഭിക്കുന്നത്, അവ പ്രത്യേക ടെസ്റ്റ് കേസുകളുമായി പൊരുത്തപ്പെടുന്നു. ഇൻഡക്ടീവ് ഇൻഫറൻസ് ട്രെയിനിംഗ് കേസുകളിൽ നിന്നാണ് ലഭിക്കുന്നത്, അവ പൊതുവായ നിയമങ്ങളായി മാറി പിന്നീട് ടെസ്റ്റ് കേസുകളിൽ പ്രയോഗിക്കപ്പെടുന്നു.\r\n",
">\r\n",
"> ഉദാഹരണം: നിങ്ങൾക്ക് ഭാഗികമായി ലേബൽ ചെയ്ത ഡാറ്റാസെറ്റ് ഉണ്ടെന്ന് കരുതുക. ചിലത് 'റെക്കോർഡുകൾ', ചിലത് 'സിഡികൾ', ചിലത് ശൂന്യമാണ്. ശൂന്യമായവയ്ക്ക് ലേബലുകൾ നൽകുക എന്നതാണ് നിങ്ങളുടെ ജോലി. ഇൻഡക്ടീവ് സമീപനം തിരഞ്ഞെടുക്കുകയാണെങ്കിൽ, 'റെക്കോർഡുകൾ'യും 'സിഡികളും' കണ്ടെത്താൻ മോഡൽ പരിശീലിപ്പിച്ച് ആ ലേബലുകൾ ലേബൽ ചെയ്യാത്ത ഡാറ്റയിൽ പ്രയോഗിക്കും. ഈ സമീപനം 'കാസറ്റുകൾ' എന്ന വസ്തുക്കൾ ശരിയായി തിരിച്ചറിയാൻ ബുദ്ധിമുട്ടും. മറുവശത്ത്, ട്രാൻസ്ഡക്ടീവ് സമീപനം ഈ അജ്ഞാത ഡാറ്റയെ കൂടുതൽ ഫലപ്രദമായി കൈകാര്യം ചെയ്യുന്നു, സമാന വസ്തുക്കളെ ഗ്രൂപ്പാക്കി അവയ്ക്ക് ലേബൽ നൽകുന്നു. ഈ സാഹചര്യത്തിൽ, ക്ലസ്റ്ററുകൾ 'വൃത്താകൃതിയിലുള്ള സംഗീത വസ്തുക്കൾ'യും 'ചതുരാകൃതിയിലുള്ള സംഗീത വസ്തുക്കൾ'യും പ്രതിഫലിപ്പിക്കാം.\r\n",
">\r\n",
"> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\r\n",
">\r\n",
"> ഗണിതശാസ്ത്ര പദങ്ങൾ അടിസ്ഥാനമാക്കി, non-flat vs. flat ജ്യാമിതീയത പോയിന്റുകൾ തമ്മിലുള്ള ദൂരം 'ഫ്ലാറ്റ്' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) അല്ലെങ്കിൽ 'non-flat' (non-Euclidean) ജ്യാമിതീയ രീതികളിലൂടെ അളക്കുന്നതാണ്.\r\n",
">\r\n",
"> ഈ സന്ദർഭത്തിൽ 'ഫ്ലാറ്റ്' Euclidean ജ്യാമിതീയതയെ സൂചിപ്പിക്കുന്നു (ഇതിന്റെ ഭാഗങ്ങൾ 'പ്ലെയിൻ' ജ്യാമിതീയതയായി പഠിപ്പിക്കുന്നു), non-flat non-Euclidean ജ്യാമിതീയതയാണ്. ജ്യാമിതീയതയ്ക്ക് മെഷീൻ ലേണിങ്ങുമായി എന്ത് ബന്ധമുണ്ട്? ഗണിതശാസ്ത്രത്തിൽ ആധാരമാക്കിയ രണ്ട് മേഖലകളായതിനാൽ, ക്ലസ്റ്ററുകളിലെ പോയിന്റുകൾ തമ്മിലുള്ള ദൂരം അളക്കാനുള്ള പൊതുവായ മാർഗ്ഗം വേണം, അത് 'ഫ്ലാറ്റ്' അല്ലെങ്കിൽ 'non-flat' രീതിയിലായിരിക്കും, ഡാറ്റയുടെ സ്വഭാവം അനുസരിച്ച്. [Euclidean ദൂരം](https://wikipedia.org/wiki/Euclidean_distance) രണ്ട് പോയിന്റുകൾ തമ്മിലുള്ള രേഖാഖണ്ഡത്തിന്റെ നീളമായി അളക്കുന്നു. [Non-Euclidean ദൂരം](https://wikipedia.org/wiki/Non-Euclidean_geometry) വളവിലൂടെയാണ് അളക്കുന്നത്. നിങ്ങളുടെ ഡാറ്റ ദൃശ്യമായി ഒരു സമതലത്തിൽ ഇല്ലാത്തതുപോലെയാണ് തോന്നുന്നത് എങ്കിൽ, അതിനെ കൈകാര്യം ചെയ്യാൻ പ്രത്യേക ആൽഗോരിതം ഉപയോഗിക്കേണ്ടി വരും.\r\n",
"\r\n",
"<p >\r\n",
" <img src=\"../../../../../../translated_images/ml/flat-nonflat.d1c8c6e2a96110c1.webp\"\r\n",
" width=\"600\"/>\r\n",
" <figcaption>ഇൻഫോഗ്രാഫിക്: ദാസാനി മടിപള്ളി</figcaption>\r\n",
"\r\n",
"\r\n",
"\r\n",
"> 🎓 ['Distances'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)\r\n",
">\r\n",
"> ക്ലസ്റ്ററുകൾ അവരുടെ ദൂരം മാട്രിക്സ് (distance matrix) പ്രകാരം നിർവചിക്കപ്പെടുന്നു, ഉദാ: പോയിന്റുകൾ തമ്മിലുള്ള ദൂരം. ഈ ദൂരം ചില മാർഗ്ഗങ്ങളിൽ അളക്കാം. Euclidean ക്ലസ്റ്ററുകൾ പോയിന്റ് മൂല്യങ്ങളുടെ ശരാശരിയാൽ നിർവചിക്കപ്പെടുന്നു, അവയ്ക്ക് 'സെൻട്രോയിഡ്' അല്ലെങ്കിൽ കേന്ദ്ര പോയിന്റ് ഉണ്ട്. അതിനാൽ ദൂരം ആ സെൻട്രോയിഡിലേക്കുള്ള ദൂരം അളക്കിയാണ്. Non-Euclidean ദൂരം 'ക്ലസ്റ്റ്രോയിഡുകൾ' (clustroids) എന്നതിന് സൂചിപ്പിക്കുന്നു, അത് മറ്റുള്ള പോയിന്റുകൾക്ക് ഏറ്റവും അടുത്ത പോയിന്റാണ്. ക്ലസ്റ്റ്രോയിഡുകൾ വിവിധ രീതികളിൽ നിർവചിക്കാം.\r\n",
">\r\n",
"> 🎓 ['Constrained'](https://wikipedia.org/wiki/Constrained_clustering)\r\n",
">\r\n",
"> [Constrained Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) ഈ Unsupervised രീതിയിൽ 'semi-supervised' ലേണിംഗ് പരിചയപ്പെടുത്തുന്നു. പോയിന്റുകൾ തമ്മിലുള്ള ബന്ധങ്ങൾ 'cannot link' അല്ലെങ്കിൽ 'must-link' ആയി അടയാളപ്പെടുത്തുന്നു, അതിനാൽ ഡാറ്റാസെറ്റിൽ ചില നിയമങ്ങൾ ബാധകമാക്കുന്നു.\r\n",
">\r\n",
"> ഉദാഹരണം: ഒരു ആൽഗോരിതം ലേബൽ ചെയ്യാത്ത അല്ലെങ്കിൽ ഭാഗികമായി ലേബൽ ചെയ്ത ഡാറ്റാസെറ്റിൽ സ്വതന്ത്രമായി പ്രവർത്തിക്കുമ്പോൾ, അത് ഉൽപ്പാദിപ്പിക്കുന്ന ക്ലസ്റ്ററുകൾ ഗുണമേന്മയില്ലാത്തതായിരിക്കാം. മുകളിൽ പറഞ്ഞ ഉദാഹരണത്തിൽ, ക്ലസ്റ്ററുകൾ 'വൃത്താകൃതിയിലുള്ള സംഗീത വസ്തുക്കൾ', 'ചതുരാകൃതിയിലുള്ള സംഗീത വസ്തുക്കൾ', 'ത്രികോണാകൃതിയിലുള്ള വസ്തുക്കൾ', 'കുക്കീസ്' എന്നിവയായി ഗ്രൂപ്പാക്കാം. ചില നിയന്ത്രണങ്ങൾ (\"വസ്തു പ്ലാസ്റ്റിക്കിൽ നിന്നായിരിക്കണം\", \"വസ്തു സംഗീതം ഉത്പാദിപ്പിക്കാൻ കഴിയണം\") നൽകിയാൽ ആൽഗോരിതം മികച്ച തിരഞ്ഞെടുപ്പുകൾ നടത്താൻ സഹായിക്കും.\r\n",
">\r\n",
"> 🎓 'Density'\r\n",
">\r\n",
"> 'നോയിസി' ആയ ഡാറ്റ 'ഡെൻസായി' (dense) കണക്കാക്കപ്പെടുന്നു. ഓരോ ക്ലസ്റ്ററിലെയും പോയിന്റുകൾ തമ്മിലുള്ള ദൂരം പരിശോധിച്ചാൽ അത് കൂടുതൽ അല്ലെങ്കിൽ കുറവായി ഡെൻസായിരിക്കാം, അതായത് 'കൂട്ടം' ആയിരിക്കാം, അതിനാൽ ഈ ഡാറ്റ അനുയോജ്യമായ ക്ലസ്റ്ററിംഗ് രീതിയോടെ വിശകലനം ചെയ്യേണ്ടതാണ്. [ഈ ലേഖനം](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) K-Means ക്ലസ്റ്ററിംഗ് എതിരായി HDBSCAN ആൽഗോരിതങ്ങൾ ഉപയോഗിച്ച് നോയിസി ഡാറ്റാസെറ്റിന്റെ വ്യത്യാസം വിശദീകരിക്കുന്നു.\r\n",
"\r\n",
"ഈ [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) വഴി ക്ലസ്റ്ററിംഗ് സാങ്കേതിക വിദ്യകളെ കുറിച്ച് കൂടുതൽ പഠിക്കാം\r\n",
"\r\n",
"### **ക്ലസ്റ്ററിംഗ് ആൽഗോരിതങ്ങൾ**\r\n",
"\r\n",
"100-ലധികം ക്ലസ്റ്ററിംഗ് ആൽഗോരിതങ്ങൾ ഉണ്ട്, അവയുടെ ഉപയോഗം ഡാറ്റയുടെ സ്വഭാവം അനുസരിച്ചാണ്. പ്രധാന ചിലത് ചർച്ച ചെയ്യാം:\r\n",
"\r\n",
"- **ഹയർആർക്കിക്കൽ ക്ലസ്റ്ററിംഗ്**. ഒരു വസ്തു അടുത്തുള്ള മറ്റൊരു വസ്തുവിന്റെ സമീപത പ്രകാരം വർഗ്ഗീകരിക്കപ്പെടുമ്പോൾ, ക്ലസ്റ്ററുകൾ അവയുടെ അംഗങ്ങളുടെ മറ്റുള്ള വസ്തുക്കളോടുള്ള ദൂരത്തിന്റെ അടിസ്ഥാനത്തിൽ രൂപപ്പെടുന്നു. ഹയർആർക്കിക്കൽ ക്ലസ്റ്ററിംഗ് രണ്ട് ക്ലസ്റ്ററുകൾ ആവർത്തിച്ച് സംയോജിപ്പിക്കുന്നതിലൂടെ സവിശേഷതയുള്ളതാണ്.\r\n",
"\r\n",
"\r\n",
"<p >\r\n",
" <img src=\"../../../../../../translated_images/ml/hierarchical.bf59403aa43c8c47.webp\"\r\n",
" width=\"600\"/>\r\n",
" <figcaption>ഇൻഫോഗ്രാഫിക്: ദാസാനി മടിപള്ളി</figcaption>\r\n",
"\r\n",
"\r\n",
"\r\n",
"- **സെൻട്രോയിഡ് ക്ലസ്റ്ററിംഗ്**. ഈ ജനപ്രിയ ആൽഗോരിതം 'k' എന്ന ക്ലസ്റ്ററുകളുടെ എണ്ണം തിരഞ്ഞെടുക്കേണ്ടതുണ്ട്, തുടർന്ന് ആൽഗോരിതം ഒരു ക്ലസ്റ്ററിന്റെ കേന്ദ്ര പോയിന്റ് നിർണയിച്ച് ആ പോയിന്റിന്റെ ചുറ്റും ഡാറ്റ ശേഖരിക്കുന്നു. [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) സെൻട്രോയിഡ് ക്ലസ്റ്ററിംഗിന്റെ ഒരു ജനപ്രിയ രൂപമാണ്, ഇത് ഡാറ്റാസെറ്റ് മുൻകൂട്ടി നിർവചിച്ച K ഗ്രൂപ്പുകളായി വിഭജിക്കുന്നു. കേന്ദ്രം അടുത്ത ശരാശരിയാൽ നിർണയിക്കുന്നു, അതിനാൽ പേര്. ക്ലസ്റ്ററിൽ നിന്നുള്ള ചതുരശ്ര ദൂരം കുറഞ്ഞിരിക്കുന്നു.\r\n",
"\r\n",
"<p >\r\n",
" <img src=\"../../../../../../translated_images/ml/centroid.097fde836cf6c918.webp\"\r\n",
" width=\"600\"/>\r\n",
" <figcaption>ഇൻഫോഗ്രാഫിക്: ദാസാനി മടിപള്ളി</figcaption>\r\n",
"\r\n",
"\r\n",
"\r\n",
"- **ഡിസ്ട്രിബ്യൂഷൻ അടിസ്ഥാനമാക്കിയുള്ള ക്ലസ്റ്ററിംഗ്**. സാങ്കേതിക മോഡലിംഗിൽ ആധാരമാക്കിയ, ഒരു ഡാറ്റ പോയിന്റ് ഒരു ക്ലസ്റ്ററിന് പറ്റിയതാണെന്ന് സാധ്യത നിർണയിച്ച് അതനുസരിച്ച് നിയോഗിക്കുന്നു. Gaussian മിശ്രിത രീതികൾ ഇതിൽപ്പെടുന്നു.\r\n",
"\r\n",
"- **ഡെൻസിറ്റി അടിസ്ഥാനമാക്കിയുള്ള ക്ലസ്റ്ററിംഗ്**. ഡാറ്റ പോയിന്റുകൾ അവരുടെ സാന്ദ്രതയുടെ അടിസ്ഥാനത്തിൽ ക്ലസ്റ്ററുകളിലേക്ക് നിയോഗിക്കപ്പെടുന്നു, അഥവാ പരസ്പരം ചുറ്റിപ്പറ്റിയ ഗ്രൂപ്പുകൾ. ഗ്രൂപ്പിൽ നിന്ന് ദൂരെയുള്ള പോയിന്റുകൾ ഔട്ട്‌ലയർസ് അല്ലെങ്കിൽ നോയിസായി കണക്കാക്കപ്പെടുന്നു. DBSCAN, Mean-shift, OPTICS ഇതിൽപ്പെടുന്നു.\r\n",
"\r\n",
"- **ഗ്രിഡ് അടിസ്ഥാനമാക്കിയുള്ള ക്ലസ്റ്ററിംഗ്**. ബഹുമാനദണ്ഡ ഡാറ്റാസെറ്റുകൾക്കായി ഒരു ഗ്രിഡ് സൃഷ്ടിച്ച് ഡാറ്റ ഗ്രിഡിന്റെ സെല്ലുകളിൽ വിഭജിച്ച് ക്ലസ്റ്ററുകൾ സൃഷ്ടിക്കുന്നു.\r\n",
"\r\n",
"ക്ലസ്റ്ററിംഗ് പഠിക്കാൻ ഏറ്റവും നല്ല മാർഗ്ഗം അത് സ്വയം പരീക്ഷിക്കുകയാണ്, അതിനാൽ ഈ അഭ്യാസത്തിൽ നിങ്ങൾ അത് ചെയ്യും.\r\n",
"\r\n",
"ഈ മോഡ്യൂൾ പൂർത്തിയാക്കാൻ ചില പാക്കേജുകൾ ആവശ്യമാണ്. നിങ്ങൾക്ക് അവ ഇൻസ്റ്റാൾ ചെയ്യാം: `install.packages(c('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork'))`\r\n",
"\r\n",
"മറ്റൊരു മാർഗ്ഗം, താഴെ കൊടുത്തിരിക്കുന്ന സ്ക്രിപ്റ്റ് ഈ മോഡ്യൂൾ പൂർത്തിയാക്കാൻ ആവശ്യമായ പാക്കേജുകൾ നിങ്ങൾക്കുണ്ടോ എന്ന് പരിശോധിച്ച് കുറവുണ്ടെങ്കിൽ ഇൻസ്റ്റാൾ ചെയ്യും.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"suppressWarnings(if(!require(\"pacman\")) install.packages(\"pacman\"))\r\n",
"\r\n",
"pacman::p_load('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork')\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Exercise - cluster your data\n",
"\n",
"ക്ലസ്റ്ററിംഗ് എന്ന സാങ്കേതിക വിദ്യ ശരിയായ ദൃശ്യവത്കരണത്തിലൂടെ വളരെ സഹായകരമാണ്, അതിനാൽ നമുക്ക് നമ്മുടെ സംഗീത ഡാറ്റ ദൃശ്യവത്കരിച്ച് തുടങ്ങാം. ഈ അഭ്യാസം ഈ ഡാറ്റയുടെ സ്വഭാവത്തിന് ഏറ്റവും ഫലപ്രദമായി ഉപയോഗിക്കേണ്ട ക്ലസ്റ്ററിംഗ് രീതികൾ നമുക്ക് തീരുമാനിക്കാൻ സഹായിക്കും.\n",
"\n",
"ഡാറ്റ ഇറക്കുമതി ചെയ്ത് നമുക്ക് തുടക്കം കുറിക്കാം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Load the core tidyverse and make it available in your current R session\r\n",
"library(tidyverse)\r\n",
"\r\n",
"# Import the data into a tibble\r\n",
"df <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv\")\r\n",
"\r\n",
"# View the first 5 rows of the data set\r\n",
"df %>% \r\n",
" slice_head(n = 5)\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"കഴിഞ്ഞപ്പോൾ, നമ്മുടെ ഡാറ്റയിൽ കുറച്ച് കൂടുതൽ വിവരങ്ങൾ അറിയാൻ ആഗ്രഹിക്കാം. [*glimpse()*](https://pillar.r-lib.org/reference/glimpse.html) ഫംഗ്ഷൻ ഉപയോഗിച്ച് `data`യും `അതിന്റേതായ ഘടന`യും നോക്കാം:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Glimpse into the data set\r\n",
"df %>% \r\n",
" glimpse()\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"നല്ല ജോലി!💪\n",
"\n",
"`glimpse()` നിങ്ങൾക്ക് മൊത്തം വരികളുടെ എണ്ണം (പരീക്ഷണങ്ങൾ)യും കോളങ്ങളുടെയും (ചരങ്ങൾ) എണ്ണം നൽകും, തുടർന്ന് ഓരോ ചരത്തിന്റെ പേരിന് ശേഷം ഒരു വരിയിൽ ഓരോ ചരത്തിന്റെ ആദ്യ കുറച്ച് എൻട്രികളും കാണിക്കും. കൂടാതെ, ഓരോ ചരത്തിന്റെ പേരിന് ഉടനെ `< >` ഉള്ളിൽ *ഡാറ്റാ തരം* നൽകും.\n",
"\n",
"`DataExplorer::introduce()` ഈ വിവരങ്ങൾ സുതാര്യമായി സംഗ്രഹിക്കാം:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Describe basic information for our data\r\n",
"df %>% \r\n",
" introduce()\r\n",
"\r\n",
"# A visual display of the same\r\n",
"df %>% \r\n",
" plot_intro()\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"അദ്ഭുതം! നമ്മുടെ ഡാറ്റയിൽ മിസ്സിംഗ് മൂല്യങ്ങൾ ഒന്നും ഇല്ലെന്ന് നാം ഇപ്പോൾ പഠിച്ചു.\n",
"\n",
"നാം ഇതിൽ തുടരുമ്പോൾ, സാധാരണ കേന്ദ്ര പ്രവണതാ സ്ഥിതിവിവരക്കണക്കുകൾ (ഉദാ: [mean](https://en.wikipedia.org/wiki/Arithmetic_mean) and [median](https://en.wikipedia.org/wiki/Median)) കൂടാതെ വ്യതിയാനത്തിന്റെ അളവുകൾ (ഉദാ: [standard deviation](https://en.wikipedia.org/wiki/Standard_deviation)) `summarytools::descr()` ഉപയോഗിച്ച് പരിശോധിക്കാം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Describe common statistics\r\n",
"df %>% \r\n",
" descr(stats = \"common\")\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ഡാറ്റയുടെ പൊതുവായ മൂല്യങ്ങൾ നോക്കാം. പ്രശസ്തി `0` ആകാമെന്ന് ശ്രദ്ധിക്കുക, ഇത് റാങ്കിംഗ് ഇല്ലാത്ത പാട്ടുകൾ കാണിക്കുന്നു. അവ നമുക്ക് ഉടൻ നീക്കം ചെയ്യും.\n",
"\n",
"> 🤔 നാം ലേബൽ ചെയ്ത ഡാറ്റ ആവശ്യമില്ലാത്ത ഒരു അൺസൂപ്പർവൈസ്ഡ് ക്ലസ്റ്ററിംഗ് രീതിയുമായി ജോലി ചെയ്യുകയാണെങ്കിൽ, ഈ ഡാറ്റ ലേബലുകളോടുകൂടി കാണിക്കുന്നത് എന്തിന്? ഡാറ്റ എക്സ്പ്ലോറേഷൻ ഘട്ടത്തിൽ അവ സഹായകരമാണ്, പക്ഷേ ക്ലസ്റ്ററിംഗ് ആൽഗോരിതങ്ങൾ പ്രവർത്തിക്കാൻ അവ ആവശ്യമായില്ല.\n",
"\n",
"### 1. പ്രശസ്തമായ ജാനറുകൾ അന്വേഷിക്കുക\n",
"\n",
"അവ അത് പ്രത്യക്ഷപ്പെടുന്ന സംഭവങ്ങളുടെ എണ്ണം എണ്ണിക്കൊണ്ട് ഏറ്റവും പ്രശസ്തമായ ജാനറുകൾ 🎶 കണ്ടെത്താം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Popular genres\r\n",
"top_genres <- df %>% \r\n",
" count(artist_top_genre, sort = TRUE) %>% \r\n",
"# Encode to categorical and reorder the according to count\r\n",
" mutate(artist_top_genre = factor(artist_top_genre) %>% fct_inorder())\r\n",
"\r\n",
"# Print the top genres\r\n",
"top_genres\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"അത് നന്നായി പോയി! ഒരു ചിത്രം ഒരു ഡാറ്റാ ഫ്രെയിമിലെ ആയിരം വരികളേക്കാൾ വിലമതിക്കപ്പെടുമെന്ന് അവർ പറയുന്നു (വാസ്തവത്തിൽ ആരും അങ്ങനെ പറയാറില്ല 😅). പക്ഷേ നിങ്ങൾക്ക് അതിന്റെ ആശയം മനസിലായിട്ടുണ്ട്, അല്ലേ?\n",
"\n",
"വർഗ്ഗീയ ഡാറ്റ (ക്യാരക്ടർ അല്ലെങ്കിൽ ഫാക്ടർ വേരിയബിളുകൾ) ദൃശ്യവൽക്കരിക്കുന്ന ഒരു മാർഗം ബാർപ്ലോട്ടുകൾ ഉപയോഗിക്കുകയാണ്. മുകളിൽ 10 ജാനറുകളുടെ ബാർപ്ലോട്ട് ഉണ്ടാക്കാം:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Change the default gray theme\r\n",
"theme_set(theme_light())\r\n",
"\r\n",
"# Visualize popular genres\r\n",
"top_genres %>%\r\n",
" slice(1:10) %>% \r\n",
" ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
" fill = artist_top_genre)) +\r\n",
" geom_col(alpha = 0.8) +\r\n",
" paletteer::scale_fill_paletteer_d(\"rcartocolor::Vivid\") +\r\n",
" ggtitle(\"Top genres\") +\r\n",
" theme(plot.title = element_text(hjust = 0.5),\r\n",
" # Rotates the X markers (so we can read them)\r\n",
" axis.text.x = element_text(angle = 90))\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ഇപ്പോൾ ഞങ്ങൾക്ക് `missing` ജാനറുകൾ ഉണ്ടെന്ന് തിരിച്ചറിയുന്നത് വളരെ എളുപ്പമാണ് 🧐!\n",
"\n",
"> ഒരു നല്ല ദൃശ്യവത്കരണം നിങ്ങൾ പ്രതീക്ഷിക്കാത്ത കാര്യങ്ങൾ കാണിക്കും, അല്ലെങ്കിൽ ഡാറ്റയെക്കുറിച്ച് പുതിയ ചോദ്യങ്ങൾ ഉയർത്തും - ഹാഡ്ലി വിക്ഹാം, ഗാരറ്റ് ഗ്രോളെമണ്ട്, [R For Data Science](https://r4ds.had.co.nz/introduction.html)\n",
"\n",
"ശ്രദ്ധിക്കുക, മുകളിൽ കാണുന്ന ജാനർ `Missing` എന്ന് വിവരണം നൽകിയാൽ, അതായത് Spotify അത് വർഗ്ഗീകരിച്ചിട്ടില്ല, അതിനാൽ അത് ഒഴിവാക്കാം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Visualize popular genres\r\n",
"top_genres %>%\r\n",
" filter(artist_top_genre != \"Missing\") %>% \r\n",
" slice(1:10) %>% \r\n",
" ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
" fill = artist_top_genre)) +\r\n",
" geom_col(alpha = 0.8) +\r\n",
" paletteer::scale_fill_paletteer_d(\"rcartocolor::Vivid\") +\r\n",
" ggtitle(\"Top genres\") +\r\n",
" theme(plot.title = element_text(hjust = 0.5),\r\n",
" # Rotates the X markers (so we can read them)\r\n",
" axis.text.x = element_text(angle = 90))\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ചെറിയ ഡാറ്റാ എക്സ്പ്ലോറേഷനിൽ നിന്ന്, ഈ ഡാറ്റാസെറ്റിൽ മുകളിൽ മൂന്ന് ജാനറുകൾ പ്രധാനം ആണെന്ന് നമുക്ക് മനസിലാകുന്നു. `afro dancehall`, `afropop`, `nigerian pop` എന്നിവയിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാം, കൂടാതെ 0 പ്രചാരണം മൂല്യമുള്ള ഏതെങ്കിലും ഡാറ്റാ നീക്കം ചെയ്യാൻ ഫിൽട്ടർ ചെയ്യുക (അർത്ഥം, ഡാറ്റാസെറ്റിൽ പ്രചാരണം ആയി വർഗ്ഗീകരിക്കപ്പെട്ടിട്ടില്ലാത്തതും നമ്മുടെ ആവശ്യങ്ങൾക്ക് ശബ്ദമെന്നായി പരിഗണിക്കാവുന്നതും):\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"nigerian_songs <- df %>% \r\n",
" # Concentrate on top 3 genres\r\n",
" filter(artist_top_genre %in% c(\"afro dancehall\", \"afropop\",\"nigerian pop\")) %>% \r\n",
" # Remove unclassified observations\r\n",
" filter(popularity != 0)\r\n",
"\r\n",
"\r\n",
"\r\n",
"# Visualize popular genres\r\n",
"nigerian_songs %>%\r\n",
" count(artist_top_genre) %>%\r\n",
" ggplot(mapping = aes(x = artist_top_genre, y = n,\r\n",
" fill = artist_top_genre)) +\r\n",
" geom_col(alpha = 0.8) +\r\n",
" paletteer::scale_fill_paletteer_d(\"ggsci::category10_d3\") +\r\n",
" ggtitle(\"Top genres\") +\r\n",
" theme(plot.title = element_text(hjust = 0.5))\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"നമ്മുടെ ഡാറ്റാ സെറ്റിലുള്ള സംഖ്യാത്മക ചാരങ്ങളിലൊന്നിനും വ്യക്തമായ ഒരു രേഖീയ ബന്ധമുണ്ടോ എന്ന് നോക്കാം. ഈ ബന്ധം ഗണിതപരമായി [correlation statistic](https://en.wikipedia.org/wiki/Correlation) എന്നതിലൂടെ അളക്കപ്പെടുന്നു.\n",
"\n",
"correlation statistic -1നു 1നു ഇടയിലുള്ള ഒരു മൂല്യമാണ്, ഇത് ഒരു ബന്ധത്തിന്റെ ശക്തി സൂചിപ്പിക്കുന്നു. 0-ന് മുകളിൽ ഉള്ള മൂല്യങ്ങൾ *സാന്ദ്ര* ബന്ധം സൂചിപ്പിക്കുന്നു (ഒരു ചാരത്തിന്റെ ഉയർന്ന മൂല്യങ്ങൾ മറ്റൊന്നിന്റെ ഉയർന്ന മൂല്യങ്ങളുമായി പൊരുത്തപ്പെടാൻ സാധ്യതയുണ്ട്), 0-ന് താഴെയുള്ള മൂല്യങ്ങൾ *പ്രതികൂല* ബന്ധം സൂചിപ്പിക്കുന്നു (ഒരു ചാരത്തിന്റെ ഉയർന്ന മൂല്യങ്ങൾ മറ്റൊന്നിന്റെ താഴ്ന്ന മൂല്യങ്ങളുമായി പൊരുത്തപ്പെടാൻ സാധ്യതയുണ്ട്).\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Narrow down to numeric variables and fid correlation\r\n",
"corr_mat <- nigerian_songs %>% \r\n",
" select(where(is.numeric)) %>% \r\n",
" cor()\r\n",
"\r\n",
"# Visualize correlation matrix\r\n",
"corrplot(corr_mat, order = 'AOE', col = c('white', 'black'), bg = 'gold2') \r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ഡാറ്റ ശക്തമായി ബന്ധിപ്പിച്ചിട്ടില്ല, energy ഉം loudness ഉം തമ്മിൽ മാത്രമാണ് ശക്തമായ ബന്ധം കാണപ്പെടുന്നത്, കാരണം ശബ്ദം ഉയർന്ന സംഗീതം സാധാരണയായി വളരെ ഊർജസ്വലമാണ്. Popularity ന് release date നോടുള്ള ബന്ധം ഉണ്ട്, ഇത് കൂടി യുക്തിയുള്ളതാണ്, കാരണം പുതിയ ഗാനങ്ങൾ സാധാരണയായി കൂടുതൽ ജനപ്രിയമാണ്. Length ഉം energy ഉം തമ്മിലും ഒരു ബന്ധം കാണപ്പെടുന്നു.\n",
"\n",
"ഈ ഡാറ്റയിൽ ക്ലസ്റ്ററിംഗ് ആൽഗോരിതം എന്ത് കണ്ടെത്തും എന്ന് കാണുന്നത് രസകരമായിരിക്കും!\n",
"\n",
"> 🎓 correlation causation ന്റെ സൂചനയല്ലെന്ന് ശ്രദ്ധിക്കുക! correlation ന്റെ തെളിവ് ഉണ്ട്, causation ന്റെ തെളിവ് ഇല്ല. [amusing web site](https://tylervigen.com/spurious-correlations) ഈ കാര്യത്തെ ഊന്നിപ്പറയുന്ന ചില ദൃശ്യങ്ങൾ ഉണ്ട്.\n",
"\n",
"### 2. ഡാറ്റ വിതരണത്തെ അന്വേഷിക്കുക\n",
"\n",
"കുറച്ച് കൂടുതൽ സൂക്ഷ്മമായ ചോദ്യങ്ങൾ ചോദിക്കാം. ജനപ്രിയതയുടെ അടിസ്ഥാനത്തിൽ അവരുടെ danceability യിൽ ജാനറുകൾ ഗണ്യമായ വ്യത്യാസമുണ്ടോ? നമുക്ക് മുൻനിര മൂന്ന് ജാനറുകളുടെ ജനപ്രിയതയും danceability യും ഒരു നിശ്ചിത x, y അക്ഷങ്ങളിൽ [density plots](https://www.khanacademy.org/math/ap-statistics/density-curves-normal-distribution-ap/density-curves/v/density-curves) ഉപയോഗിച്ച് പരിശോധിക്കാം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# Perform 2D kernel density estimation\r\n",
"density_estimate_2d <- nigerian_songs %>% \r\n",
" ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre)) +\r\n",
" geom_density_2d(bins = 5, size = 1) +\r\n",
" paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
" xlim(-20, 80) +\r\n",
" ylim(0, 1.2)\r\n",
"\r\n",
"# Density plot based on the popularity\r\n",
"density_estimate_pop <- nigerian_songs %>% \r\n",
" ggplot(mapping = aes(x = popularity, fill = artist_top_genre, color = artist_top_genre)) +\r\n",
" geom_density(size = 1, alpha = 0.5) +\r\n",
" paletteer::scale_fill_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
" paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
" theme(legend.position = \"none\")\r\n",
"\r\n",
"# Density plot based on the danceability\r\n",
"density_estimate_dance <- nigerian_songs %>% \r\n",
" ggplot(mapping = aes(x = danceability, fill = artist_top_genre, color = artist_top_genre)) +\r\n",
" geom_density(size = 1, alpha = 0.5) +\r\n",
" paletteer::scale_fill_paletteer_d(\"RSkittleBrewer::wildberry\") +\r\n",
" paletteer::scale_color_paletteer_d(\"RSkittleBrewer::wildberry\")\r\n",
"\r\n",
"\r\n",
"# Patch everything together\r\n",
"library(patchwork)\r\n",
"density_estimate_2d / (density_estimate_pop + density_estimate_dance)\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"നാം കാണുന്നത് ജാനറിനെ ആശ്രയിക്കാതെ നിരത്തിയിരിക്കുന്ന ഏകകേന്ദ്ര വൃത്തങ്ങളാണ്. ഈ ജാനറിനായി നൈജീരിയൻ രുചികൾ നൃത്തയോഗ്യതയുടെ ഒരു നിശ്ചിത നിലയിൽ ഏകീകൃതമാകുമോ?\n",
"\n",
"സാധാരണയായി, ഈ മൂന്ന് ജാനറുകൾ അവരുടെ ജനപ്രിയതയും നൃത്തയോഗ്യതയും സംബന്ധിച്ച് ഏകീകരിച്ചിരിക്കുന്നു. ഈ അല്പം ഏകീകരിച്ച ഡാറ്റയിൽ ക്ലസ്റ്ററുകൾ കണ്ടെത്തുന്നത് ഒരു വെല്ലുവിളിയാകും. ഒരു സ്കാറ്റർ പ്ലോട്ട് ഇതിനെ പിന്തുണയ്ക്കുമോ എന്ന് നോക്കാം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"# A scatter plot of popularity and danceability\r\n",
"scatter_plot <- nigerian_songs %>% \r\n",
" ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre, shape = artist_top_genre)) +\r\n",
" geom_point(size = 2, alpha = 0.8) +\r\n",
" paletteer::scale_color_paletteer_d(\"futurevisions::mars\")\r\n",
"\r\n",
"# Add a touch of interactivity\r\n",
"ggplotly(scatter_plot)\r\n"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"അടിസ്ഥാന അക്ഷങ്ങളിലുള്ള ഒരു സ്കാറ്റർപ്ലോട്ട് സമാനമായ ഏകീകരണ മാതൃക കാണിക്കുന്നു.\n",
"\n",
"സാധാരണയായി, ക്ലസ്റ്ററിംഗിനായി, ഡാറ്റയുടെ ക്ലസ്റ്ററുകൾ കാണിക്കാൻ സ്കാറ്റർപ്ലോട്ടുകൾ ഉപയോഗിക്കാം, അതിനാൽ ഈ തരത്തിലുള്ള ദൃശ്യീകരണം നന്നായി പഠിക്കുന്നത് വളരെ പ്രയോജനകരമാണ്. അടുത്ത പാഠത്തിൽ, ഈ ഫിൽട്ടർ ചെയ്ത ഡാറ്റ ഉപയോഗിച്ച് k-മീൻസ് ക്ലസ്റ്ററിംഗ് ഉപയോഗിച്ച് ഈ ഡാറ്റയിൽ രസകരമായ രീതിയിൽ ഒതുക്കപ്പെടുന്ന ഗ്രൂപ്പുകൾ കണ്ടെത്തും.\n",
"\n",
"## **🚀 ചലഞ്ച്**\n",
"\n",
"അടുത്ത പാഠത്തിനായി തയ്യാറെടുക്കുന്നതിന്, പ്രൊഡക്ഷൻ പരിസ്ഥിതിയിൽ നിങ്ങൾ കണ്ടെത്തുകയും ഉപയോഗിക്കുകയും ചെയ്യാവുന്ന വിവിധ ക്ലസ്റ്ററിംഗ് ആൽഗോരിതങ്ങൾക്കുറിച്ച് ഒരു ചാർട്ട് തയ്യാറാക്കുക. ക്ലസ്റ്ററിംഗ് പരിഹരിക്കാൻ ശ്രമിക്കുന്ന പ്രശ്നങ്ങൾ എന്തെല്ലാം ആണ്?\n",
"\n",
"## [**പാഠാനന്തര ക്വിസ്**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/28/)\n",
"\n",
"## **പരിശോധന & സ്വയം പഠനം**\n",
"\n",
"ക്ലസ്റ്ററിംഗ് ആൽഗോരിതങ്ങൾ പ്രയോഗിക്കുന്നതിന് മുമ്പ്, നാം പഠിച്ചതുപോലെ, നിങ്ങളുടെ ഡാറ്റാസെറ്റിന്റെ സ്വഭാവം മനസ്സിലാക്കുന്നത് നല്ല ആശയമാണ്. ഈ വിഷയത്തിൽ കൂടുതൽ വായിക്കുക [ഇവിടെ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)\n",
"\n",
"ക്ലസ്റ്ററിംഗ് സാങ്കേതികവിദ്യകളുടെ അറിവ് കൂടുതൽ ആഴത്തിൽ നേടുക:\n",
"\n",
"- [Tidymodels and friends ഉപയോഗിച്ച് ക്ലസ്റ്ററിംഗ് മോഡലുകൾ പരിശീലിപ്പിക്കുകയും മൂല്യനിർണയം നടത്തുകയും ചെയ്യുക](https://rpubs.com/eR_ic/clustering)\n",
"\n",
"- ബ്രാഡ്ലി ബോഹ്മ്കെ & ബ്രാൻഡൻ ഗ്രീൻവെൽ, [*Hands-On Machine Learning with R*](https://bradleyboehmke.github.io/HOML/)*.*\n",
"\n",
"## **അസൈൻമെന്റ്**\n",
"\n",
"[ക്ലസ്റ്ററിംഗിനുള്ള മറ്റ് ദൃശ്യീകരണങ്ങൾ ഗവേഷണം ചെയ്യുക](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/assignment.md)\n",
"\n",
"## നന്ദി:\n",
"\n",
"[ജെൻ ലൂപ്പർ](https://www.twitter.com/jenlooper) ഈ മോഡ്യൂളിന്റെ ഒറിജിനൽ പൈതൺ പതിപ്പ് സൃഷ്ടിച്ചതിന് ♥️\n",
"\n",
"[`ദാസാനി മടിപള്ളി`](https://twitter.com/dasani_decoded) മെഷീൻ ലേണിംഗ് ആശയങ്ങൾ കൂടുതൽ വ്യാഖ്യാനയോഗ്യവും മനസ്സിലാക്കാൻ എളുപ്പവുമാക്കുന്ന അത്ഭുതകരമായ ചിത്രീകരണങ്ങൾ സൃഷ്ടിച്ചതിന്.\n",
"\n",
"സന്തോഷകരമായ പഠനം,\n",
"\n",
"[എറിക്](https://twitter.com/ericntay), ഗോൾഡ് മൈക്രോസോഫ്റ്റ് ലേൺ സ്റ്റുഡന്റ് അംബാസഡർ.\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**അസൂയാപത്രം**: \nഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"anaconda-cloud": "",
"kernelspec": {
"display_name": "R",
"language": "R",
"name": "ir"
},
"language_info": {
"codemirror_mode": "r",
"file_extension": ".r",
"mimetype": "text/x-r-source",
"name": "R",
"pygments_lexer": "r",
"version": "3.4.1"
},
"coopTranslator": {
"original_hash": "99c36449cad3708a435f6798cfa39972",
"translation_date": "2025-12-19T17:00:55+00:00",
"source_file": "5-Clustering/1-Visualize/solution/R/lesson_14-R.ipynb",
"language_code": "ml"
}
},
"nbformat": 4,
"nbformat_minor": 1
}