{ "cells": [ { "cell_type": "markdown", "source": [ "## **ਨਾਈਜੀਰੀਆਈ ਮਿਊਜ਼ਿਕ Spotify ਤੋਂ ਇਕੱਠਾ ਕੀਤਾ - ਇੱਕ ਵਿਸ਼ਲੇਸ਼ਣ**\n", "\n", "ਕਲੱਸਟਰਿੰਗ [ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ](https://wikipedia.org/wiki/Unsupervised_learning) ਦੀ ਇੱਕ ਕਿਸਮ ਹੈ ਜੋ ਇਹ ਮੰਨਦੀ ਹੈ ਕਿ ਡੇਟਾਸੈੱਟ ਅਨਲੈਬਲਡ ਹੈ ਜਾਂ ਇਸਦੇ ਇਨਪੁਟਸ ਨੂੰ ਪਹਿਲਾਂ ਤੋਂ ਪਰਿਭਾਸ਼ਿਤ ਆਉਟਪੁਟਸ ਨਾਲ ਨਹੀਂ ਜੋੜਿਆ ਗਿਆ। ਇਹ ਵੱਖ-ਵੱਖ ਐਲਗੋਰਿਥਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ ਅਨਲੈਬਲਡ ਡੇਟਾ ਨੂੰ ਵੱਖ ਕਰਨ ਲਈ ਅਤੇ ਡੇਟਾ ਵਿੱਚ ਪੈਟਰਨ ਦੇ ਅਧਾਰ 'ਤੇ ਸਮੂਹ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ।\n", "\n", "[**ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **ਪ੍ਰਸਤਾਵਨਾ**\n", "\n", "[ਕਲੱਸਟਰਿੰਗ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ਡੇਟਾ ਦੀ ਖੋਜ ਲਈ ਬਹੁਤ ਹੀ ਲਾਭਦਾਇਕ ਹੈ। ਆਓ ਵੇਖੀਏ ਕਿ ਕੀ ਇਹ ਨਾਈਜੀਰੀਆਈ ਦਰਸ਼ਕਾਂ ਦੇ ਸੰਗੀਤ ਦੀ ਖਪਤ ਦੇ ਤਰੀਕਿਆਂ ਵਿੱਚ ਰੁਝਾਨ ਅਤੇ ਪੈਟਰਨ ਦੀ ਖੋਜ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੀ ਹੈ।\n", "\n", "> ✅ ਇੱਕ ਮਿੰਟ ਲਓ ਅਤੇ ਕਲੱਸਟਰਿੰਗ ਦੇ ਉਪਯੋਗਾਂ ਬਾਰੇ ਸੋਚੋ। ਅਸਲ ਜ਼ਿੰਦਗੀ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਉਸ ਸਮੇਂ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਕੱਪੜਿਆਂ ਦਾ ਢੇਰ ਹੁੰਦਾ ਹੈ ਅਤੇ ਤੁਹਾਨੂੰ ਆਪਣੇ ਪਰਿਵਾਰ ਦੇ ਮੈਂਬਰਾਂ ਦੇ ਕੱਪੜੇ ਵੱਖ ਕਰਨੇ ਪੈਂਦੇ ਹਨ 🧦👕👖🩲। ਡੇਟਾ ਸਾਇੰਸ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਉਸ ਸਮੇਂ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਕਿਸੇ ਉਪਭੋਗਤਾ ਦੀ ਪਸੰਦ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਜਾਂ ਕਿਸੇ ਅਨਲੈਬਲਡ ਡੇਟਾਸੈੱਟ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦਾ ਨਿਰਧਾਰਨ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਕਲੱਸਟਰਿੰਗ, ਇੱਕ ਤਰੀਕੇ ਨਾਲ, ਗੁੰਝਲ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਜੁਰਾਬਾਂ ਦੇ ਦਰਾਜ਼।\n", "\n", "ਪੇਸ਼ੇਵਰ ਸੈਟਿੰਗ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਵਰਤੋਂ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜਿਵੇਂ ਕਿ ਮਾਰਕੀਟ ਸੈਗਮੈਂਟੇਸ਼ਨ ਦਾ ਨਿਰਧਾਰਨ ਕਰਨਾ, ਜਿਵੇਂ ਕਿ ਕਿਹੜੀਆਂ ਉਮਰ ਦੇ ਸਮੂਹ ਕਿਹੜੀਆਂ ਚੀਜ਼ਾਂ ਖਰੀਦਦੇ ਹਨ। ਇੱਕ ਹੋਰ ਉਪਯੋਗਤਾ ਅਨੋਮਲੀ ਡਿਟੈਕਸ਼ਨ ਹੋ ਸਕਦੀ ਹੈ, ਸ਼ਾਇਦ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਲੈਣ-ਦੇਣ ਦੇ ਡੇਟਾਸੈੱਟ ਤੋਂ ਧੋਖਾਧੜੀ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ। ਜਾਂ ਤੁਸੀਂ ਮੈਡੀਕਲ ਸਕੈਨ ਦੇ ਬੈਚ ਵਿੱਚ ਟਿਊਮਰਾਂ ਦਾ ਨਿਰਧਾਰਨ ਕਰਨ ਲਈ ਕਲੱਸਟਰਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ।\n", "\n", "✅ ਇੱਕ ਮਿੰਟ ਲਈ ਸੋਚੋ ਕਿ ਤੁਸੀਂ ਕਲੱਸਟਰਿੰਗ ਨੂੰ 'ਜੰਗਲੀ' ਵਿੱਚ ਕਿਵੇਂ ਮਿਲਿਆ ਹੋਵੇਗਾ, ਜਿਵੇਂ ਕਿ ਬੈਂਕਿੰਗ, ਈ-ਕਾਮਰਸ, ਜਾਂ ਕਾਰੋਬਾਰ ਸੈਟਿੰਗ ਵਿੱਚ।\n", "\n", "> 🎓 ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਕਲੱਸਟਰ ਵਿਸ਼ਲੇਸ਼ਣ 1930 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਐਂਥਰੋਪੋਲੋਜੀ ਅਤੇ ਸਾਇਕੋਲੋਜੀ ਦੇ ਖੇਤਰਾਂ ਵਿੱਚ ਸ਼ੁਰੂ ਹੋਇਆ। ਕੀ ਤੁਸੀਂ ਕਲਪਨਾ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਕਿਵੇਂ ਵਰਤਿਆ ਗਿਆ ਹੋਵੇਗਾ?\n", "\n", "ਇਸਦੇ ਬਦਲੇ, ਤੁਸੀਂ ਇਸਦੀ ਵਰਤੋਂ ਖੋਜ ਦੇ ਨਤੀਜਿਆਂ ਨੂੰ ਸਮੂਹਬੱਧ ਕਰਨ ਲਈ ਕਰ ਸਕਦੇ ਹੋ - ਉਦਾਹਰਣ ਲਈ, ਖਰੀਦਦਾਰੀ ਲਿੰਕ, ਚਿੱਤਰ, ਜਾਂ ਸਮੀਖਾਵਾਂ ਦੁਆਰਾ। ਕਲੱਸਟਰਿੰਗ ਲਾਭਦਾਇਕ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਵੱਡਾ ਡੇਟਾਸੈੱਟ ਹੁੰਦਾ ਹੈ ਜਿਸਨੂੰ ਤੁਸੀਂ ਘਟਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ ਅਤੇ ਜਿਸ 'ਤੇ ਤੁਸੀਂ ਹੋਰ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਇਸ ਲਈ ਇਹ ਤਕਨੀਕ ਡੇਟਾ ਬਾਰੇ ਸਿੱਖਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਹੋਰ ਮਾਡਲ ਬਣਾਏ ਜਾਣ।\n", "\n", "✅ ਜਦੋਂ ਤੁਹਾਡਾ ਡੇਟਾ ਕਲੱਸਟਰਾਂ ਵਿੱਚ ਸੰਗਠਿਤ ਹੁੰਦਾ ਹੈ, ਤੁਸੀਂ ਇਸਨੂੰ ਇੱਕ ਕਲੱਸਟਰ ਆਈਡੀ ਸੌਂਪਦੇ ਹੋ, ਅਤੇ ਇਹ ਤਕਨੀਕ ਡੇਟਾਸੈੱਟ ਦੀ ਗੋਪਨੀਯਤਾ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਵਿੱਚ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦੀ ਹੈ; ਤੁਸੀਂ ਇਸਦੀ ਬਜਾਏ ਕਲੱਸਟਰ ਆਈਡੀ ਦੁਆਰਾ ਡੇਟਾ ਪੌਇੰਟ ਦਾ ਹਵਾਲਾ ਦੇ ਸਕਦੇ ਹੋ, ਜੋ ਹੋਰ ਖੁਲਾਸਾ ਕਰਨ ਵਾਲੇ ਡੇਟਾ ਦੇ ਤੱਤਾਂ ਨਾਲੋਂ। ਕੀ ਤੁਸੀਂ ਹੋਰ ਕਾਰਨਾਂ ਬਾਰੇ ਸੋਚ ਸਕਦੇ ਹੋ ਕਿ ਤੁਸੀਂ ਕਲੱਸਟਰ ਆਈਡੀ ਨੂੰ ਕਲੱਸਟਰ ਦੇ ਹੋਰ ਤੱਤਾਂ ਦੇ ਬਜਾਏ ਇਸਨੂੰ ਪਛਾਣ ਕਰਨ ਲਈ ਕਿਉਂ ਵਰਤੋਂਗੇ?\n", "\n", "### ਕਲੱਸਟਰਿੰਗ ਨਾਲ ਸ਼ੁਰੂਆਤ\n", "\n", "> 🎓 ਕਲੱਸਟਰ ਕਿਵੇਂ ਬਣਾਏ ਜਾਂਦੇ ਹਨ ਇਹ ਬਹੁਤ ਹੱਦ ਤੱਕ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਅਸੀਂ ਡੇਟਾ ਪੌਇੰਟਸ ਨੂੰ ਸਮੂਹਾਂ ਵਿੱਚ ਕਿਵੇਂ ਇਕੱਠਾ ਕਰਦੇ ਹਾਂ। ਆਓ ਕੁਝ ਸ਼ਬਦਾਵਲੀ ਨੂੰ ਸਮਝੀਏ:\n", ">\n", "> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> ਟ੍ਰਾਂਸਡਕਟਿਵ ਇੰਫਰੈਂਸ ਉਹਨਾਂ ਟ੍ਰੇਨਿੰਗ ਕੇਸਾਂ ਤੋਂ ਲਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਖਾਸ ਟੈਸਟ ਕੇਸਾਂ ਨਾਲ ਜੁੜਦੇ ਹਨ। ਇੰਡਕਟਿਵ ਇੰਫਰੈਂਸ ਉਹਨਾਂ ਟ੍ਰੇਨਿੰਗ ਕੇਸਾਂ ਤੋਂ ਲਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਆਮ ਨਿਯਮਾਂ ਨਾਲ ਜੁੜਦੇ ਹਨ ਜੋ ਫਿਰ ਟੈਸਟ ਕੇਸਾਂ 'ਤੇ ਲਾਗੂ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।\n", ">\n", "> ਇੱਕ ਉਦਾਹਰਣ: ਕਲਪਨਾ ਕਰੋ ਕਿ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਡੇਟਾਸੈੱਟ ਹੈ ਜੋ ਸਿਰਫ਼ ਅੰਸ਼ਕ ਤੌਰ 'ਤੇ ਲੈਬਲਡ ਹੈ। ਕੁਝ ਚੀਜ਼ਾਂ 'ਰਿਕਾਰਡ' ਹਨ, ਕੁਝ 'ਸੀਡੀ' ਹਨ, ਅਤੇ ਕੁਝ ਖਾਲੀ ਹਨ। ਤੁਹਾਡਾ ਕੰਮ ਖਾਲੀਆਂ ਲਈ ਲੇਬਲ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ। ਜੇ ਤੁਸੀਂ ਇੱਕ ਇੰਡਕਟਿਵ ਪਹੁੰਚ ਚੁਣਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ 'ਰਿਕਾਰਡ' ਅਤੇ 'ਸੀਡੀ' ਦੀ ਭਾਲ ਕਰਨ ਲਈ ਇੱਕ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰੋਗੇ, ਅਤੇ ਉਹਨਾਂ ਲੇਬਲਾਂ ਨੂੰ ਆਪਣੇ ਅਨਲੈਬਲਡ ਡੇਟਾ 'ਤੇ ਲਾਗੂ ਕਰੋਗੇ। ਇਹ ਪਹੁੰਚ ਉਹਨਾਂ ਚੀਜ਼ਾਂ ਨੂੰ ਵਰਗਬੱਧ ਕਰਨ ਵਿੱਚ ਮੁਸ਼ਕਲ ਹੋਵੇਗੀ ਜੋ ਅਸਲ ਵਿੱਚ 'ਕੈਸੇਟ' ਹਨ। ਟ੍ਰਾਂਸਡਕਟਿਵ ਪਹੁੰਚ, ਦੂਜੇ ਪਾਸੇ, ਇਸ ਅਣਜਾਣ ਡੇਟਾ ਨੂੰ ਹੋਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਭਾਲਦੀ ਹੈ ਕਿਉਂਕਿ ਇਹ ਸਮਾਨ ਚੀਜ਼ਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਨ ਲਈ ਕੰਮ ਕਰਦੀ ਹੈ ਅਤੇ ਫਿਰ ਇੱਕ ਸਮੂਹ ਨੂੰ ਲੇਬਲ ਲਗਾਉਂਦੀ ਹੈ। ਇਸ ਮਾਮਲੇ ਵਿੱਚ, ਕਲੱਸਟਰ 'ਗੋਲ ਸੰਗੀਤਕ ਚੀਜ਼ਾਂ' ਅਤੇ 'ਚੌਰਸ ਸੰਗੀਤਕ ਚੀਜ਼ਾਂ' ਨੂੰ ਦਰਸਾ ਸਕਦੇ ਹਨ।\n", ">\n", "> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> ਗਣਿਤਕ ਸ਼ਬਦਾਵਲੀ ਤੋਂ ਲਿਆ ਗਿਆ, ਨਾਨ-ਫਲੈਟ ਵਸ. ਫਲੈਟ ਜਿਓਮੈਟਰੀ ਪੌਇੰਟਸ ਦੇ ਵਿਚਕਾਰ ਦੂਰੀਆਂ ਨੂੰ ਮਾਪਣ ਦੇ ਤਰੀਕੇ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਜਾਂ ਤਾਂ 'ਫਲੈਟ' ([ਯੂਕਲਿਡੀਅਨ](https://wikipedia.org/wiki/Euclidean_geometry)) ਜਾਂ 'ਨਾਨ-ਫਲੈਟ' (ਨਾਨ-ਯੂਕਲਿਡੀਅਨ) ਜਿਓਮੈਟਰੀਕਲ ਵਿਧੀਆਂ ਦੁਆਰਾ।\n", ">\n", "> 'ਫਲੈਟ' ਇਸ ਸੰਦਰਭ ਵਿੱਚ ਯੂਕਲਿਡੀਅਨ ਜਿਓਮੈਟਰੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ (ਜਿਸਦੇ ਕੁਝ ਹਿੱਸੇ 'ਪਲੇਨ' ਜਿਓਮੈਟਰੀ ਵਜੋਂ ਪੜ੍ਹਾਏ ਜਾਂਦੇ ਹਨ), ਅਤੇ ਨਾਨ-ਫਲੈਟ ਨਾਨ-ਯੂਕਲਿਡੀਅਨ ਜਿਓਮੈਟਰੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਜਿਓਮੈਟਰੀ ਦਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨਾਲ ਕੀ ਸੰਬੰਧ ਹੈ? ਖੈਰ, ਦੋ ਖੇਤਰ ਜੋ ਗਣਿਤ ਵਿੱਚ ਜੜੇ ਹੋਏ ਹਨ, ਪੌਇੰਟਸ ਦੇ ਵਿਚਕਾਰ ਦੂਰੀਆਂ ਨੂੰ ਮਾਪਣ ਦਾ ਇੱਕ ਆਮ ਤਰੀਕਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ, ਅਤੇ ਇਹ 'ਫਲੈਟ' ਜਾਂ 'ਨਾਨ-ਫਲੈਟ' ਤਰੀਕੇ ਨਾਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਡੇਟਾ ਦੀ ਪ੍ਰਕਿਰਤੀ ਦੇ ਅਨੁਸਾਰ। [ਯੂਕਲਿਡੀਅਨ ਦੂਰੀਆਂ](https://wikipedia.org/wiki/Euclidean_distance) ਨੂੰ ਦੋ ਪੌਇੰਟਸ ਦੇ ਵਿਚਕਾਰ ਲਾਈਨ ਸੈਗਮੈਂਟ ਦੀ ਲੰਬਾਈ ਵਜੋਂ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ। [ਨਾਨ-ਯੂਕਲਿਡੀਅਨ ਦੂਰੀਆਂ](https://wikipedia.org/wiki/Non-Euclidean_geometry) ਨੂੰ ਇੱਕ ਵਕਰ ਦੇ ਨਾਲ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ। ਜੇ ਤੁਹਾਡਾ ਡੇਟਾ, ਵਿਜੁਅਲਾਈਜ਼ ਕੀਤਾ ਗਿਆ, ਇੱਕ ਪਲੇਨ 'ਤੇ ਮੌਜੂਦ ਨਹੀਂ ਲੱਗਦਾ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸਨੂੰ ਸੰਭਾਲਣ ਲਈ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਐਲਗੋਰਿਥਮ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ।\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"