From 0d0e0541806b90759190f9039772f1ffd0da47cb Mon Sep 17 00:00:00 2001 From: "localizeflow[bot]" Date: Tue, 26 May 2026 22:22:21 +0000 Subject: [PATCH] chore(i18n): sync translations with latest source changes (chunk 1/1, 9 changes) --- translations/pa/.co-op-translator.json | 8 +- .../pa/1-Introduction/1-intro-to-ML/README.md | 137 ++++++----- .../pa/5-Clustering/1-Visualize/README.md | 225 +++++++++++------- translations/pt-BR/.co-op-translator.json | 8 +- .../1-Introduction/1-intro-to-ML/README.md | 109 +++++---- .../pt-BR/5-Clustering/1-Visualize/README.md | 183 +++++++------- translations/pt-PT/.co-op-translator.json | 8 +- .../1-Introduction/1-intro-to-ML/README.md | 115 ++++----- .../pt-PT/5-Clustering/1-Visualize/README.md | 190 +++++++-------- 9 files changed, 535 insertions(+), 448 deletions(-) diff --git a/translations/pa/.co-op-translator.json b/translations/pa/.co-op-translator.json index 1f8d69806..7271013c3 100644 --- a/translations/pa/.co-op-translator.json +++ b/translations/pa/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-06T07:05:22+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:19:35+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "pa" }, @@ -240,8 +240,8 @@ "language_code": "pa" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-06T06:57:24+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:18:47+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "pa" }, diff --git a/translations/pa/1-Introduction/1-intro-to-ML/README.md b/translations/pa/1-Introduction/1-intro-to-ML/README.md index 98abeb7d5..26edb3c30 100644 --- a/translations/pa/1-Introduction/1-intro-to-ML/README.md +++ b/translations/pa/1-Introduction/1-intro-to-ML/README.md @@ -1,138 +1,157 @@ -# ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਚੇ +# ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ ## [ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ml/) --- -[![ਸ਼ੁਰੂਆਤੀ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ - ਸ਼ੁਰੂਆਤੀ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਚੇ](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ਸ਼ੁਰੂਆਤੀ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ - ਸ਼ੁਰੂਆਤੀ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਚੇ") +[![ਨਵੀਂ ਜਾਣਕਾਰੀ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ - ਸ਼ੁਰੂਆਤੀ ਲਈ ML](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ਨਵੀਂ ਜਾਣਕਾਰੀ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ - ਸ਼ੁਰੂਆਤੀ ਲਈ ML") -> 🎥 ਉਪਰ ਦਿੱਤੀ ਤਸਵੀਰ 'ਤੇ ਕਲਿਕ ਕਰੋ ਇਸ ਪਾਠ ਨੂੰ ਸਮਝਣ ਲਈ ਇੱਕ ਛੋਟੀ ਵੀਡੀਓ ਦੇਖਣ ਲਈ। +> 🎥 ਇਸ ਪਾਠ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹੋਏ ਛੋਟੀ ਵੀਡੀਓ ਦੇਖਣ ਲਈ ਉਪਰ ਦੀ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ। -ਸ਼ੁਰੂਆਤੀ ਲਈ ਕਲਾਸਿਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ 'ਤੇ ਇਸ ਕੋਰਸ ਵਿੱਚ ਤੁਹਾਡਾ ਸਵਾਗਤ ਹੈ! ਚਾਹੇ ਤੁਸੀਂ ਇਸ ਵਿਸ਼ੇ ਵਿੱਚ ਬਿਲਕੁਲ ਨਵੇਂ ਹੋ, ਜਾਂ ਇੱਕ ਅਨੁਭਵੀ ML ਪ੍ਰੈਕਟੀਸ਼ਨਰ ਹੋ ਜੋ ਕਿਸੇ ਖੇਤਰ ਵਿੱਚ ਆਪਣਾ ਗਿਆਨ ਤਾਜ਼ਾ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਅਸੀਂ ਤੁਹਾਡਾ ਸਵਾਗਤ ਕਰਦੇ ਹਾਂ! ਅਸੀਂ ਤੁਹਾਡੇ ML ਅਧਿਐਨ ਲਈ ਇੱਕ ਦੋਸਤਾਨਾ ਸ਼ੁਰੂਆਤੀ ਸਥਾਨ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹਾਂ ਅਤੇ ਤੁਹਾਡੇ [ਫੀਡਬੈਕ](https://github.com/microsoft/ML-For-Beginners/discussions) ਦਾ ਮੁਲਾਂਕਣ, ਜਵਾਬ ਅਤੇ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਖੁਸ਼ ਹੋਵਾਂਗੇ। +ਨਵੀਂ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲੇ ਲਈ ਕਲਾਸੀਕੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕੋਰਸ 'ਚ ਤੁਹਾਡਾ ਸਵਾਗਤ ਹੈ! ਚਾਹੇ ਤੁਸੀਂ ਇਸ ਵਿਸ਼ੇ ਵਿੱਚ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੇਂ ਹੋ, ਜਾਂ ਕਿਸੇ ਖੇਤਰ ਵਿੱਚ ਆਪਣੀ ਸਮਝ ਤਾਜ਼ਾ ਕਰਨ ਵਾਲੇ ਅਨੁਭਵੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪ੍ਰੈਕਟਿਸ਼ਨਰ ਹੋ, ਅਸੀਂ ਤੁਹਾਡਾ ਸਵਾਗਤ ਕਰਦੇ ਹਾਂ! ਅਸੀਂ ਤੁਹਾਡੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਧਿਐਨ ਲਈ ਇੱਕ ਮਿਲਾਪ ਦਾ ਸਹੀ ਸਥਾਨ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹਾਂ ਅਤੇ ਤੁਹਾਡੇ [ਫੀਡਬੈਕ](https://github.com/microsoft/ML-For-Beginners/discussions) ਨੂੰ ਮੁਲਾਂਕਣ ਕਰਨ, ਜਵਾਬ ਦੇਣ ਅਤੇ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਖੁਸ਼ ਹਾਂ। -[![ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਚੇ](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਚੇ") +[![ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ") -> 🎥 ਉਪਰ ਦਿੱਤੀ ਤਸਵੀਰ 'ਤੇ ਕਲਿਕ ਕਰੋ: MIT ਦੇ John Guttag ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਚੇ ਦਿੰਦੇ ਹਨ +> 🎥 ਉਪਰ ਦਿੱਤੀ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਇੱਕ ਵੀਡੀਓ ਲਈ: MIT ਦੇ ਜਾਨ ਗਟੈਗ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਿਚਯ ਕਰਵਾਉਂਦੇ ਹਨ --- -## ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨਾਲ ਸ਼ੁਰੂਆਤ +## ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨਾਲ ਸ਼ੁਰੂ ਕਰਨਾ -ਇਸ ਪਾਠਕ੍ਰਮ ਨੂੰ ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਤੁਹਾਨੂੰ ਆਪਣੀ ਕੰਪਿਊਟਰ ਸਥਾਪਨਾ ਕਰਨੀ ਅਤੇ ਨੋਟਬੁੱਕਸ ਨੂੰ ਸਥਾਨਕ ਤੌਰ 'ਤੇ ਚਲਾਉਣ ਲਈ ਤਿਆਰ ਕਰਨਾ ਪਵੇਗਾ। +ਇਸ ਕੋਰਸ ਕਰੀਕੁਲਮ ਤੋਂ ਪਹਿਲਾਂ, ਤੁਹਾਡੇ ਕੰਪਿਊਟਰ ਨੂੰ ਸਥਾਨਕ ਨੋਟਬੁੱਕ ਚਲਾਉਣ ਲਈ ਤਿਆਰ ਕਰਨਾ ਜਰੂਰੀ ਹੈ। -- **ਇਹ ਵੀਡੀਓਜ਼ ਨਾਲ ਆਪਣੀ ਮਸ਼ੀਨ ਕਨਫਿਗਰ ਕਰੋ**। [Python ਨੂੰ ਇੰਸਟਾਲ ਕਰਨ](https://youtu.be/CXZYvNRIAKM) ਅਤੇ ਵਿਕਾਸ ਲਈ [ਟੈਕਸਟ ਐਡੀਟਰ ਸੈਟਅੱਪ ਕਰਨ](https://youtu.be/EU8eayHWoZg) ਬਾਰੇ ਸਿੱਖਣ ਲਈ ਹੇਠਾਂ ਦਿੱਤੇ ਲਿੰਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। -- **Python ਸਿੱਖੋ**। ਇਹ ਵੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਕਿ ਤੁਹਾਨੂੰ [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) ਦੀ ਬੁਨਿਆਦੀ ਸਮਝ ਹੋਵੇ, ਜੋ ਕਿ ਡਾਟਾ ਸਾਇੰਟਿਸਟਾਂ ਲਈ ਲਾਭਦਾਇਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾ ਹੈ ਜਿਸਦਾ ਅਸੀਂ ਇਸ ਕੋਰਸ ਵਿੱਚ ਉਪਯੋਗ ਕਰਦੇ ਹਾਂ। -- **Node.js ਅਤੇ JavaScript ਸਿੱਖੋ**। ਅਸੀਂ ਇਸ ਕੋਰਸ ਵਿੱਚ ਕਈ ਵਾਰ ਵੈੱਬ ਐਪਸ ਬਣਾਉਣ ਲਈ JavaScript ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ, ਇਸ ਲਈ ਤੁਹਾਨੂੰ [node](https://nodejs.org) ਅਤੇ [npm](https://www.npmjs.com/) ਇੰਸਟਾਲ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੋਵੇਗੀ, ਅਤੇ [Visual Studio Code](https://code.visualstudio.com/) Python ਅਤੇ JavaScript ਵਿਕਾਸ ਲਈ ਉਪਲਬਧ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। -- **GitHub ਖਾਤਾ ਬਣਾਓ**। ਜਦੋਂ ਤੁਸੀਂ ਸਾਨੂੰ [GitHub](https://github.com) 'ਤੇ ਮਿਲੇ ਹੋ, ਤਾਂ ਤੁਹਾਡੇ ਕੋਲ ਪਹਿਲਾਂ ਹੀ ਇੱਕ ਖਾਤਾ ਹੋ ਸਕਦਾ ਹੈ, ਪਰ ਜੇ ਨਹੀਂ, ਤਾਂ ਇੱਕ ਬਣਾਓ ਅਤੇ ਫਿਰ ਇਸ ਪਾਠਕ੍ਰਮ ਨੂੰ ਆਪਣੇ ਲਈ ਵਰਤਣ ਲਈ ਫੋਰਕ ਕਰੋ। (ਸਾਨੂੰ ਇੱਕ ਸਟਾਰ ਦੇਣ ਲਈ ਵੀ ਖੁਸ਼ ਰਹੋ 😊) -- **Scikit-learn ਦੀ ਖੋਜ ਕਰੋ**। [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ਨਾਲ ਜਾਣੂ ਹੋਵੋ, ML ਲਾਇਬ੍ਰੇਰੀਆਂ ਦਾ ਇੱਕ ਸੈੱਟ ਜਿਸਦਾ ਅਸੀਂ ਇਸ ਪਾਠਕ੍ਰਮ ਵਿੱਚ ਹਵਾਲਾ ਦਿੰਦੇ ਹਾਂ। +- **ਇਹਨਾਂ ਵੀਡੀਓਜ਼ ਨਾਲ ਆਪਣੀ ਮਸ਼ੀਨ ਸੈੱਟ ਕਰੋ**। ਆਪਣੀ ਸਿਸਟਮ 'ਚ [ਪਾਇਥਨ ਕਿਵੇਂ ਇੰਸਟਾਲ ਕਰਨਾ ਹੈ](https://youtu.be/CXZYvNRIAKM) ਅਤੇ ਵਿਕਾਸ ਲਈ [ਟੈਕਸਟ ਐਡੀਟਰ ਸੈਟਅਪ](https://youtu.be/EU8eayHWoZg) ਸਿੱਖਣ ਲਈ ਹੇਠਾਂ ਦਿੱਤੇ ਲਿੰਕ ਵਰਤੋਂ। +- **ਪਾਇਥਨ ਸਿੱਖੋ**। ਇਹ ਵੀ ਸਿਫਾਰਸ਼ੀਯਾ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਬੁਨਿਆਦੀ ਤੌਰ 'ਤੇ [ਪਾਇਥਨ](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) ਦੀ ਸਮਝ ਹੋਵੇ, ਜੋ ਕਿ ਡਾਟਾ ਵਿਗਿਆਨੀਆਂ ਲਈ ਇੱਕ ਮਹਿਲੂਕ ਭਾਸ਼ਾ ਹੈ ਜਿਹੜੀ ਇਸ ਕੋਰਸ ਵਿੱਚ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। +- **ਨੋਡ.ਜੇਐਸ ਅਤੇ ਜਾਵਾਸਕ੍ਰਿਪਟ ਸਿੱਖੋ**। ਅਸੀਂ ਵੈੱਬ ਐਪ ਬਣਾਉਣ ਵੇਲੇ ਇਸ ਕੋਰਸ ਵਿੱਚ ਜਾਵਾਸਕ੍ਰਿਪਟ ਵੀ ਕਈ ਵਾਰ ਵਰਤਦੇ ਹਾਂ, ਇਸ ਲਈ ਤੁਹਾਡੇ ਕੋਲ [node](https://nodejs.org) ਅਤੇ [npm](https://www.npmjs.com/) ਇੰਸਟਾਲ ਹੋਣ ਲਾਜ਼ਮੀ ਹਨ, ਨਾਲ ਹੀ [Visual Studio Code](https://code.visualstudio.com/) ਪਾਇਥਨ ਅਤੇ ਜਾਵਾਸਕ੍ਰਿਪਟ ਵਿਕਾਸ ਲਈ ਉਪਲਬਧ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। +- **GitHub ਖਾਤਾ ਬਣਾਓ**। ਕਿਉਂਕਿ ਤੁਸੀਂ ਇੱਥੇ [GitHub](https://github.com) 'ਤੇ ਸਾਡੇ ਨਾਲ ਮਿਲੇ ਹੋ, ਤੁਹਾਡੇ ਕੋਲ ਪਹਿਲਾਂ ਹੀ ਖਾਤਾ ਹੋ ਸਕਦਾ ਹੈ, ਪਰ ਜੇ ਨਹੀਂ, ਤਾਂ ਇੱਕ ਬਣਾਓ ਅਤੇ ਇਸ ਕਰੀਕੁਲਮ ਨੂੰ ਆਪਣੇ ਲਈ fork ਕਰੋ। (ਸਾਨੂੰ ਇੱਕ ਸਿਤਾਰਾ ਦੇਣ ਲਈ ਵੀ ਸੁਤੰਤਰ ਰਹੋ 😊) +- **Scikit-learn ਨੂੰ ਵੇਖੋ**। [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ਨਾਲ ਜਾਣੂ ਹੋਵੋ, ਇਹ ML ਲਾਇਬ੍ਰੇਰੀਜ਼ ਦਾ ਇੱਕ ਸੈੱਟ ਹੈ ਜੋ ਅਸੀਂ ਇਸ ਪਾਠਾਂ ਵਿੱਚ ਸੂਚਿਤ ਕਰਦੇ ਹਾਂ। --- ## ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕੀ ਹੈ? -'ਮਸ਼ੀਨ ਲਰਨਿੰਗ' ਸ਼ਬਦ ਅੱਜ ਦੇ ਸਭ ਤੋਂ ਪ੍ਰਸਿੱਧ ਅਤੇ ਵਧੇਰੇ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਸ਼ਬਦਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਇਹ ਸੰਭਵ ਹੈ ਕਿ ਤੁਸੀਂ ਇਹ ਸ਼ਬਦ ਘੱਟੋ-ਘੱਟ ਇੱਕ ਵਾਰ ਸੁਣਿਆ ਹੋਵੇ ਜੇ ਤੁਹਾਨੂੰ ਤਕਨਾਲੋਜੀ ਨਾਲ ਕੁਝ ਜਾਣੂ ਹੈ, ਚਾਹੇ ਤੁਸੀਂ ਕਿਸੇ ਵੀ ਖੇਤਰ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਹੋ। ਹਾਲਾਂਕਿ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਮਕੈਨਿਕਸ ਜ਼ਿਆਦਾਤਰ ਲੋਕਾਂ ਲਈ ਇੱਕ ਰਹੱਸ ਹਨ। ਇੱਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸ਼ੁਰੂਆਤੀ ਲਈ, ਇਹ ਵਿਸ਼ਾ ਕਈ ਵਾਰ ਭਿਆਨਕ ਮਹਿਸੂਸ ਹੋ ਸਕਦਾ ਹੈ। ਇਸ ਲਈ, ਇਹ ਸਮਝਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਸਲ ਵਿੱਚ ਕੀ ਹੈ, ਅਤੇ ਇਸਨੂੰ ਅਮਲੀ ਉਦਾਹਰਣਾਂ ਰਾਹੀਂ ਕਦਮ-ਦਰ-ਕਦਮ ਸਿੱਖਣਾ। +'ਮਸ਼ੀਨ ਲਰਨਿੰਗ' ਸ਼ਬਦ ਅੱਜ ਕੱਲ੍ਹ ਦਾ ਸਭ ਤੋਂ ਲੋਕਪ੍ਰਿਯ ਅਤੇ ਵਧ ਰਹੀਆਂ ਗੱਲਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਤੁਹਾਨੂੰ ਇਹ ਸ਼ਬਦ ਕਦੇ ਨਾ ਕਦੇ ਸੁਣਿਆ ਹੋਵੇਗਾ ਜੇਕਰ ਤੁਹਾਨੂੰ ਤਕਨਾਲੋਜੀ ਦਾ ਕੁਝ ਨਾ ਕੁਝ ਜਾਣੂ ਹੈ, ਭਾਵੇਂ ਤੁਸੀਂ ਕਿਸੇ ਵੀ ਖੇਤਰ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਹੋ। ਪਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਪ੍ਰਕਿਰਿਆ ਜ਼ਿਆਦਾਤਰ ਲੋਕਾਂ ਲਈ ਇੱਕ ਰਹੱਸ ਹੈ। ਇੱਕ ਨਵੇਂ ਸਿੱਖਣ ਵਾਲੇ ਲਈ, ਇਹ ਮੁਅੱਤਲਪ ਹਾਈਸੀ ਹੋ ਸਕਦੀ ਹੈ। ਇਸ ਲਈ ਇਹ ਜਰੂਰੀ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਪਤਾ ਲੱਗੇ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਾਕਈ ਕੀ ਹੈ ਅਤੇ ਇਸਨੂੰ ਇੱਕ ਇੱਕ ਕਦਮ ਨਾਲ ਵਿਹਾਰਕ ਉਦਾਹਰਨਾਂ ਰਾਹੀਂ ਸਿੱਖਣਾ ਚਾਹੀਦਾ ਹੈ। --- -## ਹਾਈਪ ਕਰਵ +## ਹਾਇਪ ਕ੍ਰੂਵ -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/pa/hype.07183d711a17aafe.webp) -> Google Trends 'ਮਸ਼ੀਨ ਲਰਨਿੰਗ' ਸ਼ਬਦ ਦੇ ਹਾਲੀਆ 'ਹਾਈਪ ਕਰਵ' ਨੂੰ ਦਿਖਾਉਂਦਾ ਹੈ +> ਗੂਗਲ ਟ੍ਰੈਂਡਸ 'ਮਸ਼ੀਨ ਲਰਨਿੰਗ' ਸ਼ਬਦ ਦੀ ਹਾਲ ਹੀ ਦੀ ਹਾਇਪ ਕ੍ਰੂਵ ਦਿਖਾਉਂਦਾ ਹੈ --- ## ਇੱਕ ਰਹੱਸਮਈ ਬ੍ਰਹਿਮੰਡ -ਅਸੀਂ ਇੱਕ ਬ੍ਰਹਿਮੰਡ ਵਿੱਚ ਰਹਿੰਦੇ ਹਾਂ ਜੋ ਦਿਲਚਸਪ ਰਹੱਸਾਂ ਨਾਲ ਭਰਿਆ ਹੋਇਆ ਹੈ। Stephen Hawking, Albert Einstein ਅਤੇ ਹੋਰ ਮਹਾਨ ਵਿਗਿਆਨੀਆਂ ਨੇ ਆਪਣੇ ਜੀਵਨ ਨੂੰ ਅਰਪਣ ਕੀਤਾ ਹੈ ਤਾਂ ਜੋ ਉਹਨਾਂ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਦੀ ਦੁਨੀਆ ਦੇ ਰਹੱਸਾਂ ਨੂੰ ਖੋਲ੍ਹਣ ਵਾਲੀ ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਦੀ ਖੋਜ ਕਰ ਸਕਣ। ਇਹ ਮਨੁੱਖੀ ਸਿੱਖਣ ਦੀ ਸਥਿਤੀ ਹੈ: ਇੱਕ ਮਨੁੱਖੀ ਬੱਚਾ ਨਵੀਆਂ ਚੀਜ਼ਾਂ ਸਿੱਖਦਾ ਹੈ ਅਤੇ ਜਦੋਂ ਉਹ ਵਧੇਰੇ ਹੋਰ ਸਿੱਖਦਾ ਹੈ, ਉਹ ਆਪਣੇ ਆਲੇ-ਦੁਆਲੇ ਦੀ ਦੁਨੀਆ ਦੀ ਬਣਤਰ ਨੂੰ ਖੋਲ੍ਹਦਾ ਹੈ। +ਅਸੀਂ ਇੱਕ ਐਸੇ ਬ੍ਰਹਿਮੰਡ ਵਿੱਚ ਰਹਿ ਰਹੇ ਹਾਂ ਜੋ ਰੋਮਾਂਚਕ ਰਹੱਸਾਂ ਨਾਲ ਭਰਪੂਰ ਹੈ। ਮਹਾਨ ਵਿਗਿਆਨੀਆਂ ਜਿਵੇਂ ਸਟੀਫ਼ਨ ਹਾਕਿੰਗ, ਅਲਬਰਟ ਆਇੰਸਟਾਈਨ ਅਤੇ ਹੋਰ ਕਈ ਨੇ ਆਪਣੀ ਜ਼ਿੰਦਗੀ ਇਸ ਕਾਈਨਾਤ ਦੇ ਅਰਥਪੂਰਨ ਜਾਣਕਾਰੀਆਂ ਦੀ ਖੋਜ ਵਿੱਚ ਬਤੀਤ ਕੀਤੀ ਹੈ। ਇਹ ਮਨੁੱਖੀ ਸਿੱਖਣ ਦੀ ਹਾਲਤ ਹੈ: ਇੱਕ ਬਾਲਕ ਆਪਣੇ ਚਰਣ ਵਿੱਚ ਵੱਧਦਾ ਜਾ ਕੇ ਆਪਣੀ ਦੁਨੀਆ ਦੀ ਸੰਰਚਨਾ ਜਾਨਦਾ ਜਾਂਦਾ ਹੈ। --- -## ਬੱਚੇ ਦਾ ਦਿਮਾਗ +## ਬੱਚੇ ਦਾ ਦਿਮਾਗ਼ -ਬੱਚੇ ਦਾ ਦਿਮਾਗ ਅਤੇ ਇੰਦ੍ਰੀਆਂ ਆਪਣੇ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਤੱਥਾਂ ਨੂੰ ਸਮਝਦੀਆਂ ਹਨ ਅਤੇ ਜੀਵਨ ਦੇ ਲੁਕਵੇਂ ਪੈਟਰਨਾਂ ਨੂੰ ਸਿੱਖਦੀਆਂ ਹਨ ਜੋ ਬੱਚੇ ਨੂੰ ਸਿੱਖੇ ਪੈਟਰਨਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਤਰਕਸ਼ੀਲ ਨਿਯਮ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ। ਮਨੁੱਖੀ ਦਿਮਾਗ ਦੀ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਮਨੁੱਖਾਂ ਨੂੰ ਇਸ ਦੁਨੀਆ ਦਾ ਸਭ ਤੋਂ ਜਟਿਲ ਜੀਵ ਬਣਾਉਂਦੀ ਹੈ। ਲੁਕਵੇਂ ਪੈਟਰਨਾਂ ਦੀ ਖੋਜ ਕਰਕੇ ਲਗਾਤਾਰ ਸਿੱਖਣਾ ਅਤੇ ਫਿਰ ਉਹਨਾਂ ਪੈਟਰਨਾਂ 'ਤੇ ਨਵਾਟ ਕਰਨਾ ਸਾਨੂੰ ਆਪਣੇ ਜੀਵਨ ਦੇ ਦੌਰਾਨ ਵਧੇਰੇ ਬਿਹਤਰ ਬਣਾਉਣ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਸਿੱਖਣ ਦੀ ਸਮਰੱਥਾ ਅਤੇ ਵਿਕਾਸ ਕਰਨ ਦੀ ਯੋਗਤਾ [ਦਿਮਾਗ ਦੀ ਪਲਾਸਟਿਕਤਾ](https://www.simplypsychology.org/brain-plasticity.html) ਨਾਲ ਸੰਬੰਧਿਤ ਹੈ। ਸਧਾਰਨ ਤੌਰ 'ਤੇ, ਅਸੀਂ ਮਨੁੱਖੀ ਦਿਮਾਗ ਦੀ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਸੰਕਲਪਾਂ ਦੇ ਵਿਚਕਾਰ ਕੁਝ ਪ੍ਰੇਰਣਾਦਾਇਕ ਸਮਾਨਤਾਵਾਂ ਖਿੱਚ ਸਕਦੇ ਹਾਂ। +ਬੱਚੇ ਦਾ ਦਿਮਾਗ਼ ਅਤੇ ਸੇਂਸ ਆਪਣੇ ਆਲੇ ਦੁਆਲੇ ਦੇ ਤੱਥਾਂ ਨੂੰ ਮਹਿਸੂਸ ਕਰਦਾ ਹੈ ਅਤੇ ਹੌਲੀ-ਹੌਲੀ ਜ਼ਿੰਦਗੀ ਦੇ ਲੁਕਵੇਂ ਪੈਟਰਨ ਸਿੱਖਦਾ ਹੈ ਜੋ ਬੱਚੇ ਨੂੰ ਸਿਖੇ ਹੋਏ ਪੈਟਰਨਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਤਰਕਸੰਗਤ ਨਿਯਮ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ। ਮਨੁੱਖੀ ਦਿਮਾਗ਼ ਦਾ ਸਿੱਖਣ ਵਾਲਾ ਪ੍ਰਕਿਰਿਆ ਇਸ ਦੁਨੀਆ ਦਾ ਸਭ ਤੋਂ ਸੁੱਖੇੜਾ ਜੀਵ ਬਣਾਉਂਦਾ ਹੈ। ਲੁਕਵੇਂ ਪੈਟਰਨਾਂ ਨੂੰ ਲਗਾਤਾਰ ਖੋਜ ਕੇ ਅਤੇ ਫਿਰ ਉਹਨਾਂ ਪੈਟਰਨਾਂ 'ਤੇ ਨਵੀਨਤਾ ਲਿਆਉਣ ਨਾਲ ਅਸੀਂ ਆਪਣੇ ਆਪ ਨੂੰ ਆਪਣੇ ਜੀਵਨ ਕਾਲ ਵਿਚ ਵਧੀਆ ਬਣਾਂਦੇ ਜਾ ਰਹੇ ਹਾਂ। ਇਹ ਸਿੱਖਣ ਵਾਲੀ ਸਮਰੱਥਾ ਅਤੇ ਵਿਕਾਸਸ਼ੀਲ ਯੋਗਤਾ [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html) ਨਾਲ ਸਬੰਧਿਤ ਹੈ। ਸਾਹਮਣੇ ਦੇਖਣ ਤੇ, ਅਸੀਂ ਮਨੁੱਖੀ ਦਿਮਾਗ਼ ਦੀ ਸਿੱਖਣ ਵਾਲੀ ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਧਾਰਾਵਾਂ ਵਿੱਚ ਕੁਝ ਪ੍ਰੇਰਕ ਸਮਾਨਤਾ ਵੇਖ ਸਕਦੇ ਹਾਂ। --- -## ਮਨੁੱਖੀ ਦਿਮਾਗ +## ਮਨੁੱਖੀ ਦਿਮਾਗ਼ -[ਮਨੁੱਖੀ ਦਿਮਾਗ](https://www.livescience.com/29365-human-brain.html) ਅਸਲ ਦੁਨੀਆ ਤੋਂ ਚੀਜ਼ਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ, ਸਮਝੀ ਜਾਣ ਵਾਲੀ ਜਾਣਕਾਰੀ ਨੂੰ ਪ੍ਰਕਿਰਿਆਵਤ ਕਰਦਾ ਹੈ, ਤਰਕਸ਼ੀਲ ਫੈਸਲੇ ਲੈਂਦਾ ਹੈ, ਅਤੇ ਹਾਲਾਤਾਂ ਦੇ ਅਧਾਰ 'ਤੇ ਕੁਝ ਕਾਰਵਾਈਆਂ ਕਰਦਾ ਹੈ। ਇਹ ਉਹ ਹੈ ਜਿਸਨੂੰ ਅਸੀਂ ਬੁੱਧੀਮਾਨ ਵਿਹਾਰ ਕਰਨਾ ਕਹਿੰਦੇ ਹਾਂ। ਜਦੋਂ ਅਸੀਂ ਇੱਕ ਮਸ਼ੀਨ ਨੂੰ ਬੁੱਧੀਮਾਨ ਵਿਹਾਰਕ ਪ੍ਰਕਿਰਿਆ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਪ੍ਰੋਗਰਾਮ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਇਸਨੂੰ ਕ੍ਰਿਤ੍ਰਿਮ ਬੁੱਧੀਮਤਾ (AI) ਕਿਹਾ ਜਾਂਦਾ ਹੈ। +[ਮਨੁੱਖੀ ਦਿਮਾਗ਼](https://www.livescience.com/29365-human-brain.html) ਅਸਲੀ ਦੁਨੀਆ ਤੋਂ ਚੀਜ਼ਾਂ ਮਹਿਸੂਸ ਕਰਦਾ ਹੈ, ਮਹਿਸੂਸ ਕੀਤੀ ਜਾਣਕਾਰੀ ਨੂੰ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ, ਤਰਕਸੰਗਤ ਫੈਸਲੇ ਲੈਂਦਾ ਹੈ, ਅਤੇ ਸਥਿਤੀਆਂ ਦੇ ਆਧਾਰ 'ਤੇ ਕੁਝ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਹੈ ਜਿਸਨੂੰ ਅਸੀਂ ਹੋਸ਼ਿਆਰ ਤਰੀਕੇ ਨਾਲ ਵਰਤਾਵ ਕਹਿੰਦੇ ਹਾਂ। ਜਦੋਂ ਅਸੀਂ ਇਸ ਹੋਸ਼ਿਆਰ ਵਰਤਾਅ ਵਾਲੀ ਪ੍ਰਕਿਰਿਆ ਦੀ ਨਕਲ ਕਿਸੇ ਮਸ਼ੀਨ ਨੂੰ ਪ੍ਰੋਗ੍ਰਾਮ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਇਸਨੂੰ ਕਹਿੰਦੇ ਹਾਂ ਕ੍ਰਿਤ੍ਰਿਮ ਬੁੱਧੀ (AI)। --- ## ਕੁਝ ਸ਼ਬਦਾਵਲੀ -ਹਾਲਾਂਕਿ ਇਹ ਸ਼ਬਦ ਗੁੰਝਲਦਾਰ ਹੋ ਸਕਦੇ ਹਨ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ (ML) ਕ੍ਰਿਤ੍ਰਿਮ ਬੁੱਧੀਮਤਾ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਉਪਸੈੱਟ ਹੈ। **ML ਵਿਸ਼ੇਸ਼ ਅਲਗੋਰਿਥਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਦੀ ਖੋਜ ਕਰਨ ਅਤੇ ਸਮਝੀ ਜਾਣ ਵਾਲੀ ਡਾਟਾ ਤੋਂ ਲੁਕਵੇਂ ਪੈਟਰਨਾਂ ਨੂੰ ਖੋਜਣ ਲਈ ਚਿੰਤਤ ਹੈ ਤਾਂ ਜੋ ਤਰਕਸ਼ੀਲ ਫੈਸਲੇ ਲੈਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਹੀ ਕੀਤਾ ਜਾ ਸਕੇ**। +ਹਾਲਾਂਕਿ ਇਹ ਸ਼ਬਦ ਕਈ ਵਾਰ ਗਲਤਫ਼ਹਮੀ ਹੋ ਸਕਦੇ ਹਨ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ (ML) ਕ੍ਰਿਤ੍ਰਿਮ ਬੁੱਧੀ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਹੈ। **ML ਖਾਸ ਤੌਰ 'ਤੇ ਤਕਨੀਕੀ ਅਲਗੋਰਿਦਮਾਂ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਨੂੰ ਖੋਜਨ ਅਤੇ ਪ੍ਰਾਪਤ ਡਾਟਾ ਵਿੱਚ ਲੁਕਵੇਂ ਪੈਟਰਨਾਂ ਨੂੰ ਲੱਭ ਕੇ ਤਰਕਸੰਗਤ ਫੈਸਲੇ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਨਾਲ ਸਬੰਧਤ ਹੈ**। --- ## AI, ML, ਡੀਪ ਲਰਨਿੰਗ -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/pa/ai-ml-ds.537ea441b124ebf6.webp) -> AI, ML, ਡੀਪ ਲਰਨਿੰਗ ਅਤੇ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਵਿਚਕਾਰ ਸੰਬੰਧਾਂ ਨੂੰ ਦਿਖਾਉਣ ਵਾਲਾ ਇੱਕ ਡਾਇਗ੍ਰਾਮ। [Jen Looper](https://twitter.com/jenlooper) ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਇਨਫੋਗ੍ਰਾਫਿਕ [ਇਸ ਗ੍ਰਾਫਿਕ](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) ਤੋਂ ਪ੍ਰੇਰਿਤ +> AI, ML, ਡੀਪ ਲਰਨਿੰਗ ਅਤੇ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਦਰਮਿਆਨ ਰਿਸ਼ਤਿਆਂ ਨੂੰ ਦਰਸਾਉਂਦੀ ਡਾਇਗ੍ਰਾਮ। ਜਾਣੂ ਬਨਾਉਣ ਵਾਲਾ [Jen Looper](https://twitter.com/jenlooper) ਵੱਲੋਂ ਬਣਾਈ ਗਈ ਅਤੇ [ਇਹ ਗ੍ਰਾਫਿਕ](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) ਤੋਂ ਪ੍ਰੇਰਿਤ --- -## ਕਵਰ ਕਰਨ ਲਈ ਸੰਕਲਪ +## ਕਾਂਸੈਪਟ ਕਵਰ ਕਰਨ -ਇਸ ਪਾਠਕ੍ਰਮ ਵਿੱਚ, ਅਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਕੇਵਲ ਮੁੱਖ ਸੰਕਲਪਾਂ ਨੂੰ ਕਵਰ ਕਰਨ ਜਾ ਰਹੇ ਹਾਂ ਜੋ ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਨੂੰ ਪਤਾ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ। ਅਸੀਂ 'ਕਲਾਸਿਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ' ਨੂੰ ਮੁੱਖ ਤੌਰ 'ਤੇ Scikit-learn ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਵਰ ਕਰਦੇ ਹਾਂ, ਇੱਕ ਸ਼ਾਨਦਾਰ ਲਾਇਬ੍ਰੇਰੀ ਜਿਸਦਾ ਬਹੁਤ ਸਾਰੇ ਵਿਦਿਆਰਥੀ ਬੁਨਿਆਦੀਆਂ ਸਿੱਖਣ ਲਈ ਉਪਯੋਗ ਕਰਦੇ ਹਨ। ਕ੍ਰਿਤ੍ਰਿਮ ਬੁੱਧੀਮਤਾ ਜਾਂ ਡੀਪ ਲਰਨਿੰਗ ਦੇ ਵਿਆਪਕ ਸੰਕਲਪਾਂ ਨੂੰ ਸਮਝਣ ਲਈ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਮਜ਼ਬੂਤ ਬੁਨਿਆਦੀ ਗਿਆਨ ਅਵਸ਼ਕ ਹੈ, ਅਤੇ ਇਸ ਲਈ ਅਸੀਂ ਇਸਨੂੰ ਇੱਥੇ ਪੇਸ਼ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। +ਇਸ ਕਰੀਕੁਲਮ ਵਿੱਚ ਅਸੀਂ ਸਿਰਫ਼ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਮੂਲ ਕਾਂਸੈਪਟ ਕਵਰ ਕਰਾਂਗੇ ਜੋ ਸ਼ੁਰੂਆਤੀ ਲਈ ਹਰਜਰੂਰੀ ਹਨ। ਅਸੀਂ ਜਿਨ੍ਹਾਂਨੂੰ ਅਸੀਂ ਕਲਾਸੀਕੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕਹਿੰਦੇ ਹਾਂ ਉਨ੍ਹਾਂ ਵਿੱਚ ਅਸੀਂ ਬਹੁਤ ਬਦੀਆ ਲਾਇਬ੍ਰੇਰੀ Scikit-learn ਦੇ ਜ਼ਰੀਏ ਬੁਨਿਆਦੀ ਮੁੱਦਿਆਂ ਤੇ ਕੇਂਦਰਿਤ ਹਾਂ। ਕ੍ਰਿਤ੍ਰਿਮ ਬੁੱਧੀ ਜਾਂ ਡੀਪ ਲਰਨਿੰਗ ਦੇ ਵਿਆਪਕ ਕਾਂਸੈਪਟਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਮਜ਼ਬੂਤ ਬੁਨਿਆਦੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਜਾਣਕਾਰੀ ਲਾਜ਼ਮੀ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਇਹ ਇੱਥੇ ਦਿੰਦੇ ਹਾਂ। --- ## ਇਸ ਕੋਰਸ ਵਿੱਚ ਤੁਸੀਂ ਸਿੱਖੋਗੇ: -- ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਮੁੱਖ ਸੰਕਲਪ +- ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਮੂਲ ਕਾਂਸੈਪਟ - ML ਦਾ ਇਤਿਹਾਸ -- ML ਅਤੇ ਨਿਰਪੱਖਤਾ -- ਰਿਗਰੈਸ਼ਨ ML ਤਕਨੀਕਾਂ +- ML ਅਤੇ ਨ੍ਯਾਯ ਸੰਬੰਧੀ ਗੱਲਾਂ +- ਰੈਗ੍ਰੈਸ਼ਨ ML ਤਕਨੀਕਾਂ - ਕਲਾਸੀਫਿਕੇਸ਼ਨ ML ਤਕਨੀਕਾਂ -- ਕਲਸਟਰਿੰਗ ML ਤਕਨੀਕਾਂ -- ਪ੍ਰਾਕ੍ਰਿਤਿਕ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ML ਤਕਨੀਕਾਂ -- ਸਮੇਂ ਦੀ ਲੜੀ ਅਨੁਮਾਨ ML ਤਕਨੀਕਾਂ -- ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ -- ML ਲਈ ਅਸਲ ਦੁਨੀਆ ਦੇ ਐਪਲੀਕੇਸ਼ਨ +- ਕਲੱਸਟਰਿੰਗ ML ਤਕਨੀਕਾਂ +- ਨੈਚਰਲ ਲੈਂਗਵੇਜ ਪ੍ਰੋਸੈਸਿੰਗ ML ਤਕਨੀਕਾਂ +- ਸਮੇਂ ਦੀ ਲੜੀ ਅਨੁਮਾਨ ਲਗਾਉਣ ਵਾਲੀ ML ਤਕਨੀਕਾਂ +- ਰੀਇੰਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ +- ਆਰਥਿਕ, ਸਿਹਤ ਸਮੇਤ ਵਾਸਤਵਿਕ ਜ਼ਿੰਦਗੀ ਦੇ ML ਦੇ ਪ੍ਰਯੋਗ --- -## ਅਸੀਂ ਕੀ ਕਵਰ ਨਹੀਂ ਕਰਾਂਗੇ +## ਅਸੀਂ ਕੀ ਨਹੀਂ ਕਵਰ ਕਰਾਂਗੇ - ਡੀਪ ਲਰਨਿੰਗ -- ਨਿਊਰਲ ਨੈਟਵਰਕ +- ਨਿਊਰਲ ਨੈੱਟਵਰਕ - AI -ਸਿੱਖਣ ਦੇ ਬਿਹਤਰ ਅਨੁਭਵ ਲਈ, ਅਸੀਂ ਨਿਊਰਲ ਨੈਟਵਰਕ, 'ਡੀਪ ਲਰਨਿੰਗ' - ਨਿਊਰਲ ਨੈਟਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਹੁ-ਪੜਾਵਾਂ ਵਾਲੇ ਮਾਡਲ-ਬਿਲਡਿੰਗ - ਅਤੇ AI ਦੀ ਜਟਿਲਤਾ ਤੋਂ ਬਚਾਂਗੇ, ਜਿਸਨੂੰ ਅਸੀਂ ਇੱਕ ਵੱਖਰੇ ਪਾਠਕ੍ਰਮ ਵਿੱਚ ਚਰਚਾ ਕਰਾਂਗੇ। ਅਸੀਂ ਇਸ ਵੱਡੇ ਖੇਤਰ ਦੇ ਉਸ ਪਹلو 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨ ਲਈ ਇੱਕ ਆਉਣ ਵਾਲਾ ਡਾਟਾ ਸਾਇੰਸ ਪਾਠਕ੍ਰਮ ਵੀ ਪੇਸ਼ ਕਰਾਂਗੇ। +ਵਧੀਆ ਸਿੱਖਣ ਦਾ таҷਰਬਾ ਬਣਾਉਣ ਲਈ, ਅਸੀਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕਸ, 'ਡੀਪ ਲਰਨਿੰਗ' - ਜੋ ਕਿ ਨਿਊਰਲ ਨੈੱਟਵਰਕਸ ਦੀ ਵਰਤੋਂ ਨਾਲ ਬਹੁਤ ਸਤਹੀ ਮਾਡਲ-ਬਨਾਉਣ ਹੈ - ਅਤੇ AI ਵਿਸ਼ੇ ਨੂੰ ਇਸ ਕਰੀਕੁਲਮ ਤੋਂ ਬਚਾਵਾਂਗੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਲਈ ਇੱਕ ਆਉਣ ਵਾਲਾ ਕਰੀਕੁਲਮ ਵੀ ਪ੍ਰਦਾਨ ਕਰਾਂਗੇ ਜੋ ਇਸ ਵੱਡੇ ਖੇਤਰ ਦੇ ਇਸ ਪੱਖ 'ਤੇ ਕੇਂਦਰਿਤ ਹੋਵੇਗਾ। --- -## ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕਿਉਂ ਸਿੱਖੀ ਜਾਵੇ? +## ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕਿਉਂ ਸਿੱਖਣਾ? -ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੂੰ ਸਿਸਟਮ ਦੇ ਨਜ਼ਰੀਏ ਤੋਂ, ਡਾਟਾ ਤੋਂ ਲੁਕਵੇਂ ਪੈਟਰਨਾਂ ਨੂੰ ਸਿੱਖਣ ਲਈ ਆਟੋਮੈਟਿਕ ਸਿਸਟਮ ਬਣਾਉਣ ਦੇ ਤੌਰ 'ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਤਾਂ ਜੋ ਬੁੱਧੀਮਾਨ ਫੈਸਲੇ ਲੈਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਜਾ ਸਕੇ। +ਸਿਸਟਮ ਦਾ ਨਜ਼ਰੀਆ ਲੈ ਕੇ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਇਨ੍ਹਾਂ ਐਸੋਮੈਟਿਕ ਸਿਸਟਮਾਂ ਨੂੰ ਬਣਾਇਆ ਜਾਣਾ ਹੈ ਜੋ ਡਾਟਾ ਵਿੱਚੋਂ ਲੁਕਵੇਂ ਪੈਟਰਨ ਲੱਭ ਸਕਣ ਅਤੇ ਸਮਝਦਾਰ ਫੈਸਲੇ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਣ। -ਇਹ ਪ੍ਰੇਰਣਾ ਢਿੱਲੇ ਤੌਰ 'ਤੇ ਇਸ ਗੱਲ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੈ ਕਿ ਮਨੁੱਖੀ ਦਿਮਾਗ ਬਾਹਰੀ ਦੁਨੀਆ ਤੋਂ ਸਮਝੀ ਜਾਣ ਵਾਲੀ ਡਾਟਾ ਦੇ ਅਧਾਰ 'ਤੇ ਕੁਝ ਚੀਜ਼ਾਂ ਕਿਵੇਂ ਸਿੱਖਦਾ ਹੈ। +ਇਹ ਪ੍ਰੇਰਣਾ ਮਨੁੱਖੀ ਦਿਮਾਗ਼ ਵੱਲੋਂ ਬਾਹਰੀ ਦੁਨੀਆਂ ਤੋਂ ਪ੍ਰਾਪਤ ਡਾਟਾ 'ਤੇ ਅਧਾਰਿਤ ਕੁਝ ਚੀਜ਼ਾਂ ਸਿੱਖਣ ਨਾਲ ਲੰਬੀ ਡਿਗਰੀ 'ਤੇ ਪ੍ਰਭਾਵਿਤ ਹੈ। -✅ ਇੱਕ ਮਿੰਟ ਲਈ ਸੋਚੋ ਕਿ ਇੱਕ ਕਾਰੋਬਾਰ ਕਿਉਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਰਣਨੀਤੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੇਗਾ ਬਜਾਏ ਕਿ ਇੱਕ ਹਾਰਡ-ਕੋਡਡ ਨਿਯਮ-ਅਧਾਰਿਤ ਇੰਜਨ ਬਣਾਉਣ। +✅ ਸੋਚੋ ਕਿ ਇੱਕ ਕਾਰੋਬਾਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀਆਂ ਰਣਨੀਤੀਆਂ ਵਰਤਣ ਦੀ ਇੱਛਾ ਕਿਉਂ ਕਰੇਗਾ ਬਜਾਏ ਸਖਤ-ਕੋਡ ਕੀਤੇ ਨਿਯਮਾਂ ਵਾਲੇ ਇੰਜਣ ਬਣਾਉਣ ਦੇ। --- -## ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਐਪਲੀਕੇਸ਼ਨ +## ਡਾਟਾ ਗੁਣਵੱਤਾ ਕਿਉਂ ਮਹੱਤਵਪੂਰਣ ਹੈ -ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਐਪਲੀਕੇਸ਼ਨ ਹੁਣ ਲਗਭਗ ਹਰ ਜਗ੍ਹਾ ਹਨ, ਅਤੇ ਉਹ ਡਾਟਾ ਜਿੰਨਾ ਹੀ ਵਿਆਪਕ ਹਨ ਜੋ ਸਾਡੇ ਸਮਾਜਾਂ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਵਹਿੰਦਾ ਹੈ, ਜੋ ਸਾਡੇ ਸਮਾਰਟ ਫੋਨ, ਜੁੜੇ ਹੋਏ ਡਿਵਾਈਸਾਂ, ਅਤੇ ਹੋਰ ਸਿਸਟਮਾਂ ਦੁਆਰਾ ਜਨਰੇਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਅਧੁਨਿਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਲਗੋਰਿਥਮਾਂ ਦੀ ਬੇਹਤਰੀਨ ਸੰਭਾਵਨਾ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ, ਖੋਜਕਰਤਿਆਂ ਨੇ ਬਹੁ-ਪੱਖੀ ਅਤੇ ਬਹੁ-ਵਿਭਾਗੀ ਅਸਲ-ਜੀਵਨ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਵਧੀਆ ਸਕਾਰਾਤਮਕ ਨਤੀਜਿਆਂ ਨਾਲ ਹੱਲ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦੀ ਖੋਜ ਕੀਤੀ ਹੈ। +ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ ਡਾਟਾ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਹਿਤਰ ਕਰਦਾ ਹੈ। ਖਰਾਬ ਜਾਂ ਗੜਬੜ ਡਾਟਾ ਅਸੁਰੱਖਿਅਤ ਅਨੁਮਾਨਾਂ ਵਲ ਲੈ ਜਾ ਸਕਦਾ ਹੈ, ਭਾਵੇਂ ਅੱਗੇ ਦਰਜੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਲਗੋਰਿਦਮ ਵਰਤੇ ਜਾਣ। --- -## ਲਾਗੂ ML ਦੇ ਉਦਾਹਰਣ +## ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਪ੍ਰਯੋਗ -**ਤੁਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੂੰ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਵਰਤ ਸਕਦੇ ਹੋ**: +ਅੱਜ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਪ੍ਰਯੋਗ ਲਗਭਗ ਹਰ ਥਾਂ ਹਨ, ਜਿਵੇਂ ਉਹ ਡਾਟਾ ਜੋ ਸਾਡੀਆਂ ਸਮਾਜਕ ਜ਼ਿੰਦਗੀਆਂ ਵਿੱਚ ਵਗ ਰਿਹਾ ਹੈ, ਸਮਾਰਟ ਫੋਨਾਂ, ਜੁੜੇ ਹੋਏ ਉਪਕਰਣਾਂ, ਅਤੇ ਹੋਰ ਸਿਸਟਮਾਂ ਵੱਲੋਂ ਤਿਆਰ ਹੁੰਦਾ ਹੈ। ਅਧੁਨਿਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਲਗੋਰਿਦਮਾਂ ਦੇ ਪ੍ਰਮੁੱਖ ਸੰਭਾਵਨਾ ਨੂੰ ਦੇਖਦਿਆਂ, ਖੋਜਕਰਤਾ ਇਹ ਵੇਖ ਰਹੇ ਹਨ ਕਿ ਇਹ ਮਲਟੀ-ਡਾਈਮੇਂਸ਼ਨਲ ਅਤੇ ਮਲਟੀ-ਡਿਸੀਪਲੀਨਰੀ ਅਸਲੀ ਜ਼ਿੰਦਗੀ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਕਿਵੇਂ ਸੁਲਝਾ ਸਕਦੇ ਹਨ। -- ਮਰੀਜ਼ ਦੇ ਮੈਡੀਕਲ ਇਤਿਹਾਸ ਜਾਂ ਰਿਪੋਰਟਾਂ ਤੋਂ ਬਿਮਾਰੀ ਦੇ ਸੰਭਾਵਨਾਵਾਂ ਦੀ ਪੇਸ਼ਗੂਈ ਕਰਨ ਲਈ। -- ਮੌਸਮ ਦੇ ਡਾਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮੌਸਮ ਦੀਆਂ ਘਟਨਾਵਾਂ ਦੀ ਪੇਸ਼ਗੂਈ ਕਰਨ ਲਈ। -- ਇੱਕ ਟੈਕਸਟ ਦੇ ਭਾਵ ਨੂੰ ਸਮਝਣ ਲਈ। -- ਪ੍ਰਚਾਰ ਦੇ ਫੈਲਾਅ ਨੂੰ ਰੋਕਣ ਲਈ ਜਾਲਸਾਜ਼ੀ ਖ਼ਬਰਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ। +--- +## ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀਆਂ ਉਦਾਹਰਨਾਂ + +**ਤੁਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਬਹੁਤ ਸਾਰੇ ਤਰੀਕਿਆਂ ਨਾਲ ਇਸਤੇਮਾਲ ਕਰ ਸਕਦੇ ਹੋ**: + +- ਮਰੀਜ਼ ਦੇ ਤਬੀਬੀ ਇਤਿਹਾਸ ਜਾਂ ਰਿਪੋਰਟਾਂ ਤੋਂ ਬੀਮਾਰੀ ਦੀ ਸੰਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ। +- ਮੌਸਮ ਦਾ ਡਾਟਾ ਵਰਤ ਕੇ ਮੌਸਮੀ ਘਟਨਾਵਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ। +- ਕਿਸੇ ਲਿਖਤ ਦੀ ਭਾਵਨਾ ਨੂੰ ਸਮਝਣ ਲਈ। +- ਨਕਲੀ ਖਬਰਾਂ ਨੂੰ ਪਛਾਣਣ ਲਈ ਤਾਂ ਕਿ ਪ੍ਰਚਾਰ ਦੇ ਫੈਲਾਉਣ ਨੂੰ ਰੋਕ ਸਕੀਏ। + +ਵਿੱਤੀ ਵਿਗਿਆਨ, ਅਰਥ ਵਿਗਿਆਨ, ਧਰਤੀ ਵਿਗਿਆਨ, ਅੰਤਰਿਕਸ਼ ਖੋਜ, ਬਾਇਓਮੇਡੀਕਲ ਇੰਜੀਨੀਅਰਿੰਗ, ਗਿਆਨਤਮਕ ਵਿਗਿਆਨ ਅਤੇ ਇਤਿਹਾਸਕ ਖੇਤਰਾਂ ਤੱਕ ਵੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੇ ਆਪਣਾ ਸਥਾਨ ਬਣਾਇਆ ਹੈ ਤਾਂ ਜੋ ਉਹਨਾਂ ਖੇਤਰਾਂ ਦੀਆਂ ਭਾਰੀ ਅਤੇ ਜਟਿਲ ਡਾਟਾ ਪ੍ਰਕਿਰਿਆ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰ ਸਕਣ। + +--- +## ਨਤੀਜਾ + +ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਰੀਅਲ ਵਰਲਡ ਜਾਂ ਤਿਆਰ ਕੀਤੇ ਡਾਟਾ ਵਿੱਚੋਂ ਅਰਥਪੂਰਨ ਜਾਣਕਾਰੀਆਂ ਲੱਭ ਕੇ ਪੈਟਰਨ ਖੋਜਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਆਟੋਮੈਟਿਕ ਕਰਦਾ ਹੈ। ਇਸ ਆਪਣੇ ਅਜ਼ਮਾਏ ਹੋਏ ਕੰਮ ਕਰਕੇ ਇਹ ਕਾਰੋਬਾਰ, ਸਿਹਤ, ਅਤੇ ਵਿੱਤੀ ਦਰਜੇ ਸਮੇਤ ਕਈ ਖੇਤਰਾਂ ਵਿੱਚ ਬੜੀ ਕੀਮਤੀ ਸਾਬਤ ਹੋਈ ਹੈ। -ਵਿੱਤ, ਅਰਥਸ਼ਾਸਤਰ, ਧਰਤੀ ਵਿਗਿਆਨ, ਅੰਤਰਿਕਸ਼ ਖੋਜ, ਬਾਇਓਮੈਡੀਕਲ ਇੰਜੀਨੀਅਰਿੰਗ, ਸੰਜੋਗੀ ਵਿਗਿਆਨ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਹਿਊਮੈਨਿਟੀਜ਼ ਦੇ ਖੇਤਰਾਂ ਨੇ ਆਪਣੇ ਖੇਤਰ ਦੀਆਂ ਮੁਸ਼ਕਲ, ਡਾਟਾ-ਪ੍ਰੋਸੈਸਿੰਗ ਭਾਰੀ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੂੰ ਅਪਨਾਇਆ ਹੈ। +ਅਗਲੇ ਸਮੇਂ ਵਿੱਚ, ਕਿਸੇ ਵੀ ਖੇਤਰ ਦੇ ਲੋਕਾਂ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀyaan ਮੂਲ ਭੁਮਿਕਾਵਾਂ ਨੂੰ ਸਮਝਣਾ ਜ਼ਰੂਰੀ ਬਣ ਜਾਵੇਗਾ ਕਿਉਂਕਿ ਇਸ ਦਾ ਵਿਆਪਕ ਅਪਣਾਵਾ ਹੋ ਰਿਹਾ ਹੈ। --- -## ਨਿਸ਼ਕਰਸ਼ +# 🚀 ਚੈਲੰਜ -ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਸਲ ਦੁਨੀਆ ਜਾਂ ਜਨਰੇਟ ਕੀਤੇ ਡਾਟਾ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰਦ੍ਰਿਸ਼ਟੀ ਲੱਭਣ ਦੁਆਰਾ ਪੈਟਰਨ-ਖੋਜ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਆਟੋਮੈਟਿਕ ਕਰਦਾ ਹੈ। ਇਸਨੇ ਆਪਣੇ ਆਪ ਨੂੰ ਕਾਰੋਬਾਰ, ਸਿਹਤ, ਅਤੇ ਵਿੱਤੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ, ਹੋਰਾਂ ਦੇ ਨਾਲ, ਬਹੁਤ ਕੀਮਤੀ ਸਾਬਤ ਕੀਤਾ ਹੈ। +ਕਾਗਜ਼ 'ਤੇ ਜਾਂ [Excalidraw](https://excalidraw.com/) ਵਰਗੇ ਆਨਲਾਈਨ ਐਪ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੀ ਸਮਝ AI, ML, ਡੀਪ ਲਰਨਿੰਗ ਅਤੇ ਡਾਟਾ ਸਾਇੰਸ ਵਿਚਕਾਰ ਅੰਤਰਾਂ ਦੀ ਰੂਪਰੇਖਾ ਬਣਾ ਕੇ ਦਿਖਾਓ। ਇਹ ਵੀ ਸੋਚੋ ਕਿ ਹਰ ਤਕਨੀਕ ਕਿਸ ਕਿਸਮ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਸੁਲਝਾਉਣ ਵਿੱਚ ਮਦਦਗਾਰ ਹੈ। -ਭਵਿੱਖ ਵਿੱਚ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਬੁਨਿਆਦੀਆਂ ਨੂੰ ਸਮਝਣਾ ਕਿਸੇ ਵੀ ਖੇਤਰ ਦੇ ਲੋਕਾਂ ਲਈ ਲਾਜ਼ਮੀ ਹੋਵੇਗਾ ਇਸਦੇ ਵਿਆਪਕ ਅਪਨਾਏ ਜਾਣ ਦੇ ਕਾਰਨ। +# [ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ml/) --- -# 🚀 ਚੁਣੌਤੀ +# ਸਮੀਖਿਆ ਅਤੇ ਖੁਦ ਦੀ ਪੜਾਈ + +ਕਿਉਂਕਿ ਤੁਸੀਂ ਕਿਵੇਂ ਕਲਾਉਡ ਵਿੱਚ ML ਅਲਗੋਰਿਦਮਾਂ ਨਾਲ ਕੰਮ ਕਰ ਸਕਦੇ ਹੋ, ਇਸ ਬਾਰੇ ਹੋਰ ਜਾਣਨ ਲਈ, ਇਸ [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) ਨੂੰ ਫਾਲੋ ਕਰੋ। -ਕਾਗਜ਼ 'ਤੇ ਜਾਂ [Excalidraw](https://excalidraw.com/) ਵਰਗੇ ਆਨਲਾਈਨ ਐਪ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, AI, ML, ਡੀਪ ਲਰਨਿੰਗ, ਅਤੇ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਵਿਚਕਾਰ ਅੰਤਰਾਂ ਦੀ ਆਪਣੀ ਸਮਝ ਦਾ ਸਕੈਚ ਬਣਾਓ। ਉਹਨਾਂ ਸਮੱਸਿਆਵਾਂ ਦੇ ਕੁਝ ਵਿਚਾਰ ਸ਼ਾਮਲ ਕਰੋ ਜਿਨ੍ਹਾਂ ਨੂੰ ਇਹ ਤਕਨੀਕਾਂ ਹੱਲ ਕਰਨ ਵਿੱਚ ਚੰਗੀਆਂ ਹਨ। +ML ਦੇ ਮੂਲ ਪ੍ਰਣਾਲੀਆਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਲਈ ਇਸ [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) 'ਤੇ ਜਾਓ। + +--- +# ਅਸਾਈਨਮੈਂਟ -# [ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify +[Get up and running](assignment.md) --- -**ਅਸਵੀਕਰਤੀ**: -ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼, ਜੋ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਹੈ, ਨੂੰ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ। \ No newline at end of file + +**ਅਸਵੀਕਾਰੋਪਣ**: +ਇਸ ਦਸਤਾਵੇਜ਼ ਦਾ ਅਨੁਵਾਦ ਏਆਈ ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾਵਾਂ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਰੱਖੋ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸਮੱਤਿਆਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਆਪਣੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਜਰੂਰੀ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫ਼ਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸ ਅਨੁਵਾਦ ਦੇ ਉਪਯੋਗ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀਆਂ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆਵਾਂ ਲਈ ਜਵਾਬਦੇਹ ਨਹੀਂ ਹਾਂ। + \ No newline at end of file diff --git a/translations/pa/5-Clustering/1-Visualize/README.md b/translations/pa/5-Clustering/1-Visualize/README.md index cfc406ca2..de2ed1f50 100644 --- a/translations/pa/5-Clustering/1-Visualize/README.md +++ b/translations/pa/5-Clustering/1-Visualize/README.md @@ -1,93 +1,142 @@ -# ਕਲੱਸਟਰਿੰਗ ਦਾ ਪਰਚੇ +# ਕਲੱਸਟਰਿੰਗ ਦਾ ਪਰਿਚਯ -ਕਲੱਸਟਰਿੰਗ ਇੱਕ ਕਿਸਮ ਦਾ [ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ](https://wikipedia.org/wiki/Unsupervised_learning) ਹੈ ਜੋ ਮੰਨਦਾ ਹੈ ਕਿ ਡੇਟਾਸੈੱਟ ਬਿਨਾਂ ਲੇਬਲ ਵਾਲਾ ਹੈ ਜਾਂ ਇਸਦੇ ਇਨਪੁਟਸ ਨੂੰ ਪਹਿਲਾਂ ਤੋਂ ਪਰਿਭਾਸ਼ਿਤ ਆਉਟਪੁਟਸ ਨਾਲ ਨਹੀਂ ਜੋੜਿਆ ਗਿਆ। ਇਹ ਵੱਖ-ਵੱਖ ਐਲਗੋਰਿਥਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਤਾਂ ਜੋ ਬਿਨਾਂ ਲੇਬਲ ਵਾਲੇ ਡੇਟਾ ਨੂੰ ਵੱਖ-ਵੱਖ ਸਮੂਹਾਂ ਵਿੱਚ ਵੰਡ ਸਕੇ, ਡੇਟਾ ਵਿੱਚ ਪੈਟਰਨ ਦੇ ਆਧਾਰ 'ਤੇ। +ਕਲੱਸਟਰਿੰਗ ਇੱਕ ਪ੍ਰਕਾਰ ਦੀ [ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ](https://wikipedia.org/wiki/Unsupervised_learning) ਹੈ ਜੋ ਮੰਨਦੀ ਹੈ ਕਿ ਡਾਟਾਸੈੱਟ ਲੇਬਲ ਰਹਿਤ ਹੈ ਜਾਂ ਇਸਦੇ ਇੰਪੁੱਟ ਪਹਿਲਾਂ ਤੋਂ ਨਿਰਧਾਰਿਤ ਆਊਟਪੁੱਟ ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦੇ। ਇਹ ਵੱਖ-ਵੱਖ ਅਲਗੋਰਿਦਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਲੇਬਲ ਰਹਿਤ ਡਾਟਾ ਵਿੱਚੋਂ ਗੁੱਛੇ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਡਾਟਾ ਵਿੱਚ ਪੈਟਰਨਸ ਦੇ ਅਨੁਸਾਰ ਸਮੂਹਕਰਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। -[![PSquare ਦੁਆਰਾ No One Like You](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "PSquare ਦੁਆਰਾ No One Like You") +[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 ਉੱਪਰ ਦਿੱਤੀ ਤਸਵੀਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਇੱਕ ਵੀਡੀਓ ਲਈ। ਜਦੋਂ ਤੁਸੀਂ ਕਲੱਸਟਰਿੰਗ ਨਾਲ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪੜ੍ਹ ਰਹੇ ਹੋ, ਨਾਈਜੀਰੀਅਨ ਡਾਂਸ ਹਾਲ ਟ੍ਰੈਕਸ ਦਾ ਆਨੰਦ ਲਓ - ਇਹ 2014 ਦਾ PSquare ਦੁਆਰਾ ਇੱਕ ਬਹੁਤ ਹੀ ਰੇਟ ਕੀਤੀ ਗਈ ਗੀਤ ਹੈ। +> 🎥 ਉੱਪਰ ਦਿੱਤੀ ਚਿੱਤਰ ਤੇ ਕਲਿੱਕ ਕਰੋ ਇੱਕ ਵੀਡੀਓ ਲਈ। ਜਦੋਂ ਤੁਸੀਂ ਕਲੱਸਟਰਿੰਗ ਸਹਿਤ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਅਧਿਐਨ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਕੁਝ ਨਾਈਜੀਰੀਆਈ ਡਾਂਸ ਹਾਲ ਟਰੈਕਸ ਦਾ ਮਜ਼ਾ ਲਓ - ਇਹ 2014 ਦੀ PSquare ਵੱਲੋਂ ਇੱਕ ਬਹੁਤ ਪ੍ਰਸ਼ੰਸਿਤ ਗੀਤ ਹੈ। -## [ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ml/) +## [ਪ੍ਰੀ-ਲੇਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ml/) -### ਪਰਚੇ +### ਪਰੀਚਯ -[ਕਲੱਸਟਰਿੰਗ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ਡੇਟਾ ਐਕਸਪਲੋਰੇਸ਼ਨ ਲਈ ਬਹੁਤ ਹੀ ਲਾਭਦਾਇਕ ਹੈ। ਆਓ ਵੇਖੀਏ ਕਿ ਕੀ ਇਹ ਨਾਈਜੀਰੀਅਨ ਦਰਸ਼ਕਾਂ ਦੇ ਸੰਗੀਤ ਦੀ ਖਪਤ ਦੇ ਤਰੀਕਿਆਂ ਵਿੱਚ ਰੁਝਾਨ ਅਤੇ ਪੈਟਰਨ ਖੋਜਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। +[ਕਲੱਸਟਰਿੰਗ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ਡੇਟਾ ਖੋਜ ਲਈ ਬਹੁਤ ਲਾਭਦਾਇਕ ਹੈ। ਆਓ ਵੇਖੀਏ ਕਿ ਇਹ ਨਾਈਜੀਰੀਆਈ ਦਰਸ਼ਕਾਂ ਦੇ ਸੰਗੀਤ ਦੀ ਖਪਤ ਦੇ ਰੁਝਾਨ ਅਤੇ ਪੈਟਰਨਸ ਨੂੰ ਵੇਖਣ ਵਿੱਚ ਕਿਹੜਾ ਮਦਦਗਾਰ ਸਾਬਤ ਹੁੰਦਾ ਹੈ। -✅ ਇੱਕ ਮਿੰਟ ਲਓ ਕਲੱਸਟਰਿੰਗ ਦੇ ਉਪਯੋਗਾਂ ਬਾਰੇ ਸੋਚਣ ਲਈ। ਅਸਲ ਜ਼ਿੰਦਗੀ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਤਦ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਕੱਪੜਿਆਂ ਦਾ ਢੇਰ ਹੁੰਦਾ ਹੈ ਅਤੇ ਤੁਹਾਨੂੰ ਆਪਣੇ ਪਰਿਵਾਰ ਦੇ ਮੈਂਬਰਾਂ ਦੇ ਕੱਪੜੇ ਵੱਖ ਕਰਨੇ ਪੈਂਦੇ ਹਨ 🧦👕👖🩲। ਡੇਟਾ ਸਾਇੰਸ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਤਦ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਕਿਸੇ ਯੂਜ਼ਰ ਦੀ ਪਸੰਦ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਜਾਂ ਕਿਸੇ ਬਿਨਾਂ ਲੇਬਲ ਵਾਲੇ ਡੇਟਾਸੈੱਟ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦਾ ਨਿਰਧਾਰਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਕਲੱਸਟਰਿੰਗ, ਇੱਕ ਤਰੀਕੇ ਨਾਲ, ਗੁਣਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਮੋਜ਼ੇ ਵਾਲਾ ਦਰਾਜ਼। +✅ ਇਕ ਮਿੰਟ ਲਈ ਸੋਚੋ ਕਿ ਕਲੱਸਟਰਿੰਗ ਕਿੱਥੇ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। ਅਸਲ ਜ਼ਿੰਦਗੀ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਉਸ ਸਮੇਂ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਕੱਪੜੇ ਦੀ ਢੇਰ ਹੋਵੇ ਅਤੇ ਤੁਹਾਨੂੰ ਆਪਣੇ ਪਰਿਵਾਰਕ ਮੈਂਬਰਾਂ ਦੇ ਕੱਪੜੇ ਵੱਖਰੇ ਕਰਨੇ ਹੋਣ 🧦👕👖🩲। ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਉਸ ਸਮੇਂ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਕਿਸੇ ਯੂਜ਼ਰ ਦੀ ਪਸੰਦ ਦੀ ਵਿਸ਼ਲੇਸ਼ਣਾ ਕਰਨੀ ਹੋਵੇ ਜਾਂ ਕਿਸੇ ਲੇਬਲ ਰਹਿਤ ਡਾਟਾਸੈੱਟ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਹੋਵੇ। ਕਲੱਸਟਰਿੰਗ, ਕਿਸੇ ਹੱਦ ਤੱਕ, ਉਥਲ-ਪੁਥਲ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ, ਜਿਵੇਂ ਮੋਜ਼ਿਆਂ ਦੀ ਡਰਾਅਰ। -[![ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਪਰਚੇ](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "ਕਲੱਸਟਰਿੰਗ ਦਾ ਪਰਚੇ") +[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 ਉੱਪਰ ਦਿੱਤੀ ਤਸਵੀਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਇੱਕ ਵੀਡੀਓ ਲਈ: MIT ਦੇ John Guttag ਕਲੱਸਟਰਿੰਗ ਦਾ ਪਰਚੇ ਕਰਦੇ ਹਨ। +> 🎥 ਉੱਪਰ ਦਿੱਤੀ ਚਿੱਤਰ ਤੇ ਕਲਿੱਕ ਕਰੋ ਇੱਕ ਵੀਡੀਓ ਲਈ: MIT ਦੇ John Guttag ਕਲੱਸਟਰਿੰਗ ਦਾ ਪਰਿਚਯ ਕਰਵਾਉਂਦੇ ਹਨ -ਪੇਸ਼ੇਵਰ ਸੈਟਿੰਗ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਵਰਤ ਕੇ ਬਾਜ਼ਾਰ ਸੈਗਮੈਂਟੇਸ਼ਨ, ਜਿਵੇਂ ਕਿ ਕਿਹੜੇ ਉਮਰ ਦੇ ਸਮੂਹ ਕਿਹੜੀਆਂ ਚੀਜ਼ਾਂ ਖਰੀਦਦੇ ਹਨ, ਦਾ ਨਿਰਧਾਰਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇੱਕ ਹੋਰ ਉਪਯੋਗ ਅਨੋਮਲੀ ਡਿਟੈਕਸ਼ਨ ਹੋ ਸਕਦਾ ਹੈ, ਸ਼ਾਇਦ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਦੇ ਡੇਟਾਸੈੱਟ ਤੋਂ ਧੋਖਾਧੜੀ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ। ਜਾਂ ਤੁਸੀਂ ਕਲੱਸਟਰਿੰਗ ਨੂੰ ਮੈਡੀਕਲ ਸਕੈਨ ਦੇ ਬੈਚ ਵਿੱਚ ਟਿਊਮਰਾਂ ਦਾ ਨਿਰਧਾਰਨ ਕਰਨ ਲਈ ਵਰਤ ਸਕਦੇ ਹੋ। +ਇੱਕ ਪੇਸ਼ਾਵਰ ਸੈਟਿੰਗ ਵਿੱਚ, ਕਲੱਸਟਰਿੰਗ ਦਾ ਵਰਤੋਂ ਮਾਰਕੀਟ ਸੈਗਮੈਂਟੇਸ਼ਨ, ਕਿਸ ਉਮਰ ਦੇ ਗਰੁੱਪ ਕਿਹੜੇ ਆਈਟਮ ਖਰੀਦਦੇ ਹਨ ਇਸਦਾ ਨਿਰਧਾਰਨ ਕਰਨ ਲਈ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇੱਕ ਹੋਰ ਵਰਤੋਂ ਅਨੋਮਲੀ ਖੋਜ ਵਾਸਤੇ ਹੋ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਾਂ ਦੇ ਡਾਟਾ ਵਿੱਚ ਧੋਖਾਧੜੀ ਦਾ ਪਤਾ ਲਗਾਉਣਾ। ਜਾਂ ਤੁਸੀਂ ਕਲੱਸਟਰਿੰਗ ਦੀ ਵਰਤੋਂ ਮੇਡੀਕਲ ਸਕੈਨਜ਼ ਦੇ ਬੈਚ ਵਿੱਚ ਟਿਊਮਰਾਂ ਦਾ ਨਿਰਧਾਰਨ ਕਰਨ ਲਈ ਕਰ ਸਕਦੇ ਹੋ। -✅ ਇੱਕ ਮਿੰਟ ਲਈ ਸੋਚੋ ਕਿ ਤੁਸੀਂ ਕਲੱਸਟਰਿੰਗ ਨੂੰ 'ਜੰਗਲੀ' ਵਿੱਚ ਕਿਵੇਂ ਮਿਲਿਆ ਹੋਵੇਗਾ, ਜਿਵੇਂ ਕਿ ਬੈਂਕਿੰਗ, ਈ-ਕਾਮਰਸ, ਜਾਂ ਕਾਰੋਬਾਰ ਸੈਟਿੰਗ ਵਿੱਚ। +✅ ਸੋਚੋ ਕਿ ਤੁਸੀਂ 'ਵਾਲਡ' ਵਿੱਚ ਕਿਵੇਂ ਕਲੱਸਟਰਿੰਗ ਦਾ ਸਾਮਨਾ ਕੀਤਾ ਹੋਵੇਗਾ, ਕਿਸੇ ਬੈਂਕਿੰਗ, ਈ-ਕਾਮਰਸ ਜਾਂ ਵਿਹਾਰਕ ਸੈਟਿੰਗ ਵਿੱਚ। -> 🎓 ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਕਲੱਸਟਰ ਵਿਸ਼ਲੇਸ਼ਣ 1930 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਐਂਥਰੋਪੋਲੋਜੀ ਅਤੇ ਸਾਇਕੋਲੋਜੀ ਦੇ ਖੇਤਰਾਂ ਵਿੱਚ ਸ਼ੁਰੂ ਹੋਇਆ। ਕੀ ਤੁਸੀਂ ਕਲਪਨਾ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਕਿਵੇਂ ਵਰਤਿਆ ਗਿਆ ਹੋਵੇਗਾ? +> 🎓 ਫ਼਼ੈਸਲਾ ਲੈਣ ਵਾਲੀ ਗੱਲ ਇਹ ਹੈ ਕਿ ਕਲੱਸਟਰ ਵਿਸ਼ਲੇਸ਼ਣ 1930 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਮਨੁੱਖੀ ਵਿਗਿਆਨ ਅਤੇ ਮਨੋਵਿਗਿਆਨ ਖੇਤਰਾਂ ਵਿੱਚ ਉਤਪੰਨ ਹੋਇਆ ਸੀ। ਤੁਸੀਂ ਸੋਚ ਸਕਦੇ ਹੋ ਕਿ ਇਸਦਾ ਇਸਤਮਾਲ ਕਿਵੇਂ ਕੀਤਾ ਗਿਆ ਹੋਵੇਗਾ? -ਇਸਦੇ ਬਦਲੇ, ਤੁਸੀਂ ਇਸਨੂੰ ਖੋਜ ਦੇ ਨਤੀਜਿਆਂ ਨੂੰ ਸਮੂਹਬੱਧ ਕਰਨ ਲਈ ਵਰਤ ਸਕਦੇ ਹੋ - ਉਦਾਹਰਨ ਲਈ, ਖਰੀਦਦਾਰੀ ਲਿੰਕ, ਚਿੱਤਰ, ਜਾਂ ਸਮੀਖਾਵਾਂ ਦੁਆਰਾ। ਕਲੱਸਟਰਿੰਗ ਤਦ ਲਾਭਦਾਇਕ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਵੱਡਾ ਡੇਟਾਸੈੱਟ ਹੁੰਦਾ ਹੈ ਜਿਸਨੂੰ ਤੁਸੀਂ ਘਟਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ ਅਤੇ ਜਿਸ 'ਤੇ ਤੁਸੀਂ ਹੋਰ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਇਸ ਲਈ ਇਹ ਤਕਨੀਕ ਹੋਰ ਮਾਡਲ ਬਣਾਉਣ ਤੋਂ ਪਹਿਲਾਂ ਡੇਟਾ ਬਾਰੇ ਸਿੱਖਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ। +ਚੋਣਨ ਲਈ ਤੁਸੀਂ ਖੋਜ ਨਤੀਜੇ - ਖਰੀਦਦਾਰੀ ਲਿੰਕ, ਚਿੱਤਰ, ਜਾਂ ਸਮੀਖਿਆਵਾਂ - ਲਈ ਵੀ ਇਸਦਾ ਉਪਯੋਗ ਕਰ ਸਕਦੇ ਹੋ। ਕਲੱਸਟਰਿੰਗ ਉਪਯੋਗੀ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਵੱਡਾ ਡਾਟਾਸੈੱਟ ਹੁੰਦਾ ਹੈ ਜਿਸਨੂੰ ਤੁਸੀਂ ਘਟਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ ਅਤੇ ਜਿਸ ਉੱਪਰ ਤੁਸੀਂ ਹੋਰ ਵਿਸਤ੍ਰਿਤ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਇਸ ਲਈ ਇਹ ਤਕਨੀਕ ਮਾਡਲਾਂ ਦੇ ਬਣਨ ਤੋਂ ਪਹਿਲਾਂ ਡਾਟਾ ਬਾਰੇ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ। -✅ ਜਦੋਂ ਤੁਹਾਡਾ ਡੇਟਾ ਕਲੱਸਟਰਾਂ ਵਿੱਚ ਸੰਗਠਿਤ ਹੁੰਦਾ ਹੈ, ਤੁਸੀਂ ਇਸਨੂੰ ਇੱਕ ਕਲੱਸਟਰ ਆਈਡੀ ਸੌਂਪਦੇ ਹੋ, ਅਤੇ ਇਹ ਤਕਨੀਕ ਡੇਟਾਸੈੱਟ ਦੀ ਗੋਪਨੀਯਤਾ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਵਿੱਚ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦੀ ਹੈ; ਤੁਸੀਂ ਇਸਦੀ ਬਜਾਏ ਕਲੱਸਟਰ ਆਈਡੀ ਦੁਆਰਾ ਡੇਟਾ ਪੌਇੰਟ ਦਾ ਹਵਾਲਾ ਦੇ ਸਕਦੇ ਹੋ, ਨਾ ਕਿ ਹੋਰ ਖੁਲਾਸਾ ਕਰਨ ਵਾਲੇ ਡੇਟਾ ਤੱਤਾਂ ਦੁਆਰਾ। ਕੀ ਤੁਸੀਂ ਹੋਰ ਕਾਰਨਾਂ ਬਾਰੇ ਸੋਚ ਸਕਦੇ ਹੋ ਕਿ ਤੁਸੀਂ ਕਲੱਸਟਰ ਆਈਡੀ ਨੂੰ ਕਲੱਸਟਰ ਦੇ ਹੋਰ ਤੱਤਾਂ ਦੇ ਬਦਲੇ ਕਿਉਂ ਵਰਤਨਾ ਚਾਹੁੰਦੇ ਹੋ? +✅ ਜਦੋਂ ਤੁਹਾਡਾ ਡਾਟਾ ਕਲੱਸਟਰਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ, ਤੁਸੀਂ ਇਸਨੂੰ ਇੱਕ ਕਲੱਸਟਰ ID ਦੇਂਦੇ ਹੋ, ਅਤੇ ਇਹ ਤਕਨੀਕ ਡਾਟਾਸੈੱਟ ਦੀ ਗੋਪਨੀਯਤਾ ਸੁਰੱਖਿਅਤ ਕਰਨ ਵਿੱਚ ਲਾਭਕਾਰੀ ਸਾਬਤ ਹੋ ਸਕਦੀ ਹੈ; ਤੁਸੀਂ ਕਿਸੇ ਡਾਟਾ ਪਾਇੰਟ ਨੂੰ ਇਸਦੀ ਕਲੱਸਟਰ ID ਨਾਲ ਸੂਚਿਤ ਕਰ ਸਕਦੇ ਹੋ, ਬਜਾਏ ਵਧੇਰੇ ਪ੍ਰਗਟ ਕਰਨ ਵਾਲੇ ਪਛਾਣ ਵਾਲੇ ਡਾਟਾ ਨਾਲ। ਕੀ ਤੁਸੀਂ ਹੋਰ ਕਾਰਨਾਂ ਬਾਰੇ ਸੋਚ ਸਕਦੇ ਹੋ ਕਿ ਤੁਸੀਂ ਕਿਸੇ ਕਲੱਸਟਰ ਨੂੰ ਪਛਾਣਣ ਵਾਸਤੇ ਹੋਰ ਤੱਤਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਕਲੱਸਟਰ ID ਨੂੰ ਕਿਉਂ ਵਰਤੋਗੇ? -ਕਲੱਸਟਰਿੰਗ ਤਕਨੀਕਾਂ ਦੀ ਆਪਣੀ ਸਮਝ ਨੂੰ ਇਸ [ਸਿੱਖਣ ਮਾਡਿਊਲ](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ਵਿੱਚ ਵਧਾਓ। +ਕਲੱਸਟਰਿੰਗ ਤਕਨੀਕਾਂ ਦੀ ਸਮਝ ਨੂੰ ਵਿਚਾਰੋ ਇਸ [Learn ਮੋਡਿਊਲ](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ਵਿੱਚ। -## ਕਲੱਸਟਰਿੰਗ ਨਾਲ ਸ਼ੁਰੂਆਤ +## ਕਲੱਸਟਰਿੰਗ ਸ਼ੁਰੂ ਕਰਨਾ -[Scikit-learn](https://scikit-learn.org/stable/modules/clustering.html) ਕਲੱਸਟਰਿੰਗ ਕਰਨ ਲਈ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਤੁਸੀਂ ਕਿਹੜਾ ਤਰੀਕਾ ਚੁਣਦੇ ਹੋ ਇਹ ਤੁਹਾਡੇ ਉਪਯੋਗ ਦੇ ਕੇਸ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਅਨੁਸਾਰ, ਹਰ ਤਰੀਕੇ ਦੇ ਵੱਖ-ਵੱਖ ਫਾਇਦੇ ਹਨ। ਇੱਥੇ Scikit-learn ਦੁਆਰਾ ਸਮਰਥਿਤ ਤਰੀਕਿਆਂ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਉਪਯੋਗ ਦੇ ਕੇਸਾਂ ਦੀ ਇੱਕ ਸਰਲ ਟੇਬਲ ਹੈ: +[Scikit-learn ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ](https://scikit-learn.org/stable/modules/clustering.html) ਕਲੱਸਟਰਿੰਗ ਕਰਨ ਦੇ ਤਰੀਕੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਤੁਹਾਡਾ ਚੁਣਾਵ ਤੁਹਾਡੇ ਉਪਯੋਗ ਮੁਕਾਮ 'ਤੇ ਨਿਰਭਰ ਕਰੇਗਾ। ਡੌਕਯੂਮੈਂਟੇਸ਼ਨ ਦੇ ਹੁਕਮਾਂ ਅਨੁਸਾਰ, ਹਰ ਤਰੀਕੇ ਦੇ ਵੱਖ-ਵੱਖ ਫਾਇਦੇ ਹਨ। ਹੇਠਾਂ Scikit-learn ਦੁਆਰਾ ਸਹਾਇਤ ਕੀਤੇ ਗਏ ਤਰੀਕਿਆਂ ਅਤੇ ਉਚਿਤ ਉਪਯੋਗ ਦੀ ਸਧਾਰਨ ਤਾਲਿਕਾ ਹੈ: -| ਤਰੀਕੇ ਦਾ ਨਾਮ | ਉਪਯੋਗ ਦੇ ਕੇਸ | -| :--------------------------- | :------------------------------------------------------------------ | -| K-Means | ਆਮ ਉਦੇਸ਼, ਇੰਡਕਟਿਵ | -| Affinity propagation | ਬਹੁਤ ਸਾਰੇ, ਅਸਮਾਨ ਕਲੱਸਟਰ, ਇੰਡਕਟਿਵ | -| Mean-shift | ਬਹੁਤ ਸਾਰੇ, ਅਸਮਾਨ ਕਲੱਸਟਰ, ਇੰਡਕਟਿਵ | -| Spectral clustering | ਥੋੜੇ, ਸਮਾਨ ਕਲੱਸਟਰ, ਟ੍ਰਾਂਸਡਕਟਿਵ | -| Ward hierarchical clustering | ਬਹੁਤ ਸਾਰੇ, ਰੋਕੇ ਹੋਏ ਕਲੱਸਟਰ, ਟ੍ਰਾਂਸਡਕਟਿਵ | -| Agglomerative clustering | ਬਹੁਤ ਸਾਰੇ, ਰੋਕੇ ਹੋਏ, ਗੈਰ-ਯੂਕਲਿਡੀਅਨ ਦੂਰੀਆਂ, ਟ੍ਰਾਂਸਡਕਟਿਵ | -| DBSCAN | ਗੈਰ-ਸਮਤਲ ਜਿਓਮੈਟਰੀ, ਅਸਮਾਨ ਕਲੱਸਟਰ, ਟ੍ਰਾਂਸਡਕਟਿਵ | -| OPTICS | ਗੈਰ-ਸਮਤਲ ਜਿਓਮੈਟਰੀ, ਅਸਮਾਨ ਕਲੱਸਟਰ, ਵੱਖ-ਵੱਖ ਘਣਤਾ, ਟ੍ਰਾਂਸਡਕਟਿਵ | -| Gaussian mixtures | ਸਮਤਲ ਜਿਓਮੈਟਰੀ, ਇੰਡਕਟਿਵ | -| BIRCH | ਵੱਡਾ ਡੇਟਾਸੈੱਟ ਜਿਸ ਵਿੱਚ ਆਉਟਲਾਇਰ ਹਨ, ਇੰਡਕਟਿਵ | +| ਤਰੀਕੇ ਦਾ ਨਾਮ | ਉਪਯੋਗ | +| :------------------------ | :------------------------------------------------------------------ | +| ਕੇ-ਮੀਨਸ (K-Means) | ਆਮ ਮਕਸਦ, ਇੰਡਕਟੀਵ | +| ਐਫਿਨਿਟੀ ਪ੍ਰੋਪੈਗੇਸ਼ਨ | ਬਹੁਤ ਸਾਰੇ, ਅਸਮਾਨ ਕੁਲੱਸਟਰ, ਇੰਡਕਟੀਵ | +| ਮੀਨ-ਸ਼ਿਫਟ | ਬਹੁਤ ਸਾਰੇ, ਅਸਮਾਨ ਕੁਲੱਸਟਰ, ਇੰਡਕਟੀਵ | +| ਸਪੈਕਟ੍ਰਲ ਕਲਸਟਰਿੰਗ | ਥੋੜੇ, ਸਮਾਨ ਕੁਲੱਸਟਰ, ਟ੍ਰਾਂਸਡਕਟੀਵ | +| ਵਾਰਡ ਹਾਇਰਾਰਕੀਕਲ ਕਲਸਟਰਿੰਗ | ਬਹੁਤ ਸਾਰੇ, ਸੀਮਿਤ ਕੁਲੱਸਟਰ, ਟ੍ਰਾਂਸਡਕਟੀਵ | +| ਐਗਲੋਮੇਰਟਿਵ ਕਲੱਸਟਰਿੰਗ | ਬਹੁਤ ਸਾਰੇ, ਸੀਮਿਤ, ਗੈਰ ਯੂਕਲੀਡਿਅਨ ਦੂਰੀਆਂ, ਟ੍ਰਾਂਸਡਕਟੀਵ | +| ਡੀਬੀਸਕੈਨ (DBSCAN) | ਗੈਰ-ਫਲੈਟ ਜਿਓਮੇਟ੍ਰੀ, ਅਸਮਾਨ ਕੁਲੱਸਟਰ, ਟ੍ਰਾਂਸਡਕਟੀਵ | +| ਓਪਟਿਕਸ (OPTICS) | ਗੈਰ-ਫਲੈਟ ਜਿਓਮੇਟ੍ਰੀ, ਅਸਮਾਨ ਘਣਤਾ ਵਾਲੇ ਕੁਲੱਸਟਰ, ਟ੍ਰਾਂਸਡਕਟੀਵ | +| ਗਾਸੀਅਨ ਮਿਕਸਚਰ | ਫਲੈਟ ਜਿਓਮੇਟ੍ਰੀ, ਇੰਡਕਟੀਵ | +| ਬਿਰਚ (BIRCH) | ਵੱਡਾ ਡਾਟਾਸੈੱਟ ਆਊਟਲਾਇਰਾਂ ਨਾਲ, ਇੰਡਕਟੀਵ | -> 🎓 ਕਲੱਸਟਰ ਬਣਾਉਣ ਦਾ ਡੇਟਾ ਪੌਇੰਟਸ ਨੂੰ ਸਮੂਹਾਂ ਵਿੱਚ ਇਕੱਠਾ ਕਰਨ ਦੇ ਤਰੀਕੇ ਨਾਲ ਬਹੁਤ ਸਾਰਾ ਸੰਬੰਧ ਹੈ। ਆਓ ਕੁਝ ਸ਼ਬਦਾਵਲੀ ਨੂੰ ਸਮਝੀਏ: +> 🎓 ਅਸੀਂ ਕਲੱਸਟਰ ਕਿਵੇਂ ਬਣਾਉਂਦੇ ਹਾਂ ਇਸਦਾ ਬਹੁਤ ਸਬੰਧ ਹੈ ਕਿ ਅਸੀਂ ਅੰਕੜਿਆਂ ਨੂੰ ਸਮੂਹਾਂ ਵਿੱਚ ਕਿਵੇਂ ਇਕੱਠਾ ਕਰਦੇ ਹਾਂ। ਆਓ ਕੁਝ ਸ਼ਬਦਾਵਲੀ ਸਮਝੀਏ: > -> 🎓 ['ਟ੍ਰਾਂਸਡਕਟਿਵ' ਵਿਰੁੱਧ 'ਇੰਡਕਟਿਵ'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['ਟ੍ਰਾਂਸਡਕਟੀਵ' ਬਨਾਮ 'ਇੰਡਕਟੀਵ'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> ਟ੍ਰਾਂਸਡਕਟਿਵ ਇੰਫਰੈਂਸ ਉਹਨਾਂ ਟ੍ਰੇਨਿੰਗ ਕੇਸਾਂ ਤੋਂ ਲਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਖਾਸ ਟੈਸਟ ਕੇਸਾਂ ਨਾਲ ਜੁੜਦੇ ਹਨ। ਇੰਡਕਟਿਵ ਇੰਫਰੈਂਸ ਉਹਨਾਂ ਟ੍ਰੇਨਿੰਗ ਕੇਸਾਂ ਤੋਂ ਲਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਆਮ ਨਿਯਮਾਂ ਨਾਲ ਜੁੜਦੇ ਹਨ ਜੋ ਫਿਰ ਟੈਸਟ ਕੇਸਾਂ 'ਤੇ ਲਾਗੂ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। +> ਟ੍ਰਾਂਸਡਕਟੀਵ ਅਨੁਮਾਨ ਆਪਣੇ ਪ੍ਰੇਖਿਅਤ ਟਰੇਨਿੰਗ ਕੇਸਾਂ ਤੋਂ ਲਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਖਾਸ ਟੈਸਟ ਕੇਸਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ। ਇੰਡਕਟੀਵ ਅਨੁਮਾਨ ਟਰੇਨਿੰਗ ਕੇਸਾਂ ਤੋਂ ਆਮ ਕਾਇਦੇ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਫਿਰ ਟੈਸਟ ਕੇਸਾਂ 'ਤੇ ਲਾਗੂ ਹੁੰਦੇ ਹਨ। > -> ਉਦਾਹਰਨ: ਕਲਪਨਾ ਕਰੋ ਕਿ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਡੇਟਾਸੈੱਟ ਹੈ ਜੋ ਸਿਰਫ਼ ਅੰਸ਼ਿਕ ਤੌਰ 'ਤੇ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਹੈ। ਕੁਝ ਚੀਜ਼ਾਂ 'ਰਿਕਾਰਡ' ਹਨ, ਕੁਝ 'ਸੀਡੀ' ਹਨ, ਅਤੇ ਕੁਝ ਖਾਲੀ ਹਨ। ਤੁਹਾਡਾ ਕੰਮ ਖਾਲੀਆਂ ਲਈ ਲੇਬਲ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ। ਜੇ ਤੁਸੀਂ ਇੱਕ ਇੰਡਕਟਿਵ ਪਹੁੰਚ ਚੁਣਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ 'ਰਿਕਾਰਡ' ਅਤੇ 'ਸੀਡੀ' ਦੀ ਭਾਲ ਕਰਨ ਲਈ ਇੱਕ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰੋਗੇ, ਅਤੇ ਉਹਨਾਂ ਲੇਬਲਾਂ ਨੂੰ ਆਪਣੇ ਬਿਨਾਂ ਲੇਬਲ ਵਾਲੇ ਡੇਟਾ 'ਤੇ ਲਾਗੂ ਕਰੋਗੇ। ਇਹ ਪਹੁੰਚ ਉਹ ਚੀਜ਼ਾਂ ਕਲਾਸੀਫਾਈ ਕਰਨ ਵਿੱਚ ਮੁਸ਼ਕਲ ਹੋਵੇਗੀ ਜੋ ਅਸਲ ਵਿੱਚ 'ਕੈਸੇਟ' ਹਨ। ਟ੍ਰਾਂਸਡਕਟਿਵ ਪਹੁੰਚ, ਦੂਜੇ ਪਾਸੇ, ਇਸ ਅਣਜਾਣ ਡੇਟਾ ਨੂੰ ਹੋਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਭਾਲਦੀ ਹੈ ਕਿਉਂਕਿ ਇਹ ਸਮਾਨ ਚੀਜ਼ਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਨ ਲਈ ਕੰਮ ਕਰਦੀ ਹੈ ਅਤੇ ਫਿਰ ਇੱਕ ਸਮੂਹ ਨੂੰ ਲੇਬਲ ਲਗਾਉਂਦੀ ਹੈ। ਇਸ ਮਾਮਲੇ ਵਿੱਚ, ਕਲੱਸਟਰ 'ਗੋਲ ਸੰਗੀਤਕ ਚੀਜ਼ਾਂ' ਅਤੇ 'ਚੌਰਸ ਸੰਗੀਤਕ ਚੀਜ਼ਾਂ' ਨੂੰ ਦਰਸਾ ਸਕਦੇ ਹਨ। +> ਇੱਕ ਉਦਾਹਰਨ: ਸੋਚੋ ਤੁਹਾਡੇ ਕੋਲ ਸਿਰਫ਼ ਹਿੱਸੇਵਾਰ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਡਾਟਾ ਹੈ। ਕੁਝ ਚੀਜ਼ਾਂ 'ਰੈਕਾਰਡ' ਹਨ, ਕੁਝ 'ਸੀਡੀ', ਅਤੇ ਕੁਝ ਖਾਲੀ। ਤੁਹਾਡਾ ਕੰਮ ਖਾਲੀ ਨੂੰ ਲੇਬਲ ਕਰਨਾ ਹੈ। ਜੇ ਤੁਸੀਂ ਇੰਡਕਟੀਵ ਰਵੱਈਆ ਚੁਣੋਂਗੇ, ਤਾਂ ਤੁਸੀਂ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰੋਗੇ ਜੋ 'ਰੈਕਾਰਡ' ਅਤੇ 'ਸੀਡੀ' ਲੱਭਦਾ ਹੈ ਅਤੇ ਉਹ ਲੇਬਲ ਅਣਲੈਬਲਡ ਡਾਟੇ 'ਤੇ ਲਾਗੂ ਕਰੋਗਾ। ਇਹ ਢੁਕਵਾਂ ਨਹੀਂ ਹੋਵੇਗਾ ਜੇ ਚੀਜ਼ਾਂ ਅਸਲ 'ਕੈਸੇਟ' ਹਨ। ਇੱਕ ਟ੍ਰਾਂਸਡਕਟੀਵ ਰਵੱਈਆ, ਦੂਜੇ ਪਾਸੇ, ਇਸ ਅਣਜਾਣ ਡਾਟਾ ਨਾਲ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਨਿਪਟਦਾ ਹੈ ਕਿਉਂਕਿ ਇਹ ਮਿਲਦੇ ਜੁਲਦੇ ਆਈਟਮ ਇਕੱਠੇ ਕਰਦਾ ਹੈ ਅਤੇ ਫਿਰ ਸਮੂਹ ਨੂੰ ਇੱਕ ਲੇਬਲ ਦਿੰਦਾ ਹੈ। ਇਸ ਸੰਦਰਭ ਵਿੱਚ, ਕੁਲੱਸਟਰ 'ਗੋਲ ਮਿਊਜ਼ਿਕਲ ਚੀਜ਼ਾਂ' ਅਤੇ 'ਚੌਕੋਰ ਮਿਊਜ਼ਿਕਲ ਚੀਜ਼ਾਂ' ਹੋ ਸਕਦੀਆਂ ਹਨ। > -> 🎓 ['ਗੈਰ-ਸਮਤਲ' ਵਿਰੁੱਧ 'ਸਮਤਲ' ਜਿਓਮੈਟਰੀ](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['ਗੈਰ-ਫਲੈਟ' ਬਨਾਮ 'ਫਲੈਟ' ਜਿਓਮੇਟ੍ਰੀ](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> ਗਣਿਤਕ ਸ਼ਬਦਾਵਲੀ ਤੋਂ ਲਿਆ ਗਿਆ, ਗੈਰ-ਸਮਤਲ ਵਿਰੁੱਧ ਸਮਤਲ ਜਿਓਮੈਟਰੀ ਦਾ ਹਵਾਲਾ ਪੌਇੰਟਸ ਦੇ ਵਿਚਕਾਰ ਦੂਰੀਆਂ ਨੂੰ ਮਾਪਣ ਦੇ ਤਰੀਕੇ ਨਾਲ ਹੈ, ਜਾਂ 'ਸਮਤਲ' ([ਯੂਕਲਿਡੀਅਨ](https://wikipedia.org/wiki/Euclidean_geometry)) ਜਾਂ 'ਗੈਰ-ਸਮਤਲ' (ਗੈਰ-ਯੂਕਲਿਡੀਅਨ) ਜਿਓਮੈਟਰੀਕਲ ਤਰੀਕਿਆਂ ਦੁਆਰਾ। +> ਗਣਿਤੀਕ ਸ਼ਬਦਾਵਲੀ ਤੋਂ ਲਿਆ ਗਿਆ, ਗੈਰ-ਫਲੈਟ ਬਨਾਮ ਫਲੈਟ ਜਿਓਮੇਟ੍ਰੀ ਅਰਥ ਹੈ ਦੁਰੀਆਂ ਦੀ ਮਾਪ ਫਲੈਟ ([ਯੂਕਲੀਡਿਅਨ](https://wikipedia.org/wiki/Euclidean_geometry)) ਜਾਂ ਗੈਰ-ਫਲੈਟ (ਗੈਰ-ਯੂਕਲੀਡਿਅਨ) ਭੌਗੋਲਿਕ ਤਰੀਕੇ ਨਾਲ ਕੀਤੀ ਗਈ। > ->'ਸਮਤਲ' ਇਸ ਸੰਦਰਭ ਵਿੱਚ ਯੂਕਲਿਡੀਅਨ ਜਿਓਮੈਟਰੀ (ਜਿਸਦੇ ਕੁਝ ਹਿੱਸੇ 'ਪਲੇਨ' ਜਿਓਮੈਟਰੀ ਵਜੋਂ ਪੜ੍ਹਾਏ ਜਾਂਦੇ ਹਨ) ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਤੇ ਗੈਰ-ਸਮਤਲ ਗੈਰ-ਯੂਕਲਿਡੀਅਨ ਜਿਓਮੈਟਰੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨਾਲ ਜਿਓਮੈਟਰੀ ਦਾ ਕੀ ਸੰਬੰਧ ਹੈ? ਖੈਰ, ਦੋ ਖੇਤਰ ਜੋ ਗਣਿਤ ਵਿੱਚ ਜੜੇ ਹੋਏ ਹਨ, ਪੌਇੰਟਸ ਦੇ ਵਿਚਕਾਰ ਦੂਰੀਆਂ ਨੂੰ ਮਾਪਣ ਦਾ ਇੱਕ ਆਮ ਤਰੀਕਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ, ਅਤੇ ਇਹ 'ਸਮਤਲ' ਜਾਂ 'ਗੈਰ-ਸਮਤਲ' ਤਰੀਕੇ ਨਾਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਡੇਟਾ ਦੀ ਪ੍ਰਕਿਰਤੀ ਦੇ ਅਨੁਸਾਰ। [ਯੂਕਲਿਡੀਅਨ ਦੂਰੀਆਂ](https://wikipedia.org/wiki/Euclidean_distance) ਨੂੰ ਦੋ ਪੌਇੰਟਸ ਦੇ ਵਿਚਕਾਰ ਲਾਈਨ ਸੈਗਮੈਂਟ ਦੀ ਲੰਬਾਈ ਵਜੋਂ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ। [ਗੈਰ-ਯੂਕਲਿਡੀਅਨ ਦੂਰੀਆਂ](https://wikipedia.org/wiki/Non-Euclidean_geometry) ਨੂੰ ਇੱਕ ਵਕਰ ਦੇ ਨਾਲ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ। ਜੇ ਤੁਹਾਡਾ ਡੇਟਾ, ਵਿਜੁਅਲਾਈਜ਼ ਕੀਤਾ ਗਿਆ, ਇੱਕ ਪਲੇਨ 'ਤੇ ਮੌਜੂਦ ਨਹੀਂ ਲੱਗਦਾ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸਨੂੰ ਸੰਭਾਲਣ ਲਈ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਐਲਗੋਰਿਥਮ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ। +> 'ਫਲੈਟ' ਇਸ ਸੰਦਰਭ ਵਿੱਚ ਯੂਕਲੀਡਿਅਨ ਜਿਓਮੇਟ੍ਰੀ ਦੱਸਦਾ ਹੈ (ਜਿਸ ਦਾ ਕੁਝ ਹਿੱਸਾ 'ਪਲੇਨ' ਜਿਓਮੇਟ੍ਰੀ ਵਜੋਂ ਪੜਾਇਆ ਜਾਂਦਾ ਹੈ), ਅਤੇ ਗੈਰ-ਫਲੈਟ ਦਾ ਅਰਥ ਗੈਰ-ਯੂਕਲੀਡਿਅਨ ਜਿਓਮੇਟ੍ਰੀ ਹੁੰਦਾ ਹੈ। ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨਾਲ ਜਿਓਮੇਟ੍ਰੀ ਦਾ ਕੀ ਸਬੰਧ? ਅਸਲ ਵਿੱਚ, ਜਿਵੇਂ ਦੋ ਖੇਤਰ ਗਣਿਤ ਵਿੱਚ ਆਧਾਰਤ ਹਨ, ਕੁਲੱਸਟਰਾਂ ਵਿੱਚ ਬਿੰਦੂਆਂ ਦੀ ਦੂਰੀ ਮਾਪਣ ਲਈ ਏੱਕ ਸਾਂਝਾ ਤਰੀਕਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਉਹ 'ਫਲੈਟ' ਜਾਂ 'ਗੈਰ-ਫਲੈਟ' ਤਰੀਕਿਆਂ ਤੋਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਡਾਟੇ ਦੀ ਪ੍ਰਕ੍ਰਿਤੀ ਦੇ ਅਨੁਸਾਰ। [ਯੂਕਲੀਡਿਅਨ ਦੂਰੀਆਂ](https://wikipedia.org/wiki/Euclidean_distance) ਦੋ ਬਿੰਦੂਆਂ ਵਿਚਕਾਰ ਰੇਖਾ ਖੰਡ ਦੀ ਲੰਬਾਈ ਵਜੋਂ ਮਾਪੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। [ਗੈਰ-ਯੂਕਲੀਡਿਅਨ ਦੂਰੀਆਂ](https://wikipedia.org/wiki/Non-Euclidean_geometry) ਵਾਲੇ ਬਿੰਦੂਆਂ ਦੇ ਵਿਚਕਾਰ ਕਰਵ ਰਾਹੀਂ ਮਾਪੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। ਜੇ ਤੁਹਾਡਾ ਡਾਟਾ, ਦਿੱਖ ਵਿੱਚ, ਪਲੇਨ ਉੱਤੇ ਨਹੀਂ ਹੁੰਦਾ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਸਨੂੰ ਸੰਭਾਲਣ ਲਈ ਖਾਸ ਅਲਗੋਰਿਦਮ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ। > -![ਸਮਤਲ ਵਿਰੁੱਧ ਗੈਰ-ਸਮਤਲ ਜਿਓਮੈਟਰੀ ਇਨਫੋਗ੍ਰਾਫਿਕ](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> ਇਨਫੋਗ੍ਰਾਫਿਕ [Dasani Madipalli](https://twitter.com/dasani_decoded) ਦੁਆਰਾ +![ਫਲੈਟ ਬਨਾਮ ਗੈਰ-ਫਲੈਟ ਜਿਓਮੇਟ੍ਰੀ ਇਨਫੋਗ੍ਰਾਫਿਕ](../../../../translated_images/pa/flat-nonflat.d1c8c6e2a96110c1.webp) +> ਇਨਫੋਗ੍ਰਾਫਿਕ ਦੁਆਰਾ [ਦਸਾਨੀ ਮਾਡਿਪੱਲੀ](https://twitter.com/dasani_decoded) > > 🎓 ['ਦੂਰੀਆਂ'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> ਕਲੱਸਟਰਾਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੀ ਦੂਰੀ ਮੈਟ੍ਰਿਕਸ ਦੁਆਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਪੌਇੰਟਸ ਦੇ ਵਿਚਕਾਰ ਦੂਰੀਆਂ। ਇਹ ਦੂਰੀਆਂ ਕੁਝ ਤਰੀਕਿਆਂ ਨਾਲ ਮਾਪੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ। ਯੂਕਲਿਡੀਅਨ ਕਲੱਸਟਰਾਂ ਨੂੰ ਪੌਇੰਟ ਵੈਲਿਊਜ਼ ਦੇ ਔਸਤ ਦੁਆਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇੱਕ 'ਸੈਂਟਰਾਇਡ' ਜਾਂ ਕੇਂਦਰੀ ਪੌਇੰਟ ਹੁੰਦਾ ਹੈ। ਦੂਰੀਆਂ ਇਸ ਲਈ ਉਸ ਸੈਂਟਰਾਇਡ ਤੋਂ ਦੂਰੀ ਦੁਆਰਾ ਮਾਪੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। ਗੈਰ-ਯੂਕਲਿਡੀਅਨ ਦੂਰੀਆਂ 'ਕਲੱਸਟਰਾਇਡ' ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ, ਉਹ ਪੌਇੰਟ ਜੋ ਹੋਰ ਪੌਇੰਟਸ ਦੇ ਸਭ ਤੋਂ ਨੇੜੇ ਹੁੰਦਾ ਹੈ। ਕਲੱਸਟਰਾਇਡ ਨੂੰ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਨਾਲ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। +> ਕੁਲੱਸਟਰਾਂ ਨੂੰ ਉਹਨਾਂ ਦੀ ਦੂਰੀ ਮੈਟ੍ਰਿਕਸ ਦੁਆਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਬਿੰਦੂਆਂ ਵਿਚਕਾਰ ਦੂਰੀਆਂ। ਇਹ ਦੂਰੀ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਮਾਪੀ ਜਾ ਸਕਦੀ ਹੈ। ਯੂਕਲੀਡਿਅਨ ਕੁਲੱਸਟਰਾਂ ਦੀ ਪਰਿਭਾਸ਼ਾ ਬਿੰਦੂਆਂ ਦੇ ਮਿਡਲ ਅੰਕ ਦੇ ਆਧਾਰ 'ਤੇ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਇੱਕ 'ਸੈਂਟਰਾਇਡ' ਜਾਂ ਕੇਂਦਰੀ ਬਿੰਦੂ ਹੁੰਦਾ ਹੈ। ਇਸ ਤਰ੍ਹਾਂ ਦੂਰੀ ਉਸ ਕੇਂਦਰੀ ਬਿੰਦੂ ਤੱਕ ਦੀ ਮਾਪ ਹੁੰਦੀ ਹੈ। ਗੈਰ-ਯੂਕਲੀਡਿਅਨ ਦੂਰੀਆਂ 'ਕਲੱਸਟਰਾਇਡ' ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ, ਜੋ ਕਿ ਹੋਰ ਬਿੰਦੂਆਂ ਦੇ ਸਭ ਤੋਂ ਨੇੜੇ ਬਿੰਦੂ ਹੁੰਦਾ ਹੈ। ਕਲੱਸਟਰਾਇਡ ਨੂੰ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਨਾਲ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। > -> 🎓 ['ਰੋਕੇ ਹੋਏ'](https://wikipedia.org/wiki/Constrained_clustering) +> 🎓 ['ਸੀਮਿਤ'](https://wikipedia.org/wiki/Constrained_clustering) > -> [ਰੋਕੇ ਹੋਏ ਕਲੱਸਟਰਿੰਗ](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) ਇਸ ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਤਰੀਕੇ ਵਿੱਚ 'ਸੈਮੀ-ਸੁਪਰਵਾਈਜ਼ਡ' ਲਰਨਿੰਗ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ। ਪੌਇੰਟਸ ਦੇ ਵਿਚਕਾਰ ਸੰਬੰਧਾਂ ਨੂੰ 'ਲਿੰਕ ਨਹੀਂ ਕਰ ਸਕਦਾ' ਜਾਂ 'ਲਿੰਕ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ' ਵਜੋਂ ਚਿੰਨ੍ਹਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਤਾਂ ਕਿ ਡੇਟਾਸੈੱਟ 'ਤੇ ਕੁਝ ਨਿਯਮ ਲਾਗੂ ਕੀਤੇ ਜਾ ਸਕਣ। +> [ਸੀਮਿਤ ਕਲੱਸਟਰਿੰਗ](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) ਵਿੱਚ 'ਅਰਧ-ਸੁਪਰਵਾਈਜ਼ਡ' ਲਰਨਿੰਗ ਲਾਈ ਜਾਂਦੀ ਹੈ ਇਸ ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਤਰੀਕੇ ਵਿੱਚ। ਬਿੰਦੂਆਂ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਨੂੰ 'ਲਿੰਕ ਨਹੀਂ ਕਰ ਸਕਦਾ' ਜਾਂ 'ਲਿੰਕ ਕਰਨ ਦੀ ਲੋੜ' ਵਜੋਂ ਨਿਸ਼ਾਨちਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜਿਸ ਨਾਲ ਕੁਝ ਨਿਯਮ ਡਾਟਾਸੈੱਟ ਤੇ ਲਾਗੂ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। > ->ਉਦਾਹਰਨ: ਜੇਕਰ ਇੱਕ ਐਲਗੋਰਿਥਮ ਨੂੰ ਬਿਨਾਂ ਲੇਬਲ ਜਾਂ ਅੰਸ਼ਿਕ ਤੌਰ 'ਤੇ ਲੇਬਲ ਡੇਟਾ ਦੇ ਬੈਚ 'ਤੇ ਖੁੱਲ੍ਹਾ ਛੱਡਿਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਹ ਬਣਾਏ ਗਏ ਕਲੱਸਟਰਾਂ ਦੀ ਗੁਣਵੱਤਾ ਖਰਾਬ ਹੋ ਸਕਦੀ ਹੈ। ਉਪਰੋਕਤ ਉਦਾਹਰਨ ਵਿੱਚ, ਕਲੱਸਟਰ 'ਗੋਲ ਸੰਗੀਤਕ ਚੀਜ਼ਾਂ' ਅਤੇ 'ਚੌਰਸ ਸੰਗੀਤਕ ਚੀਜ਼ਾਂ' ਅਤੇ 'ਤਿਕੋਣ ਚੀਜ਼ਾਂ' ਅਤੇ 'ਕੁਕੀਜ਼' ਨੂੰ ਸਮੂਹਬੱਧ ਕਰ ਸਕਦੇ ਹਨ। ਜੇਕਰ ਕੁਝ ਰੋਕਾਂ, ਜਾਂ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ ("ਆਈਟਮ ਪਲਾਸਟਿਕ ਦਾ ਬਣਿਆ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ", "ਆਈਟਮ ਨੂੰ ਸੰਗੀਤ ਪੈਦਾ ਕਰਨ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ") ਇਹ ਐਲਗੋਰਿਥਮ ਨੂੰ ਵਧੀਆ ਚੋਣਾਂ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। +> ਇੱਕ ਉਦਾਹਰਨ: ਜੇ ਇੱਕ ਅਲਗੋਰਿਦਮ ਅਣਲੇਬਲਡ ਜਾਂ ਅਰਧ ਲੇਬਲਡ ਡਾਟਾ ਦੇ ਬੈਚ 'ਤੇ ਮੁਕਤ ਛੱਡ ਦਿਉਂਦਾ ਹੈ, ਤਾਂ ਇਹ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਕੁਲੱਸਟਰਾਂ ਦੀ ਗੁਣਵੱਤਾ ਖ਼ਰਾਬ ਹੋ ਸਕਦੀ ਹੈ। ਉਪਰ ਦਿੱਤੇ ਉਦਾਹਰਨ ਵਿੱਚ, ਕੁਲੱਸਟਰਾਂ 'ਗੋਲ ਸੰਗੀਤਮਈ ਚੀਜ਼ਾਂ', 'ਚੌਕੋਰ ਸੰਗੀਤਮਈ ਚੀਜ਼ਾਂ', 'ਤਰਿਭੁਜਾਕਾਰ ਚੀਜ਼ਾਂ' ਅਤੇ 'ਕੁਕੀਜ਼' ਵਿਚਕਾਰ ਵੰਡਦੀਆਂ ਹਨ। ਜੇ ਕੁਝ ਸੀਮਾਵਾਂ ਜਾਂ ਨਿਯਮ ਦਿੱਤੇ ਜਾਣ ਤਾਂ ("ਚੀਜ਼ ਪਲਾਸਟਿਕ ਦੀ ਬਣੀ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ", "ਚੀਜ਼ ਨੂੰ ਸੰਗੀਤ ਪੈਦਾ ਕਰਨ ਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ") ਇਹ ਅਲਗੋਰਿਦਮ ਨੂੰ ਬਿਹਤਰ ਚੋਣਾਂ ਕਰਨ ਲਈ ਸੀਮਿਤ ਕਰ ਸਕਦਾ ਹੈ। > > 🎓 'ਘਣਤਾ' > -> ਡੇਟਾ ਜੋ 'ਸ਼ੋਰ' ਵਾਲਾ ਹੈ ਉਸਨੂੰ ' -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | +> ਉਹ ਡਾਟਾ ਜੋ 'ਸ਼ੋਰ ਵਾਲਾ' ਹੈ, ਉਸਨੂੰ 'ਘਨਾ' ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ। ਹਰ ਕੁਲੱਸਟਰ ਦੇ ਬਿੰਦੂਆਂ ਵਿਚਕਾਰ ਦੂਰੀਆਂ ਦੇਖਣ 'ਤੇ ਇਹ ਸਮਝ ਆਉਂਦੀ ਹੈ ਕਿ ਇਹ ਵਧੀਏ ਜਾਂ ਘੱਟ ਘਣਾ ਹੈ, ਜਾਂ ਕਦਰਾਂ ਭੀੜ ਵਾਲੀਆਂ ਹਨ ਅਤੇ ਇਸਡਾਟੇ ਨੂੰ ਉਚਿਤ ਕਲੱਸਟਰਿੰਗ ਤਰੀਕੇ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। [ਇਹ ਲੇਖ](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) ਇੱਕ ਸ਼ੋਰ ਵਾਲੇ ਡਾਟਾਸੈੱਟ ਨੂੰ ਖੰਗਾਲਣ ਲਈ ਕੇ-ਮੀਨਸ ਕਲੱਸਟਰਿੰਗ ਵਿਰੁੱਧ HDBSCAN ਅਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਵਿੱਚ ਫ਼ਰਕ ਦਿਖਾਉਂਦਾ ਹੈ, ਜਿਥੇ ਕੁਲੱਸਟਰ ਘਣਤਾ ਅਸਮਾਨ ਹੁੰਦੀ ਹੈ। -1. ਡਾਟਾਫਰੇਮ ਬਾਰੇ ਕੁਝ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰੋ, `info()` ਕਾਲ ਕਰਕੇ: +## ਕਲੱਸਟਰਿੰਗ ਅਲਗੋਰਿਦਮ + +100 ਤੋਂ ਵੱਧ ਕਲੱਸਟਰਿੰਗ ਅਲਗੋਰਿਦਮ ਉਪਲਬਧ ਹਨ, ਅਤੇ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ ਡਾਟੇ ਦੀ ਸੁਭਾਅ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਆਓ ਕੁਝ ਪ੍ਰਮੁੱਖਾਂ ਬਾਰੇ ਗੱਲ ਕਰੀਏ: + +- **ਹਾਇਰਾਰਕੀਕਲ ਕਲੱਸਟਰਿੰਗ**। ਜੇ ਕਿਸੇ ਵਸਤੂ ਦੀ ਵਰਗੀਕਰਨ ਉਸਦੇ ਨੇੜਲੇ ਵਸਤੂ ਦੀ ਪਹੁੰਚ ਦੇ ਅਧਾਰ ਤੇ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਨਾ ਕਿ ਦੂਰ ਦੇ ਕਿਸੇ ਹੋਰ ਦੀ, ਤਾਂ ਕਲੱਸਟਰ ਬਣਾਏ ਜਾਂਦੇ ਹਨ ਜੋ ਆਪਣੇ ਮੈਂਬਰਾਂ ਦੀ ਦੂਰੀ ਤੋਂ ਥਾਪ ਵੀਧੀ ਕਰਦੇ ਹਨ। Scikit-learn ਦੀ ਐਗਲੋਮੇਰਟਿਵ ਕਲੱਸਟਰਿੰਗ ਹਾਇਰਾਰਕੀਕਲ ਹੈ। + + ![ਹਾਇਰਾਰਕੀਕਲ ਕਲੱਸਟਰਿੰਗ ਇਨਫੋਗ੍ਰਾਫਿਕ](../../../../translated_images/pa/hierarchical.bf59403aa43c8c47.webp) + > ਇਨਫੋਗ੍ਰਾਫਿਕ ਦੁਆਰਾ [ਦਸਾਨੀ ਮਾਡਿਪੱਲੀ](https://twitter.com/dasani_decoded) + +- **ਸੈਂਟਰਾਇਡ ਕਲੱਸਟਰਿੰਗ**। ਇਹ ਪ੍ਰਚਲਿਤ ਅਲਗੋਰਿਦਮ ਕਲੱਸਟਰਾਂ ਦੀ ਸੰਖਿਆ 'k' ਦੇ ਚੋਣ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਤੋਂ ਬਾਅਦ ਅਲਗੋਰਿਦਮ ਕੁਲੱਸਟਰ ਦਾ ਕੇਂਦਰੀ ਬਿੰਦੂ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ ਅਤੇ ਉਸ ਬਿੰਦੂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਡਾਟਾ ਇਕੱਤਰ ਕਰਦਾ ਹੈ। [K-means ਕਲੱਸਟਰਿੰਗ](https://wikipedia.org/wiki/K-means_clustering) ਇਸ ਤਰੀਕੇ ਦੀ ਇੱਕ ਪ੍ਰਸਿੱਧ ਕਿਸਮ ਹੈ। ਕੇਂਦਰ ਨੇੜਲੇ ਮੀਨ ਨਾਲ ਨਿਰਧਾਰਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਇਸ ਲਈ ਨਾਮ। ਕੁਲੱਸਟਰ ਤੋਂ ਵਰਗਮੂਲ ਦੂਰੀ ਘਟਾਈ ਜਾਂਦੀ ਹੈ। + + ![ਸੈਂਟਰਾਇਡ ਕਲੱਸਟਰਿੰਗ ਇਨਫੋਗ੍ਰਾਫਿਕ](../../../../translated_images/pa/centroid.097fde836cf6c918.webp) + > ਇਨਫੋਗ੍ਰਾਫਿਕ ਦੁਆਰਾ [ਦਸਾਨੀ ਮਾਡਿਪੱਲੀ](https://twitter.com/dasani_decoded) + +- **ਵਿਤਰਨ-ਆਧਾਰਿਤ ਕਲੱਸਟਰਿੰਗ**। ਸਾਂਖਿਆਕੀ ਮਾਡਲਿੰਗ 'ਤੇ ਆਧਾਰਿਤ, ਵੰਡ-ਆਧਾਰਿਤ ਕਲੱਸਟਰਿੰਗ ਇਹ ਤਜਵੀਜ਼ ਕਰਦਾ ਹੈ ਕਿ ਇੱਕ ਡਾਟਾ ਬਿੰਦੂ ਕਿਸ ਕੁਲੱਸਟਰ ਦਾ ਸਦੱਸ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਕਿੰਨੀ ਹੈ ਅਤੇ ਉਸ ਅਨੁਸਾਰ ਅਸਾਈਨਮੈਂਟ ਕਰਦਾ ਹੈ। ਗਾਸੀਆਨ ਮਿਕਸਚਰ ਮੈਥਡ ਇਸ ਪ੍ਰਕਾਰ ਵਿੱਚ ਆਉਂਦੇ ਹਨ। + +- **ਘਣਤਾ-ਆਧਾਰਿਤ ਕਲੱਸਟਰਿੰਗ**। ਡਾਟਾ ਬਿੰਦੂਆਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੀ ਘਣਤਾ, ਜਾਂ ਇਕ ਦੂਜੇ ਦੇ ਆਲੇ ਦੁਆਲੇ ਸਮੂਹਿਤ ਹੋਣ ਦੇ ਆਧਾਰ 'ਤੇ ਕੁਲੱਸਟਰਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ। ਸਮੂਹ ਤੋਂ ਦੂਰ ਬਿੰਦੂਆਂ ਨੂੰ ਆਊਟਲਾਇਰ ਜਾਂ ਸ਼ੋਰ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ। DBSCAN, ਮੀਨ-ਸ਼ਿਫਟ ਅਤੇ ਓਪਟਿਕਸ ਕਲੱਸਟਰਿੰਗ ਦੇ ਇਹ ਵਰਗ ਹਨ। + +- **ਗ੍ਰਿਡ-ਆਧਾਰਿਤ ਕਲੱਸਟਰਿੰਗ**। ਬਹੁ-ਪਰਿਮਾਣਵਾਚੀ ਡਾਟਾਸੈੱਟ ਲਈ, ਇੱਕ ਗ੍ਰਿਡ ਬਣਾਈ ਜਾਂਦੀ ਹੈ ਅਤੇ ਡਾਟਾ ਗ੍ਰਿਡ ਦੀਆਂ ਸੈਲਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਕੁਲੱਸਟਰ ਬਣਦੇ ਹਨ। + +## ਅਭਿਆਸ - ਆਪਣੇ ਡਾਟੇ ਨੂੰ ਕਲੱਸਟਰ ਕਰੋ + +ਕਲੱਸਟਰਿੰਗ ਇੱਕ ਤਕਨੀਕ ਵਜੋਂ ਸਹੀ ਵਿਜ਼ੁਅਲਾਈਜੇਸ਼ਨ ਨਾਲ ਬਹੁਤ ਸਹਾਇਤਾ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਆਓ ਸਾਡਾ ਸੰਗੀਤ ਡਾਟਾ ਵਿਜ਼ੁਅਲਾਈਜ਼ ਕਰਕੇ ਸ਼ੁਰੂ ਕਰੀਏ। ਇਹ ਅਭਿਆਸ ਸਾਨੂੰ ਇਹ ਫੈਸਲਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੇਗਾ ਕਿ ਇਸ ਡਾਟੇ ਦੀ ਪ੍ਰਕ੍ਰਿਤੀ ਲਈ ਕਲੱਸਟਰਿੰਗ ਦੇ ਕਿਸ ਤਰੀਕੇ ਨੂੰ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕੇ ਨਾਲ ਵਰਤਣਾ ਚਾਹੀਦਾ ਹੈ। + +1. ਇਸ ਫੋਲਡਰ ਵਿੱਚ [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) ਫਾਇਲ ਖੋਲ੍ਹੋ। + +1. ਵਧੀਆ ਡਾਟਾ ਵਿਜ਼ੁਅਲਾਈਜੇਸ਼ਨ ਲਈ `Seaborn` ਪੈਕੇਜ ਇੰਪੋਰਟ ਕਰੋ। + + ```python + !pip install seaborn + ``` + +1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) ਤੋਂ ਸੰਗੀਤ ਡਾਟਾ ਜੋੜੋ। ਕੁਝ ਗੀਤਾਂ ਬਾਰੇ ਡਾਟਾ ਲੋਡ ਕਰਨ ਲਈ ਡਾਟਾ ਫ੍ਰੇਮ ਬਣਾਓ। ਲਾਇਬਰੈਰੀਜ਼ ਇੰਪੋਰਟ ਕਰਕੇ ਅਤੇ ਡਾਟਾ ਦਿਖਾ ਕੇ ਇਸ ਡਾਟੇ ਦੀ ਖੋਜ ਕਰਨ ਲਈ ਤਿਆਰ ਹੋ ਜਾਓ: + + ```python + import matplotlib.pyplot as plt + import pandas as pd + + df = pd.read_csv("../data/nigerian-songs.csv") + df.head() + ``` + + ਡਾਟੇ ਦੀਆਂ ਪਹਿਲੀਆਂ ਕਈ ਲਾਈਨਾਂ ਦੇਖੋ: + + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + +1. ਡੇਟਾਫ੍ਰੇਮ ਬਾਰੇ ਕੁਝ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰੋ, `info()` ਕਾਲ ਕਰਕੇ: ```python df.info() ``` - ਨਤੀਜਾ ਇਸ ਤਰ੍ਹਾਂ ਦਿਖਾਈ ਦੇ ਰਿਹਾ ਹੈ: + ਨਤੀਜਾ ਇਸ ਤਰ੍ਹਾਂ ਦਾ ਹੈ: ```output @@ -115,13 +164,13 @@ memory usage: 66.4+ KB ``` -1. ਨਲ ਮੁੱਲਾਂ ਦੀ ਦੂਬਾਰਾ ਜਾਂਚ ਕਰੋ, `isnull()` ਕਾਲ ਕਰਕੇ ਅਤੇ ਇਹ ਪੱਕਾ ਕਰਕੇ ਕਿ ਜੋੜ 0 ਹੈ: +1. ਨੱਲ ਮੁੱਲਾਂ ਲਈ ਡਬਲ-ਚੈੱਕ ਕਰੋ, `isnull()` ਕਾਲ ਕਰਕੇ ਅਤੇ ਜੋੜ ਵੇਰਵਾ 0 ਹੋਵੇ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉ: ```python df.isnull().sum() ``` - ਸਭ ਕੁਝ ਠੀਕ ਹੈ: + ਠੀਕ ਲੱਗ ਰਿਹਾ ਹੈ: ```output name 0 @@ -143,7 +192,7 @@ dtype: int64 ``` -1. ਡਾਟਾ ਦਾ ਵੇਰਵਾ ਦਿਓ: +1. ਡੇਟਾ ਦਾ ਵਰਣਨ ਕਰੋ: ```python df.describe() @@ -160,11 +209,11 @@ | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 ਜੇਕਰ ਅਸੀਂ ਕਲੱਸਟਰਿੰਗ ਨਾਲ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ, ਇੱਕ ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਵਿਧੀ ਜੋ ਲੇਬਲਡ ਡਾਟਾ ਦੀ ਲੋੜ ਨਹੀਂ ਰੱਖਦੀ, ਤਾਂ ਅਸੀਂ ਇਹ ਡਾਟਾ ਲੇਬਲਸ ਨਾਲ ਕਿਉਂ ਦਿਖਾ ਰਹੇ ਹਾਂ? ਡਾਟਾ ਐਕਸਪਲੋਰੇਸ਼ਨ ਫੇਜ਼ ਵਿੱਚ, ਇਹ ਸਹਾਇਕ ਹੁੰਦੇ ਹਨ, ਪਰ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਥਮਾਂ ਦੇ ਕੰਮ ਕਰਨ ਲਈ ਇਹ ਜ਼ਰੂਰੀ ਨਹੀਂ ਹਨ। ਤੁਸੀਂ ਕਾਲਮ ਹੈਡਰਜ਼ ਨੂੰ ਹਟਾ ਸਕਦੇ ਹੋ ਅਤੇ ਕਾਲਮ ਨੰਬਰ ਦੁਆਰਾ ਡਾਟਾ ਦਾ ਹਵਾਲਾ ਦੇ ਸਕਦੇ ਹੋ। +> 🤔 ਜੇ ਅਸੀਂ ਕਲੱਸਟਰਿੰਗ ਨਾਲ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਇੱਕ ਆਨਸੁਪਰਵਾਈਜ਼ਡ ਤਰੀਕਾ ਹੈ ਜੋ ਲੇਬਲਡ ਡੇਟਾ ਦੀ ਲੋੜ ਨਹੀਂ ਰੱਖਦਾ, ਤਾਂ ਸਾਡੇ ਵੱਲੋਂ ਇਹ ਡੇਟਾ ਲੇਬਲਾਂ ਨਾਲ ਵੇਖਾਉਣ ਦੀ ਲੋੜ ਕਿਉਂ ਹੈ? ਡੇਟਾ ਐਕਸਪਲੋਰੇਸ਼ਨ ਦੀ фаз ਵਿੱਚ ਇਹ ਲਾਭਦਾਇਕ ਹੁੰਦੇ ਹਨ, ਪਰ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਦਮ ਲਈ ਇਹ ਜ਼ਰੂਰੀ ਨਹੀਂ ਹੁੰਦੇ। ਤੁਸੀਂ ਸਿਰਫ ਕਾਲਮ ਨੰਬਰਾਂ ਨਾਲ ਡੇਟਾ ਦਾ ਹਵਾਲਾ ਦੇ ਕੇ ਕਾਲਮ ਸਿਰਲੇਖ ਹਟਾ ਵੀ ਸਕਦੇ ਹੋ। -ਡਾਟਾ ਦੇ ਆਮ ਮੁੱਲਾਂ ਨੂੰ ਦੇਖੋ। ਧਿਆਨ ਦਿਓ ਕਿ popularity '0' ਹੋ ਸਕਦੀ ਹੈ, ਜੋ ਉਹ ਗੀਤ ਦਿਖਾਉਂਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਕੋਈ ਰੈਂਕਿੰਗ ਨਹੀਂ ਹੈ। ਆਓ ਇਸਨੂੰ ਜਲਦੀ ਹਟਾਈਏ। +ਡੇਟਾ ਦੇ ਆਮ ਮੁੱਲਾਂ 'ਤੇ ਨਜ਼ਰ ਮਾਰੋ। ਧਿਆਨ ਦਿਓ ਕਿ popularity '0' ਹੋ ਸਕਦੀ ਹੈ, ਜੋ ਗੀਤਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ ਕੋਈ ਰੈਂਕਿੰਗ ਨਹੀਂ ਹੈ। ਆਓ ਅਸੀਂ ਹੁਣ ਉਹਨਾਂ ਨੂੰ ਹਟਾਉਂਦੇ ਹਾਂ। -1. ਸਭ ਤੋਂ ਪ੍ਰਸਿੱਧ ਜਾਨਰਜ਼ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ ਇੱਕ ਬਾਰਪਲਾਟ ਦੀ ਵਰਤੋਂ ਕਰੋ: +1. ਸਭ ਤੋਂ ਪ੍ਰਸਿੱਧ ਜਾਨਰਾਂ ਨੂੰ ਖੋਜ ਲਈ ਬਾਰਪਲੌਟ ਦੀ ਵਰਤੋਂ ਕਰੋ: ```python import seaborn as sns @@ -176,13 +225,13 @@ plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/pa/popular.9c48d84b3386705f.webp) -✅ ਜੇ ਤੁਸੀਂ ਹੋਰ ਸਿਖਰਲੇ ਮੁੱਲਾਂ ਨੂੰ ਦੇਖਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਸਿਖਰ `[:5]` ਨੂੰ ਵਧੇਰੇ ਮੁੱਲ ਵਿੱਚ ਬਦਲੋ, ਜਾਂ ਇਸਨੂੰ ਹਟਾ ਦਿਓ ਤਾਂ ਜੋ ਸਾਰੇ ਨੂੰ ਦੇਖ ਸਕੋ। +✅ ਜੇ ਤੁਸੀਂ ਜ਼ਿਆਦਾ ਸਿਖਰ ਦੇ ਮੁੱਲ ਵੇਖਣੇ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਟਾਪ `[:5]` ਨੂੰ ਵੱਡੀ ਕੀਮਤ ਨਾਲ ਬਦਲੋ ਜਾਂ ਇਸਨੂੰ ਹਟਾ ਦਿਓ ਤਾਂ ਜੋ ਸਾਰੇ ਮੁੱਲ ਦੇਖ ਸਕੋ। -ਨੋਟ ਕਰੋ, ਜਦੋਂ ਸਿਖਰਲੇ ਜਾਨਰ ਨੂੰ 'Missing' ਵਜੋਂ ਵੇਰਵਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ Spotify ਨੇ ਇਸਨੂੰ ਵਰਗਬੱਧ ਨਹੀਂ ਕੀਤਾ, ਇਸ ਲਈ ਆਓ ਇਸਨੂੰ ਹਟਾ ਦਿਓ। +ਦਿਆਨ ਦਿਓ, ਜਦੋਂ ਸਿਖਰਲਾ ਜਾਨਰ 'Missing' ਵਜੋਂ ਦੱਸਿਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ Spotify ਨੇ ਇਸਦੀ ਵਰਗੀਕਰਨ ਨਹੀਂ ਕੀਤੀ, ਇਸ ਲਈ ਆਓ ਇਸ ਨੂੰ ਹਟਾਈਏ। -1. ਗੁੰਮ ਹੋਏ ਡਾਟਾ ਨੂੰ ਫਿਲਟਰ ਕਰਕੇ ਹਟਾਓ +1. ਗੁੰਮ ਹੋਈ ਡੇਟਾ ਨੂੰ ਫਿਲਟਰ ਕਰਕੇ ਹਟਾਓ ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -193,11 +242,11 @@ plt.title('Top genres',color = 'blue') ``` - ਹੁਣ ਜਾਨਰਜ਼ ਦੀ ਦੁਬਾਰਾ ਜਾਂਚ ਕਰੋ: + ਹੁਣ ਜਾਨਰਾਂ ਦਾ ਮੁੜ ਮੁਆਇਨਾ ਕਰੋ: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/pa/all-genres.1d56ef06cefbfcd6.webp) -1. ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ, ਸਿਖਰਲੇ ਤਿੰਨ ਜਾਨਰਜ਼ ਇਸ ਡਾਟਾਸੈਟ ਵਿੱਚ ਹਾਵੀ ਹਨ। ਆਓ `afro dancehall`, `afropop`, ਅਤੇ `nigerian pop` 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰੀਏ, ਅਤੇ ਇਸ ਤੋਂ ਇਲਾਵਾ ਡਾਟਾਸੈਟ ਨੂੰ ਫਿਲਟਰ ਕਰਕੇ 0 popularity ਮੁੱਲ ਵਾਲੇ ਕਿਸੇ ਵੀ ਚੀਜ਼ ਨੂੰ ਹਟਾਓ (ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਸਨੂੰ ਡਾਟਾਸੈਟ ਵਿੱਚ ਇੱਕ popularity ਨਾਲ ਵਰਗਬੱਧ ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਅਤੇ ਸਾਡੇ ਉਦੇਸ਼ਾਂ ਲਈ ਇਸਨੂੰ ਸ਼ੋਰ ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ): +1. ਇਸ ਡੈਟਾਸੇਟ ਵਿੱਚ ਤਿੰਨ ਸਿਖਰਲੇ ਜਾਨਰ ਬੜੀ ਸਖਤੀ ਨਾਲ ਪ੍ਰਭਾਵਿਤ ਹਨ। ਆਓ `afro dancehall`, `afropop`, ਅਤੇ `nigerian pop` ’ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰੀਏ, ਨਾਲ ਹੀ ਡੈਟਾਸੇਟ ਤੋਂ ਉਹ ਸਾਰੇ ਰਿਕਾਰਡ ਹਟਾਓ ਜਿਨ੍ਹਾਂ ਦੀ popularity 0 ਹੈ (ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉਹ ਡੈਟਾ ਵਿੱਚ popularity ਨਾਲ ਵਰਗੀਕ੍ਰਿਤ ਨਹੀਂ ਕੀਤੇ ਗਏ ਅਤੇ ਸਾਡੇ ਮਕਸਦ ਲਈ ਸ਼ੋਰ ਮੰਨੇ ਜਾ ਸਕਦੇ ਹਨ): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -209,7 +258,7 @@ plt.title('Top genres',color = 'blue') ``` -1. ਇੱਕ ਛੋਟਾ ਟੈਸਟ ਕਰੋ ਕਿ ਡਾਟਾ ਕਿਸੇ ਖਾਸ ਤਰੀਕੇ ਨਾਲ ਮਜ਼ਬੂਤੀ ਨਾਲ ਸੰਬੰਧਿਤ ਹੈ ਜਾਂ ਨਹੀਂ: +1. ਇੱਕ ਛੋਟੀ ਟੈਸਟ ਕਰੋ ਜੁੜਾਵਾਂ ਨੂੰ ਕਿਸੇ ਖ਼ਾਸ ਤਾਕਤਵਰ ਢੰਗ ਨਾਲ ਦੇਖਣ ਲਈ: ```python corrmat = df.corr(numeric_only=True) @@ -217,21 +266,21 @@ sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/pa/correlation.a9356bb798f5eea5.webp) - ਸਿਰਫ਼ `energy` ਅਤੇ `loudness` ਦੇ ਵਿਚਕਾਰ ਮਜ਼ਬੂਤ ਸੰਬੰਧ ਹੈ, ਜੋ ਹੈਰਾਨੀਜਨਕ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਉੱਚ-ਅਵਾਜ਼ ਵਾਲਾ ਸੰਗੀਤ ਆਮ ਤੌਰ 'ਤੇ ਕਾਫ਼ੀ energetic ਹੁੰਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸੰਬੰਧ ਕਾਫ਼ੀ ਕਮਜ਼ੋਰ ਹਨ। ਇਹ ਦਿਲਚਸਪ ਹੋਵੇਗਾ ਕਿ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਥਮ ਇਸ ਡਾਟਾ ਤੋਂ ਕੀ ਬਣਾਉਂਦਾ ਹੈ। + ਸਿਰਫ਼ `energy` ਅਤੇ `loudness` ਵਿਚਕਾਰ ਹੀ ਤਾਕਤਵਰ ਜੁੜਾਵ ਹੈ, ਜੋ ਕਿ ਹੈਰਾਨ ਕਰਨ ਵਾਲੀ ਗੱਲ ਨਹੀਂ, ਕਿਉਂਕਿ ਉੱਚ ਸ਼ੋਰ ਵਾਲਾ ਸੰਗੀਤ ਆਮਤੌਰ 'ਤੇ ਬਹੁਤ ਉਰਜਾਵਾਨ ਹੁੰਦਾ ਹੈ। ਹੋਰਾਂ correlations ਕਾਫੀ ਨਰਮ ਹਨ। ਦੇਖਣਾ ਮਨੋਰੰਜਕ ਰਹੇਗਾ ਕਿ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਦਮ ਇਸ ਡੇਟਾ ਨਾਲ ਕੀ ਕਰਦਾ ਹੈ। - > 🎓 ਨੋਟ ਕਰੋ ਕਿ ਸੰਬੰਧ ਕਾਰਨ ਨੂੰ ਦਰਸਾਉਂਦਾ ਨਹੀਂ ਹੈ! ਸਾਡੇ ਕੋਲ ਸੰਬੰਧ ਦਾ ਸਬੂਤ ਹੈ ਪਰ ਕਾਰਨ ਦਾ ਸਬੂਤ ਨਹੀਂ। ਇੱਕ [ਮਜ਼ੇਦਾਰ ਵੈਬਸਾਈਟ](https://tylervigen.com/spurious-correlations) ਕੁਝ ਵਿਜੁਅਲ ਦਿਖਾਉਂਦੀ ਹੈ ਜੋ ਇਸ ਬਿੰਦੂ ਨੂੰ ਜ਼ੋਰ ਦਿੰਦੀ ਹੈ। + > 🎓 ਧਿਆਨ ਦਿਓ ਕਿ correlation causation ਨੂੰ ਸਾਬਤ ਨਹੀਂ ਕਰਦਾ! ਸਾਡੇ ਕੋਲ correlation ਦਾ ਸਬੂਤ ਹੈ ਪਰ causation ਦਾ ਨਹੀਂ। ਇੱਕ [ਮਜ਼ੇਦਾਰ ਵੈੱਬਸਾਈਟ](https://tylervigen.com/spurious-correlations) ਕੁਝ ਵਿਜ਼ੂਅਲਜ਼ ਦੇ ਕੇ ਇਸ ਬਿੰਦੂ ਨੂੰ ਝਲਕਾਉਂਦੀ ਹੈ। -ਕੀ ਇਸ ਡਾਟਾਸੈਟ ਵਿੱਚ ਗੀਤ ਦੀ perceived popularity ਅਤੇ danceability ਦੇ ਆਸਪਾਸ ਕੋਈ ਸੰਮਿਲਨ ਹੈ? ਇੱਕ FacetGrid ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ concentric circles ਲਾਈਨ ਅਪ ਹੁੰਦੀਆਂ ਹਨ, ਜਾਨਰ ਤੋਂ ਬਿਨਾਂ। ਕੀ ਇਹ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਨਾਈਜੀਰੀਆਈ ਰੁਚੀਆਂ ਇਸ ਜਾਨਰ ਲਈ danceability ਦੇ ਇੱਕ ਖਾਸ ਪੱਧਰ 'ਤੇ converge ਕਰਦੀਆਂ ਹਨ? +ਕੀ ਇਸ ਡੇਟਾਸੇਟ ਵਿੱਚ ਗੀਤ ਦੀ ਸਮਝੀ ਗਈ ਪ੍ਰਸਿੱਧੀ ਅਤੇ ਨੱਚਣਯੋਗਤਾ ਵਿਚ ਕੋਈ ਇਕੱਤਰਤਾ ਹੈ? FacetGrid ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਉਹਨਾਂ ਦੇ ਗੋਲ-ਗੋਲ ਚੱਕਰ ਹਨ ਜੋ ਜਾਨਰ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ ਲਗਦੇ ਹਨ। ਕੀ ਇਹ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਨਾਈਜੀਰੀਆਈ ਸਵਾਦ ਇਸ ਜਾਨਰ ਲਈ ਇੱਕ ਨੱਚਣਯੋਗਤਾ ਦੇ ਇੱਕ ਖਾਸ ਸਤਰ 'ਤੇ ਮਿਲਦੇ ਹਨ? -✅ ਵੱਖ-ਵੱਖ ਡਾਟਾਪੋਇੰਟ (energy, loudness, speechiness) ਅਤੇ ਹੋਰ ਜਾਂ ਵੱਖਰੇ ਸੰਗੀਤਕ ਜਾਨਰਜ਼ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ। ਤੁਸੀਂ ਕੀ ਖੋਜ ਸਕਦੇ ਹੋ? ਡਾਟਾ ਪੋਇੰਟਸ ਦੇ ਆਮ ਫੈਲਾਅ ਨੂੰ ਦੇਖਣ ਲਈ `df.describe()` ਟੇਬਲ ਨੂੰ ਦੇਖੋ। +✅ ਵੱਖ-ਵੱਖ ਡੇਟਾਪੋਇੰਟ (energy, loudness, speechiness) ਅਤੇ ਹੋਰ ਜਾਂ ਵੱਖਰੇ ਸੰਗੀਤਕ ਜਾਨਰਾਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ। ਤੁਸੀਂ ਕੀ ਖੋਜ ਸਕਦੇ ਹੋ? ਗਲੋਬਲ ਡੇਟਾਪੋਇੰਟ ਦੇ ਫੈਲਾਵ ਨੂੰ ਵੇਖਣ ਲਈ `df.describe()` ਟੇਬਲ ਨੂੰ ਦੇਖੋ। -### ਅਭਿਆਸ - ਡਾਟਾ ਵੰਡ +### ਵਿਆਯਾਮ - ਡੇਟਾ ਵੰਡ -ਕੀ ਇਹ ਤਿੰਨ ਜਾਨਰਜ਼ ਆਪਣੇ popularity ਦੇ ਆਧਾਰ 'ਤੇ danceability ਦੀ perception ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਵੱਖਰੇ ਹਨ? +ਕੀ ਇਹ ਤਿੰਨ ਜਾਨਰ ਆਪਣੇ ਪ੍ਰਸਿੱਧੀ ਦੇ ਆਧਾਰ 'ਤੇ ਆਪਣੇ ਨੱਚਣਯੋਗਤਾ ਦੀ ਸਮਝ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਵੱਖਰੇ ਹਨ? -1. ਸਾਡੇ ਸਿਖਰਲੇ ਤਿੰਨ ਜਾਨਰਜ਼ ਦੇ ਡਾਟਾ ਵੰਡ ਨੂੰ popularity ਅਤੇ danceability ਲਈ ਦਿੱਤੇ x ਅਤੇ y ਅਕਸਾਂ ਦੇ ਨਾਲ ਜਾਂਚੋ। +1. ਸਾਡੇ ਟਾਪ ਤਿੰਨ ਜਾਨਰਾਂ ਦੀ ਡੇਟਾ ਵੰਡ ਦੀ ਜਾਂਚ ਕਰੋ, ਪ੍ਰਸਿੱਧੀ ਅਤੇ ਨੱਚਣਯੋਗਤਾ ਲਈ ਦਿੱਤੇ ਹੋਏ x ਅਤੇ y ਧੁਰੀਆਂ 'ਤੇ। ```python sns.set_theme(style="ticks") @@ -243,15 +292,15 @@ ) ``` - ਤੁਸੀਂ ਇੱਕ ਆਮ ਸੰਮਿਲਨ ਬਿੰਦੂ ਦੇ ਆਸਪਾਸ concentric circles ਦੀ ਖੋਜ ਕਰ ਸਕਦੇ ਹੋ, ਜੋ ਬਿੰਦੂਆਂ ਦੀ ਵੰਡ ਦਿਖਾਉਂਦਾ ਹੈ। + ਤੁਸੀਂ ਇੱਕ ਆਮ ਇਕੱਤਰਤਾ ਬਿੰਦੂ ਦੇ ਆਸ-ਪਾਸ ਗੋਲ-ਗੋਲ ਚੱਕਰ ਖੋਜ ਸਕਦੇ ਹੋ, ਜੋ ਪੌਇੰਟਸ ਦੀ ਵੰਡ ਦਰਸਾਉਂਦਾ ਹੈ। - > 🎓 ਨੋਟ ਕਰੋ ਕਿ ਇਹ ਉਦਾਹਰਨ ਇੱਕ KDE (Kernel Density Estimate) ਗ੍ਰਾਫ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ ਜੋ ਡਾਟਾ ਨੂੰ ਇੱਕ ਲਗਾਤਾਰ probability density curve ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਦਰਸਾਉਂਦੀ ਹੈ। ਇਹ ਸਾਨੂੰ ਕਈ ਵੰਡਾਂ ਨਾਲ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਡਾਟਾ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। + > 🎓 ਧਿਆਨ ਦਿਓ ਕਿ ਇਹ ਉਦਾਹਰਨ KDE (Kernel Density Estimate) ਗ੍ਰਾਫ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ ਜੋ ਡੇਟਾ ਨੂੰ ਇੱਕ ਲਗਾਤਾਰ ਸੰਭਾਵਨਾ ਘਣਤਾ ਵੇਖਾਵਟ ਨਾਲ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਸਾਨੂੰ ਕਈ ਵੰਡਾਂ ਨਾਲ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਡੇਟਾ ਦੀ ਵਿਵਖਿਆ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। - ਆਮ ਤੌਰ 'ਤੇ, ਤਿੰਨ ਜਾਨਰਜ਼ ਆਪਣੇ popularity ਅਤੇ danceability ਦੇ ਹਵਾਲੇ ਨਾਲ ਢਿੱਲੇ ਤੌਰ 'ਤੇ ਸਿੱਧੇ ਲਾਈਨ ਵਿੱਚ ਹਨ। ਇਸ ਢਿੱਲੇ-ਲਾਈਨਡ ਡਾਟਾ ਵਿੱਚ ਕਲੱਸਟਰਾਂ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨਾ ਇੱਕ ਚੁਣੌਤੀ ਹੋਵੇਗੀ: + ਆਮ ਤੌਰ 'ਤੇ, ਇਹ ਤਿੰਨ ਜਾਨਰ ਆਪਣੀ ਪ੍ਰਸਿੱਧੀ ਅਤੇ ਨੱਚਣਯੋਗਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਖੁਲ੍ਹੇ ਤੌਰ 'ਤੇ ਮਿਲਦੇ ਹਨ। ਇਸ ਖੁੱਲੀ ਵੰਡ ਵਿੱਚ ਕਲੱਸਟਰ ਤੈਅ ਕਰਨਾ ਚੁਣੌਤੀਪੂਰਨ ਹੋਵੇਗਾ: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/pa/distribution.9be11df42356ca95.webp) -1. ਇੱਕ scatter plot ਬਣਾਓ: +1. ਇੱਕ ਸਕੈਟਰ ਪਲੌਟ ਬਣਾਓ: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -259,31 +308,33 @@ .add_legend() ``` - ਉਹੀ ਅਕਸਾਂ ਦੇ scatterplot ਵਿੱਚ ਸੰਮਿਲਨ ਦਾ ਇੱਕ ਸਮਾਨ ਪੈਟਰਨ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ + ਉਹੀ ਧੁਰੀਆਂ ਵਾਲਾ ਸਕੈਟਰਪਲੌਟ ਇੱਕ ਸਮਾਨ ਇਕੱਤਰਤਾ ਪੈਟਰਨ ਦਰਸਾਉਂਦਾ ਹੈ - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/pa/facetgrid.9b2e65ce707eba1f.webp) -ਆਮ ਤੌਰ 'ਤੇ, ਕਲੱਸਟਰਿੰਗ ਲਈ, ਤੁਸੀਂ ਡਾਟਾ ਦੇ ਕਲੱਸਟਰਾਂ ਨੂੰ ਦਿਖਾਉਣ ਲਈ scatterplots ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ, ਇਸ ਲਈ ਇਸ ਕਿਸਮ ਦੇ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਮਾਸਟਰ ਕਰਨਾ ਬਹੁਤ ਹੀ ਲਾਭਦਾਇਕ ਹੈ। ਅਗਲੇ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਇਸ ਫਿਲਟਰਡ ਡਾਟਾ ਨੂੰ ਲੈ ਕੇ k-means clustering ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸ ਡਾਟਾ ਵਿੱਚ ਸਮੂਹਾਂ ਦੀ ਖੋਜ ਕਰਾਂਗੇ ਜੋ ਦਿਲਚਸਪ ਤਰੀਕੇ ਨਾਲ ਇੱਕ-ਦੂਜੇ ਨਾਲ ਢੁਕਵਾਂ ਹਨ। +ਆਮ ਤੌਰ 'ਤੇ, ਕਲੱਸਟਰਿੰਗ ਲਈ, ਤੁਸੀਂ ਡੇਟਾ ਦੇ ਕਲੱਸਟਰਾਂ ਨੂੰ ਵੇਖਾਉਣ ਲਈ ਸਕੈਟਰਪਲੌਟ ਵਰਤ ਸਕਦੇ ਹੋ, ਇਸ ਲਈ ਇਸ ਕਿਸਮ ਦੀ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਜਾਣਨਾ ਬਹੁਤ ਲਾਭਦਾਇਕ ਹੈ। ਅਗਲੇ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਇਸ ਫਿਲਟਰਡ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ k-means ਕਲੱਸਟਰਿੰਗ ਨਾਲ ਉਹ ਗਰੁੱਪ ਖੋਜਾਂਗੇ ਜੋ ਇਸ ਡੇਟਾ ਵਿੱਚ ਦਿਲਚਸਪ ਤਰੀਕੇ ਨਾਲ ਓਵਰਲੈਪ ਹੋਦੇ ਹਨ। --- ## 🚀ਚੁਣੌਤੀ -ਅਗਲੇ ਪਾਠ ਦੀ ਤਿਆਰੀ ਵਿੱਚ, ਉਹਨਾਂ ਵੱਖ-ਵੱਖ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਥਮਾਂ ਬਾਰੇ ਇੱਕ ਚਾਰਟ ਬਣਾਓ ਜੋ ਤੁਸੀਂ ਖੋਜ ਸਕਦੇ ਹੋ ਅਤੇ ਉਤਪਾਦਨ ਵਾਤਾਵਰਣ ਵਿੱਚ ਵਰਤ ਸਕਦੇ ਹੋ। ਕਲੱਸਟਰਿੰਗ ਕਿਸ ਕਿਸਮ ਦੇ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੀ ਹੈ? +ਅਗਲੇ ਪਾਠ ਦੀ ਤਿਆਰੀ ਲਈ, ਉਹ ਵੱਖ-ਵੱਖ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਦਮਾਂ ਬਾਰੇ ਇੱਕ ਚਾਰਟ ਬਣਾਓ ਜੋ ਤੁਸੀਂ ਪ੍ਰੋਡਕਸ਼ਨ ਮਾਹੌਲ ਵਿੱਚ ਲੱਭ ਸਕਦੇ ਹੋ ਅਤੇ ਵਰਤ ਸਕਦੇ ਹੋ। ਕਿਹੜੇ ਕਿਸਮ ਦੇ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਕਲੱਸਟਰਿੰਗ ਹੱਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੀ ਹੈ? -## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ml/) +## [ਪੋਸਟ-ਲੈੱਕਚਰ ਕੁਇਜ਼](https://ff-quizzes.netlify.app/en/ml/) -## ਸਮੀਖਿਆ ਅਤੇ ਸਵੈ ਅਧਿਐਨ +## ਸਮੀਖਿਆ ਅਤੇ ਖੁਦ-ਅਧਿਐਨ -ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਥਮਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਸਿੱਖਿਆ ਹੈ, ਇਹ ਤੁਹਾਡੇ ਡਾਟਾਸੈਟ ਦੀ ਪ੍ਰਕਿਰਤੀ ਨੂੰ ਸਮਝਣ ਲਈ ਇੱਕ ਚੰਗਾ ਵਿਚਾਰ ਹੈ। ਇਸ ਵਿਸ਼ੇ 'ਤੇ ਹੋਰ ਪੜ੍ਹੋ [ਇੱਥੇ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਦਮ ਲਾਗੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਸਿੱਖਿਆ ਹੈ, ਇਹ ਬਿਹਤਰ ਹੈ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਡੇਟਾਸੇਟ ਦੀ ਕੁਦਰਤ ਜਾਨਣ। ਇਸ ਵਿਸ਼ੇ 'ਤੇ ਵਧੇਰੇ ਪੜ੍ਹੋ [ਇੱਥੇ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[ਇਹ ਸਹਾਇਕ ਲੇਖ](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) ਤੁਹਾਨੂੰ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਨਾਲ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਵੱਖ-ਵੱਖ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਥਮ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਸ਼ੇਪਾਂ ਦੇ ਨਾਲ ਕਿਵੇਂ ਵਿਹਾਰ ਕਰਦੇ ਹਨ। +[ਇਹ ਸਹਾਇਕ ਲੇਖ](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) ਤੁਹਾਨੂੰ ਵੱਖ-ਵੱਖ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਦਮਾਂ ਦੇ ਵਿਵਹਾਰ ਬਾਰੇ ਗਾਈਡ ਕਰਦਾ ਹੈ, ਜੋ ਵੱਖਰੇ ਡੇਟਾ ਰੂਪਾਂ 'ਤੇ ਆਧਾਰਿਤ ਹਨ। ## ਅਸਾਈਨਮੈਂਟ -[ਕਲੱਸਟਰਿੰਗ ਲਈ ਹੋਰ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਖੋਜੋ](assignment.md) +[ਕਲੱਸਟਰਿੰਗ ਲਈ ਹੋਰ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨਾਂ ਦੀ ਖੋਜ ਕਰੋ](assignment.md) --- -**ਅਸਵੀਕਾਰਨਾ**: -ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਣੀਕਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ। \ No newline at end of file + +**ਅਸਵੀਕਾਰੋਪਣ**: +ਇਸ ਦਸਤਾਵੇਜ਼ ਦਾ ਅਨੁਵਾਦ ਏਆਈ ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾਵਾਂ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਰੱਖੋ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸਮੱਤਿਆਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਆਪਣੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਜਰੂਰੀ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫ਼ਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸ ਅਨੁਵਾਦ ਦੇ ਉਪਯੋਗ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀਆਂ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆਵਾਂ ਲਈ ਜਵਾਬਦੇਹ ਨਹੀਂ ਹਾਂ। + \ No newline at end of file diff --git a/translations/pt-BR/.co-op-translator.json b/translations/pt-BR/.co-op-translator.json index 40d970ae6..d3d67368d 100644 --- a/translations/pt-BR/.co-op-translator.json +++ b/translations/pt-BR/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-04T21:36:24+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:22:10+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "pt-BR" }, @@ -240,8 +240,8 @@ "language_code": "pt-BR" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-04T21:29:07+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:21:48+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "pt-BR" }, diff --git a/translations/pt-BR/1-Introduction/1-intro-to-ML/README.md b/translations/pt-BR/1-Introduction/1-intro-to-ML/README.md index eefa4d68b..ae9c171c4 100644 --- a/translations/pt-BR/1-Introduction/1-intro-to-ML/README.md +++ b/translations/pt-BR/1-Introduction/1-intro-to-ML/README.md @@ -1,150 +1,157 @@ # Introdução ao aprendizado de máquina -## [Quiz pré-aula](https://ff-quizzes.netlify.app/en/ml/) +## [Questionário pré-aula](https://ff-quizzes.netlify.app/en/ml/) --- [![ML para iniciantes - Introdução ao Aprendizado de Máquina para Iniciantes](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML para iniciantes - Introdução ao Aprendizado de Máquina para Iniciantes") -> 🎥 Clique na imagem acima para assistir a um vídeo curto sobre esta lição. +> 🎥 Clique na imagem acima para um vídeo curto que aborda esta aula. -Bem-vindo a este curso sobre aprendizado de máquina clássico para iniciantes! Seja você completamente novo neste tópico ou um praticante experiente de ML buscando revisar alguma área, estamos felizes em tê-lo conosco! Queremos criar um ponto de partida amigável para seus estudos de ML e ficaremos felizes em avaliar, responder e incorporar seu [feedback](https://github.com/microsoft/ML-For-Beginners/discussions). +Bem-vindo a este curso sobre aprendizado de máquina clássico para iniciantes! Quer você seja completamente novo nesse assunto ou um praticante experiente de ML querendo se atualizar em uma área, estamos felizes por tê-lo conosco! Queremos criar um ponto de partida amigável para seu estudo de ML e ficaremos felizes em avaliar, responder e incorporar seu [feedback](https://github.com/microsoft/ML-For-Beginners/discussions). [![Introdução ao ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introdução ao ML") -> 🎥 Clique na imagem acima para assistir a um vídeo: John Guttag do MIT apresenta aprendizado de máquina. +> 🎥 Clique na imagem acima para um vídeo: John Guttag do MIT apresenta aprendizado de máquina --- ## Começando com aprendizado de máquina -Antes de começar com este currículo, você precisa configurar seu computador e estar pronto para executar notebooks localmente. +Antes de começar com este currículo, você precisa ter seu computador configurado e pronto para executar notebooks localmente. -- **Configure sua máquina com estes vídeos**. Use os links a seguir para aprender [como instalar Python](https://youtu.be/CXZYvNRIAKM) no seu sistema e [configurar um editor de texto](https://youtu.be/EU8eayHWoZg) para desenvolvimento. -- **Aprenda Python**. Também é recomendado ter um entendimento básico de [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), uma linguagem de programação útil para cientistas de dados que utilizamos neste curso. -- **Aprenda Node.js e JavaScript**. Também utilizamos JavaScript algumas vezes neste curso ao construir aplicativos web, então você precisará ter [node](https://nodejs.org) e [npm](https://www.npmjs.com/) instalados, além de [Visual Studio Code](https://code.visualstudio.com/) disponível para desenvolvimento em Python e JavaScript. -- **Crie uma conta no GitHub**. Já que você nos encontrou aqui no [GitHub](https://github.com), talvez já tenha uma conta, mas se não, crie uma e depois faça um fork deste currículo para usar por conta própria. (Sinta-se à vontade para nos dar uma estrela também 😊) -- **Explore o Scikit-learn**. Familiarize-se com [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), um conjunto de bibliotecas de ML que referenciamos nestas lições. +- **Configure sua máquina com estes vídeos**. Use os links seguintes para aprender [como instalar Python](https://youtu.be/CXZYvNRIAKM) em seu sistema e [configurar um editor de texto](https://youtu.be/EU8eayHWoZg) para desenvolvimento. +- **Aprenda Python**. Também é recomendado ter uma compreensão básica de [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), uma linguagem de programação útil para cientistas de dados que usamos neste curso. +- **Aprenda Node.js e JavaScript**. Também usamos JavaScript algumas vezes neste curso ao construir aplicativos web, então você precisará ter [node](https://nodejs.org) e [npm](https://www.npmjs.com/) instalados, assim como o [Visual Studio Code](https://code.visualstudio.com/) disponível para desenvolvimento em Python e JavaScript. +- **Crie uma conta no GitHub**. Como você nos encontrou aqui no [GitHub](https://github.com), talvez já tenha uma conta, mas se não, crie uma e depois faça um fork deste currículo para usar por conta própria. (Fique à vontade para nos dar uma estrela também 😊) +- **Explore o Scikit-learn**. Familiarize-se com o [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), um conjunto de bibliotecas de ML que usamos como referência nestas lições. --- ## O que é aprendizado de máquina? -O termo 'aprendizado de máquina' é um dos mais populares e frequentemente usados atualmente. Existe uma possibilidade não trivial de que você já tenha ouvido este termo pelo menos uma vez, caso tenha algum tipo de familiaridade com tecnologia, independentemente da área em que trabalha. No entanto, a mecânica do aprendizado de máquina é um mistério para a maioria das pessoas. Para um iniciante em aprendizado de máquina, o assunto pode às vezes parecer intimidante. Portanto, é importante entender o que realmente é aprendizado de máquina e aprender sobre ele passo a passo, por meio de exemplos práticos. +O termo "aprendizado de máquina" é um dos termos mais populares e frequentemente usados hoje em dia. Existe uma possibilidade considerável de que você tenha ouvido esse termo ao menos uma vez se tem alguma familiaridade com tecnologia, independentemente do domínio em que trabalha. A mecânica do aprendizado de máquina, entretanto, é um mistério para a maioria das pessoas. Para um iniciante em aprendizado de máquina, o assunto às vezes pode parecer assustador. Por isso, é importante entender o que realmente é aprendizado de máquina e aprender sobre ele passo a passo, por meio de exemplos práticos. --- -## A curva de hype +## A curva do hype -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![curva do hype do ml](../../../../translated_images/pt-BR/hype.07183d711a17aafe.webp) -> O Google Trends mostra a recente 'curva de hype' do termo 'aprendizado de máquina' +> O Google Trends mostra a recente "curva do hype" do termo "aprendizado de máquina" --- ## Um universo misterioso -Vivemos em um universo cheio de mistérios fascinantes. Grandes cientistas como Stephen Hawking, Albert Einstein e muitos outros dedicaram suas vidas à busca de informações significativas que desvendassem os mistérios do mundo ao nosso redor. Esta é a condição humana de aprender: uma criança humana aprende coisas novas e descobre a estrutura de seu mundo ano após ano enquanto cresce até a idade adulta. +Vivemos em um universo cheio de mistérios fascinantes. Grandes cientistas como Stephen Hawking, Albert Einstein e muitos outros dedicaram suas vidas à busca por informações significativas que desvendaram os mistérios do mundo ao nosso redor. Esta é a condição humana do aprendizado: uma criança aprende coisas novas e descobre a estrutura do seu mundo ano após ano enquanto cresce até a idade adulta. --- ## O cérebro da criança -O cérebro e os sentidos de uma criança percebem os fatos ao seu redor e gradualmente aprendem os padrões ocultos da vida, que ajudam a criança a criar regras lógicas para identificar padrões aprendidos. O processo de aprendizado do cérebro humano torna os humanos as criaturas mais sofisticadas deste mundo. Aprender continuamente, descobrindo padrões ocultos e depois inovando com base nesses padrões, nos permite melhorar continuamente ao longo de nossas vidas. Essa capacidade de aprendizado e evolução está relacionada a um conceito chamado [plasticidade cerebral](https://www.simplypsychology.org/brain-plasticity.html). Superficialmente, podemos traçar algumas semelhanças motivacionais entre o processo de aprendizado do cérebro humano e os conceitos de aprendizado de máquina. +O cérebro e os sentidos de uma criança percebem os fatos ao seu redor e gradualmente aprendem os padrões ocultos da vida que ajudam a criança a criar regras lógicas para identificar padrões aprendidos. O processo de aprendizado do cérebro humano torna os humanos a criatura viva mais sofisticada deste mundo. Aprender continuamente descobrindo padrões ocultos e depois inovando sobre esses padrões nos permite melhorar cada vez mais ao longo da vida. Essa capacidade de aprendizado e evolução está relacionada a um conceito chamado [plasticidade cerebral](https://www.simplypsychology.org/brain-plasticity.html). Superficialmente, podemos traçar algumas similaridades motivadoras entre o processo de aprendizado do cérebro humano e os conceitos de aprendizado de máquina. --- ## O cérebro humano -O [cérebro humano](https://www.livescience.com/29365-human-brain.html) percebe coisas do mundo real, processa as informações percebidas, toma decisões racionais e realiza certas ações com base nas circunstâncias. Isso é o que chamamos de comportamento inteligente. Quando programamos uma réplica do processo de comportamento inteligente em uma máquina, isso é chamado de inteligência artificial (IA). +O [cérebro humano](https://www.livescience.com/29365-human-brain.html) percebe coisas do mundo real, processa as informações percebidas, toma decisões racionais e executa certas ações baseadas nas circunstâncias. Isso é o que chamamos de comportamento inteligente. Quando programamos uma réplica do processo comportamental inteligente em uma máquina, chamamos isso de inteligência artificial (IA). --- ## Alguns termos -Embora os termos possam ser confundidos, aprendizado de máquina (ML) é um subconjunto importante da inteligência artificial. **ML está relacionado ao uso de algoritmos especializados para descobrir informações significativas e encontrar padrões ocultos a partir de dados percebidos, corroborando o processo de tomada de decisão racional**. +Embora os termos possam ser confundidos, aprendizado de máquina (ML) é um subconjunto importante da inteligência artificial. **O ML está preocupado com o uso de algoritmos especializados para descobrir informações significativas e encontrar padrões ocultos a partir dos dados percebidos para corroborar o processo de tomada de decisão racional**. --- -## IA, ML, Aprendizado Profundo +## IA, ML, Deep Learning -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![IA, ML, deep learning, ciência de dados](../../../../translated_images/pt-BR/ai-ml-ds.537ea441b124ebf6.webp) -> Um diagrama mostrando as relações entre IA, ML, aprendizado profundo e ciência de dados. Infográfico por [Jen Looper](https://twitter.com/jenlooper) inspirado por [este gráfico](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Diagrama mostrando as relações entre IA, ML, deep learning e ciência de dados. Infográfico por [Jen Looper](https://twitter.com/jenlooper) inspirado por [este gráfico](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Conceitos abordados +## Conceitos a cobrir -Neste currículo, vamos abordar apenas os conceitos principais de aprendizado de máquina que um iniciante deve conhecer. Abordamos o que chamamos de 'aprendizado de máquina clássico', principalmente usando Scikit-learn, uma excelente biblioteca que muitos estudantes utilizam para aprender o básico. Para entender conceitos mais amplos de inteligência artificial ou aprendizado profundo, um conhecimento fundamental sólido de aprendizado de máquina é indispensável, e é isso que queremos oferecer aqui. +Neste currículo, abordaremos apenas os conceitos principais de aprendizado de máquina que um iniciante deve conhecer. Cobrimos o que chamamos de "aprendizado de máquina clássico", principalmente usando o Scikit-learn, uma excelente biblioteca usada por muitos estudantes para aprender o básico. Para entender conceitos mais amplos de inteligência artificial ou deep learning, um forte conhecimento fundamental de aprendizado de máquina é indispensável, e por isso gostaríamos de oferecê-lo aqui. --- -## Neste curso você aprenderá: +## Neste curso você vai aprender: -- conceitos principais de aprendizado de máquina +- conceitos centrais do aprendizado de máquina - a história do ML -- ML e justiça -- técnicas de regressão em ML -- técnicas de classificação em ML -- técnicas de agrupamento em ML -- técnicas de processamento de linguagem natural em ML -- técnicas de previsão de séries temporais em ML +- ML e equidade +- técnicas de ML para regressão +- técnicas de ML para classificação +- técnicas de ML para agrupamento (clustering) +- técnicas de ML para processamento de linguagem natural +- técnicas de ML para previsão de séries temporais - aprendizado por reforço -- aplicações reais de ML +- aplicações reais para ML --- -## O que não abordaremos +## O que não vamos cobrir -- aprendizado profundo +- deep learning - redes neurais - IA -Para proporcionar uma melhor experiência de aprendizado, evitaremos as complexidades de redes neurais, 'aprendizado profundo' - construção de modelos com muitas camadas usando redes neurais - e IA, que discutiremos em um currículo diferente. Também ofereceremos um futuro currículo de ciência de dados para focar nesse aspecto deste campo maior. +Para oferecer uma melhor experiência de aprendizado, evitaremos as complexidades das redes neurais, "deep learning" – construção de modelos com múltiplas camadas usando redes neurais – e IA, que abordaremos em um currículo diferente. Também ofereceremos um currículo futuro de ciência de dados para focar nesse aspecto desse campo maior. --- ## Por que estudar aprendizado de máquina? -Aprendizado de máquina, de uma perspectiva de sistemas, é definido como a criação de sistemas automatizados que podem aprender padrões ocultos a partir de dados para ajudar na tomada de decisões inteligentes. +Do ponto de vista dos sistemas, aprendizado de máquina é definido como a criação de sistemas automatizados que podem aprender padrões ocultos a partir de dados para ajudar na tomada de decisões inteligentes. Essa motivação é vagamente inspirada por como o cérebro humano aprende certas coisas com base nos dados que percebe do mundo exterior. -✅ Pense por um momento por que uma empresa gostaria de usar estratégias de aprendizado de máquina em vez de criar um mecanismo baseado em regras codificadas. +✅ Pense por um minuto por que uma empresa gostaria de tentar usar estratégias de aprendizado de máquina em vez de criar um motor baseado em regras codificadas manualmente. + +--- +## Por que a qualidade dos dados é importante + +Dados de alta qualidade melhoram o desempenho do modelo. Dados pobres ou ruidosos podem levar a previsões imprecisas, mesmo usando algoritmos avançados de aprendizado de máquina. --- ## Aplicações do aprendizado de máquina -As aplicações do aprendizado de máquina estão agora quase em todos os lugares e são tão onipresentes quanto os dados que circulam em nossas sociedades, gerados por nossos smartphones, dispositivos conectados e outros sistemas. Considerando o imenso potencial dos algoritmos de aprendizado de máquina de última geração, pesquisadores têm explorado sua capacidade de resolver problemas reais multidimensionais e multidisciplinares com ótimos resultados positivos. +As aplicações do aprendizado de máquina estão agora praticamente em toda parte e são tão onipresentes quanto os dados que circulam em nossas sociedades, gerados por nossos smartphones, dispositivos conectados e outros sistemas. Considerando o imenso potencial de algoritmos de aprendizado de máquina de última geração, pesquisadores vêm explorando sua capacidade de resolver problemas da vida real multidimensionais e multidisciplinares com ótimos resultados positivos. --- ## Exemplos de ML aplicado **Você pode usar aprendizado de máquina de várias maneiras**: -- Para prever a probabilidade de uma doença com base no histórico médico ou relatórios de um paciente. -- Para aproveitar dados meteorológicos e prever eventos climáticos. +- Para prever a probabilidade de uma doença a partir do histórico médico ou relatórios de um paciente. +- Para aproveitar dados meteorológicos para prever eventos do tempo. - Para entender o sentimento de um texto. -- Para detectar notícias falsas e impedir a propagação de propaganda. +- Para detectar notícias falsas e impedir a disseminação de propaganda. -Finanças, economia, ciência da terra, exploração espacial, engenharia biomédica, ciência cognitiva e até mesmo áreas das humanidades têm adaptado o aprendizado de máquina para resolver os problemas árduos e pesados em processamento de dados de seus domínios. +Finanças, economia, ciências da terra, exploração espacial, engenharia biomédica, ciência cognitiva e até campos das humanidades adaptaram o aprendizado de máquina para resolver problemas árduos e pesados em processamento de dados de seus domínios. --- ## Conclusão -O aprendizado de máquina automatiza o processo de descoberta de padrões ao encontrar insights significativos a partir de dados reais ou gerados. Ele tem se mostrado altamente valioso em aplicações de negócios, saúde e finanças, entre outras. +O aprendizado de máquina automatiza o processo de descoberta de padrões encontrando informações significativas a partir de dados do mundo real ou gerados. Ele se provou extremamente valioso em negócios, saúde e aplicações financeiras, entre outras. -No futuro próximo, entender os fundamentos do aprendizado de máquina será essencial para pessoas de qualquer área devido à sua ampla adoção. +No futuro próximo, entender o básico de aprendizado de máquina será obrigatório para pessoas de qualquer área devido à sua ampla adoção. --- # 🚀 Desafio -Desenhe, no papel ou usando um aplicativo online como [Excalidraw](https://excalidraw.com/), sua compreensão das diferenças entre IA, ML, aprendizado profundo e ciência de dados. Adicione algumas ideias de problemas que cada uma dessas técnicas é boa em resolver. +Esboce, no papel ou usando um aplicativo online como o [Excalidraw](https://excalidraw.com/), seu entendimento das diferenças entre IA, ML, deep learning e ciência de dados. Adicione algumas ideias de problemas que cada uma dessas técnicas é boa para resolver. -# [Quiz pós-aula](https://ff-quizzes.netlify.app/en/ml/) +# [Questionário pós-aula](https://ff-quizzes.netlify.app/en/ml/) --- # Revisão e Autoestudo -Para aprender mais sobre como trabalhar com algoritmos de ML na nuvem, siga este [Caminho de Aprendizado](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Para aprender mais sobre como trabalhar com algoritmos de ML na nuvem, siga este [Caminho de Aprendizagem](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Faça um [Caminho de Aprendizado](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) sobre os fundamentos de ML. +Faça um [Caminho de Aprendizagem](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) sobre os conceitos básicos de ML. --- # Tarefa -[Prepare-se e comece](assignment.md) +[Comece a trabalhar](assignment.md) --- -**Aviso Legal**: -Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução. \ No newline at end of file + +**Aviso Legal**: +Este documento foi traduzido usando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, por favor, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução. + \ No newline at end of file diff --git a/translations/pt-BR/5-Clustering/1-Visualize/README.md b/translations/pt-BR/5-Clustering/1-Visualize/README.md index 08d45f9f3..20ced87cc 100644 --- a/translations/pt-BR/5-Clustering/1-Visualize/README.md +++ b/translations/pt-BR/5-Clustering/1-Visualize/README.md @@ -1,106 +1,105 @@ -# Introdução à clusterização +# Introdução ao clustering -Clusterização é um tipo de [Aprendizado Não Supervisionado](https://wikipedia.org/wiki/Aprendizado_n%C3%A3o_supervisionado) que parte do pressuposto de que um conjunto de dados não está rotulado ou que suas entradas não estão associadas a saídas predefinidas. Ele utiliza diversos algoritmos para analisar dados não rotulados e fornecer agrupamentos com base nos padrões identificados nos dados. +Clustering é um tipo de [Aprendizado Não Supervisionado](https://wikipedia.org/wiki/Unsupervised_learning) que presume que um conjunto de dados não está rotulado ou que suas entradas não estão associadas a saídas predefinidas. Ele utiliza vários algoritmos para organizar dados não rotulados e fornecer agrupamentos de acordo com os padrões que identifica nos dados. -[![No One Like You por PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You por PSquare") +[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Clique na imagem acima para assistir ao vídeo. Enquanto estuda aprendizado de máquina com clusterização, aproveite algumas faixas de Dance Hall nigeriano - esta é uma música muito bem avaliada de 2014 por PSquare. +> 🎥 Clique na imagem acima para um vídeo. Enquanto você estuda aprendizado de máquina com clustering, aproveite algumas faixas de Dance Hall nigeriano - esta é uma música muito bem avaliada de 2014 do PSquare. -## [Quiz pré-aula](https://ff-quizzes.netlify.app/en/ml/) +## [Questionário pré-palestra](https://ff-quizzes.netlify.app/en/ml/) ### Introdução -[Clusterização](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) é muito útil para exploração de dados. Vamos ver se ela pode ajudar a descobrir tendências e padrões no modo como o público nigeriano consome música. +[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) é muito útil para exploração de dados. Vamos ver se ele pode ajudar a descobrir tendências e padrões na forma como o público nigeriano consome música. -✅ Reserve um minuto para pensar sobre os usos da clusterização. Na vida real, clusterização acontece sempre que você tem uma pilha de roupas e precisa separar as peças de cada membro da família 🧦👕👖🩲. Em ciência de dados, clusterização ocorre ao tentar analisar as preferências de um usuário ou determinar as características de qualquer conjunto de dados não rotulado. De certa forma, clusterização ajuda a dar sentido ao caos, como uma gaveta de meias. +✅ Reserve um minuto para pensar sobre as utilizações do clustering. Na vida real, clustering acontece sempre que você tem uma pilha de roupas para lavar e precisa separar as roupas dos membros da sua família 🧦👕👖🩲. Em ciência de dados, clustering ocorre ao tentar analisar as preferências de um usuário, ou determinar as características de qualquer conjunto de dados não rotulado. Clustering, de certa forma, ajuda a dar sentido ao caos, como uma gaveta de meias. -[![Introdução ao ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introdução à Clusterização") +[![Introdução ao ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introdução ao Clustering") -> 🎥 Clique na imagem acima para assistir ao vídeo: John Guttag do MIT apresenta clusterização. +> 🎥 Clique na imagem acima para um vídeo: John Guttag do MIT apresenta clustering -No ambiente profissional, clusterização pode ser usada para determinar coisas como segmentação de mercado, identificando quais faixas etárias compram quais itens, por exemplo. Outro uso seria a detecção de anomalias, talvez para identificar fraudes em um conjunto de dados de transações com cartão de crédito. Ou você pode usar clusterização para identificar tumores em um lote de exames médicos. +Em um ambiente profissional, clustering pode ser usado para determinar coisas como segmentação de mercado, determinando que faixas etárias compram quais itens, por exemplo. Outro uso seria a detecção de anomalias, talvez para identificar fraudes em um conjunto de dados de transações de cartão de crédito. Ou você pode usar clustering para identificar tumores em um conjunto de exames médicos. -✅ Pense por um minuto sobre como você pode ter encontrado clusterização 'na prática', em um ambiente bancário, de e-commerce ou de negócios. +✅ Pense um minuto em como você pode ter encontrado clustering 'no mundo real', em um ambiente bancário, de comércio eletrônico ou de negócios. -> 🎓 Curiosamente, a análise de clusters teve origem nos campos de Antropologia e Psicologia na década de 1930. Consegue imaginar como ela pode ter sido usada? +> 🎓 Curiosamente, a análise de clusters originou-se nos campos da Antropologia e Psicologia na década de 1930. Você consegue imaginar como ela poderia ter sido usada? -Alternativamente, você poderia usá-la para agrupar resultados de busca - por links de compras, imagens ou avaliações, por exemplo. Clusterização é útil quando você tem um grande conjunto de dados que deseja reduzir e sobre o qual quer realizar uma análise mais detalhada. Assim, a técnica pode ser usada para aprender sobre os dados antes de construir outros modelos. +Alternativamente, você poderia usá-lo para agrupar resultados de busca - por links de compras, imagens ou avaliações, por exemplo. Clustering é útil quando você tem um grande conjunto de dados que quer reduzir e sobre o qual deseja realizar uma análise mais detalhada, assim a técnica pode ser usada para conhecer os dados antes da construção de outros modelos. -✅ Uma vez que seus dados estejam organizados em clusters, você pode atribuir a eles um Id de cluster. Essa técnica pode ser útil para preservar a privacidade de um conjunto de dados; você pode se referir a um ponto de dados pelo seu Id de cluster, em vez de usar dados identificáveis mais reveladores. Consegue pensar em outros motivos para usar um Id de cluster em vez de outros elementos do cluster para identificá-lo? +✅ Uma vez que seus dados estejam organizados em clusters, você os atribui um Id do cluster, e esta técnica pode ser útil na preservação da privacidade de um conjunto de dados; você pode, ao invés disso, referir-se a um ponto de dados pelo seu Id do cluster, em vez de por dados mais reveladores e identificáveis. Você consegue pensar em outras razões pelas quais você se referiria a um Id do cluster ao invés de outros elementos do cluster para identificá-lo? -Aprofunde seu entendimento sobre técnicas de clusterização neste [módulo de aprendizado](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Aprofunde seu entendimento sobre técnicas de clustering neste [módulo Learn](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +## Começando com clustering -## Começando com clusterização +[Scikit-learn oferece uma grande variedade](https://scikit-learn.org/stable/modules/clustering.html) de métodos para realizar clustering. O tipo que você escolher dependerá do seu caso de uso. De acordo com a documentação, cada método possui diversos benefícios. Aqui está uma tabela simplificada dos métodos suportados pelo Scikit-learn e seus casos de uso apropriados: -[Scikit-learn oferece uma ampla variedade](https://scikit-learn.org/stable/modules/clustering.html) de métodos para realizar clusterização. O tipo que você escolher dependerá do seu caso de uso. De acordo com a documentação, cada método tem diferentes benefícios. Aqui está uma tabela simplificada dos métodos suportados pelo Scikit-learn e seus casos de uso apropriados: +| Nome do método | Caso de uso | +| :------------------------- | :--------------------------------------------------------------------- | +| K-Means | uso geral, indutivo | +| Affinity propagation | muitos clusters desiguais, indutivo | +| Mean-shift | muitos clusters desiguais, indutivo | +| Spectral clustering | poucos clusters uniformes, transdutivo | +| Ward hierarchical clustering| muitos clusters restritos, transdutivo | +| Agglomerative clustering | muitos, restritos, distâncias não euclidianas, transdutivo | +| DBSCAN | geometria não plana, clusters desiguais, transdutivo | +| OPTICS | geometria não plana, clusters desiguais com densidade variável, transdutivo | +| Gaussian mixtures | geometria plana, indutivo | +| BIRCH | grande conjunto de dados com outliers, indutivo | -| Nome do método | Caso de uso | -| :---------------------------- | :-------------------------------------------------------------------- | -| K-Means | propósito geral, indutivo | -| Propagação de afinidade | muitos clusters desiguais, indutivo | -| Mean-shift | muitos clusters desiguais, indutivo | -| Clusterização espectral | poucos clusters iguais, transdutivo | -| Clusterização hierárquica Ward| muitos clusters restritos, transdutivo | -| Clusterização aglomerativa | muitos clusters restritos, distâncias não euclidianas, transdutivo | -| DBSCAN | geometria não plana, clusters desiguais, transdutivo | -| OPTICS | geometria não plana, clusters desiguais com densidade variável, transdutivo | -| Misturas Gaussianas | geometria plana, indutivo | -| BIRCH | grande conjunto de dados com outliers, indutivo | - -> 🎓 Como criamos clusters tem muito a ver com como agrupamos os pontos de dados. Vamos explorar alguns vocabulários: +> 🎓 Como criamos clusters está muito relacionado a como agrupamos os pontos de dados em grupos. Vamos desvendar um pouco do vocabulário: > > 🎓 ['Transdutivo' vs. 'indutivo'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Inferência transdutiva é derivada de casos de treinamento observados que mapeiam para casos de teste específicos. Inferência indutiva é derivada de casos de treinamento que mapeiam para regras gerais que só então são aplicadas aos casos de teste. +> Inferência transdutiva é derivada de casos de treinamento observados que são mapeados para casos de teste específicos. Inferência indutiva é derivada de casos de treinamento que são mapeados para regras gerais que só então são aplicadas a casos de teste. > -> Um exemplo: Imagine que você tem um conjunto de dados parcialmente rotulado. Alguns itens são 'discos', outros 'CDs', e alguns estão em branco. Sua tarefa é fornecer rótulos para os itens em branco. Se você escolher uma abordagem indutiva, treinaria um modelo procurando por 'discos' e 'CDs' e aplicaria esses rótulos aos dados não rotulados. Essa abordagem teria dificuldade em classificar itens que na verdade são 'fitas cassete'. Uma abordagem transdutiva, por outro lado, lida com esses dados desconhecidos de forma mais eficaz, agrupando itens semelhantes e aplicando um rótulo ao grupo. Nesse caso, os clusters poderiam refletir 'coisas musicais redondas' e 'coisas musicais quadradas'. +> Um exemplo: Imagine que você tem um conjunto de dados parcialmente rotulado. Algumas coisas são 'discos', algumas 'cds' e algumas estão em branco. Sua tarefa é fornecer etiquetas para os campos em branco. Se você optar por uma abordagem indutiva, treinaria um modelo procurando por 'discos' e 'cds', e aplicaria essas etiquetas aos dados não rotulados. Essa abordagem terá dificuldade em classificar coisas que na verdade são 'fitas cassete'. Uma abordagem transdutiva, por outro lado, lida com esses dados desconhecidos de forma mais eficaz, pois trabalha agrupando itens similares juntos e depois aplica uma etiqueta ao grupo. Nesse caso, os clusters poderiam refletir 'coisas musicais redondas' e 'coisas musicais quadradas'. > > 🎓 ['Geometria não plana' vs. 'plana'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Derivado da terminologia matemática, geometria não plana vs. plana refere-se à medida de distâncias entre pontos por métodos geométricos 'planos' ([Euclidianos](https://wikipedia.org/wiki/Geometria_euclidiana)) ou 'não planos' (não Euclidianos). +> Derivado da terminologia matemática, geometria não plana vs. plana refere-se à medida de distâncias entre pontos por métodos geométricos 'plano' ([Euclidiana](https://wikipedia.org/wiki/Euclidean_geometry)) ou 'não plano' (não euclidiana). > ->'Plana' neste contexto refere-se à geometria Euclidiana (partes da qual são ensinadas como 'geometria plana'), e 'não plana' refere-se à geometria não Euclidiana. O que a geometria tem a ver com aprendizado de máquina? Bem, como dois campos enraizados na matemática, deve haver uma maneira comum de medir distâncias entre pontos em clusters, e isso pode ser feito de forma 'plana' ou 'não plana', dependendo da natureza dos dados. [Distâncias Euclidianas](https://wikipedia.org/wiki/Dist%C3%A2ncia_euclidiana) são medidas como o comprimento de um segmento de linha entre dois pontos. [Distâncias não Euclidianas](https://wikipedia.org/wiki/Geometria_n%C3%A3o_euclidiana) são medidas ao longo de uma curva. Se seus dados, visualizados, parecem não existir em um plano, você pode precisar usar um algoritmo especializado para lidar com eles. +>'Plano' neste contexto refere-se à geometria Euclidiana (partes da qual são ensinadas como geometria 'plana'), e não plano refere-se à geometria não Euclidiana. O que geometria tem a ver com aprendizado de máquina? Bem, como dois campos que têm raízes na matemática, deve haver uma forma comum de medir distâncias entre pontos em clusters, e isso pode ser feito de forma 'plana' ou 'não plana', dependendo da natureza dos dados. [Distâncias Euclidianas](https://wikipedia.org/wiki/Euclidean_distance) são medidas como o comprimento de um segmento de linha entre dois pontos. [Distâncias não Euclidianas](https://wikipedia.org/wiki/Non-Euclidean_geometry) são medidas ao longo de uma curva. Se seus dados, visualizados, parecem não existir em um plano, talvez seja necessário usar um algoritmo especializado para lidar com eles. > -![Infográfico Geometria Plana vs Não Plana](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) +![Infográfico Geometria Plana vs Não Plana](../../../../translated_images/pt-BR/flat-nonflat.d1c8c6e2a96110c1.webp) > Infográfico por [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Distâncias'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Clusters são definidos por sua matriz de distâncias, ou seja, as distâncias entre pontos. Essa distância pode ser medida de algumas maneiras. Clusters Euclidianos são definidos pela média dos valores dos pontos e contêm um 'centroide' ou ponto central. As distâncias são medidas pela distância até esse centroide. Distâncias não Euclidianas referem-se a 'clustroids', o ponto mais próximo de outros pontos. Clustroids, por sua vez, podem ser definidos de várias maneiras. +> Clusters são definidos pela sua matriz de distâncias, ou seja, as distâncias entre pontos. Essa distância pode ser medida de algumas maneiras. Clusters Euclidianos são definidos pela média dos valores dos pontos e contêm um 'centróide' ou ponto central. As distâncias são então medidas pela distância até esse centróide. Distâncias não Euclidianas referem-se a 'clustroides', o ponto mais próximo de outros pontos. Clustroides, por sua vez, podem ser definidos de diversas maneiras. > -> 🎓 ['Restrito'](https://wikipedia.org/wiki/Constrained_clustering) +> 🎓 ['Restringido'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Clusterização Restrita](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introduz aprendizado 'semi-supervisionado' neste método não supervisionado. As relações entre pontos são marcadas como 'não pode vincular' ou 'deve vincular', então algumas regras são impostas ao conjunto de dados. +> [Clustering restrito](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introduz aprendizado 'semi-supervisionado' neste método não supervisionado. As relações entre pontos são sinalizadas como 'não podem ser vinculadas' ou 'devem ser vinculadas', de modo que algumas regras são impostas ao conjunto de dados. > ->Um exemplo: Se um algoritmo é liberado em um lote de dados não rotulados ou semi-rotulados, os clusters que ele produz podem ser de baixa qualidade. No exemplo acima, os clusters podem agrupar 'coisas musicais redondas', 'coisas musicais quadradas', 'coisas triangulares' e 'biscoitos'. Se forem dadas algumas restrições ou regras para seguir ("o item deve ser feito de plástico", "o item precisa ser capaz de produzir música"), isso pode ajudar a 'restringir' o algoritmo a fazer escolhas melhores. +>Um exemplo: se um algoritmo é liberado para um lote de dados não rotulados ou semi-rotulados, os clusters que produz podem ser de qualidade ruim. No exemplo acima, os clusters poderiam agrupar 'coisas musicais redondas' e 'coisas musicais quadradas', 'coisas triangulares' e 'biscoitos'. Se fornecidas algumas restrições ou regras a seguir ("o item deve ser feito de plástico", "o item precisa ser capaz de produzir música") isso pode ajudar a 'constranger' o algoritmo a fazer escolhas melhores. > > 🎓 'Densidade' > -> Dados que são 'ruidosos' são considerados 'densos'. As distâncias entre pontos em cada um de seus clusters podem, ao serem examinadas, ser mais ou menos densas, ou 'aglomeradas', e assim esses dados precisam ser analisados com o método de clusterização apropriado. [Este artigo](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) demonstra a diferença entre usar clusterização K-Means vs. algoritmos HDBSCAN para explorar um conjunto de dados ruidoso com densidade de cluster desigual. +> Dados que são 'ruidosos' são considerados 'densos'. As distâncias entre pontos em cada um de seus clusters podem provar, ao serem examinadas, ser mais ou menos densas, ou 'aglomeradas' e, assim, esses dados precisam ser analisados com o método de clustering apropriado. [Este artigo](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) demonstra a diferença entre usar K-Means clustering versus os algoritmos HDBSCAN para explorar um conjunto de dados ruidoso com densidade desigual dos clusters. -## Algoritmos de clusterização +## Algoritmos de clustering -Existem mais de 100 algoritmos de clusterização, e seu uso depende da natureza dos dados em questão. Vamos discutir alguns dos principais: +Existem mais de 100 algoritmos de clustering, e seu uso depende da natureza dos dados em questão. Vamos discutir alguns dos principais: -- **Clusterização hierárquica**. Se um objeto é classificado por sua proximidade a um objeto próximo, em vez de um mais distante, os clusters são formados com base na distância de seus membros para outros objetos. A clusterização aglomerativa do Scikit-learn é hierárquica. +- **Clustering hierárquico**. Se um objeto é classificado pela sua proximidade a outro objeto próximo, em vez de um mais distante, os clusters são formados com base na distância de seus membros para e de outros objetos. O clustering aglomerativo do Scikit-learn é hierárquico. - ![Infográfico Clusterização Hierárquica](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Infográfico Clustering Hierárquico](../../../../translated_images/pt-BR/hierarchical.bf59403aa43c8c47.webp) > Infográfico por [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Clusterização por centroide**. Este algoritmo popular requer a escolha de 'k', ou o número de clusters a serem formados, após o qual o algoritmo determina o ponto central de um cluster e reúne dados ao redor desse ponto. [Clusterização K-means](https://wikipedia.org/wiki/K-means_clustering) é uma versão popular de clusterização por centroide. O centro é determinado pela média mais próxima, daí o nome. A distância quadrada do cluster é minimizada. +- **Clustering de centróide**. Esse algoritmo popular requer a escolha de 'k', ou o número de clusters a serem formados, após o qual o algoritmo determina o ponto central de um cluster e agrupa dados em torno desse ponto. [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) é uma versão popular de clustering de centróide. O centro é determinado pela média mais próxima, daí o nome. A distância quadrática do cluster é minimizada. - ![Infográfico Clusterização por Centroide](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Infográfico Clustering de Centróide](../../../../translated_images/pt-BR/centroid.097fde836cf6c918.webp) > Infográfico por [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Clusterização baseada em distribuição**. Baseada em modelagem estatística, a clusterização baseada em distribuição foca em determinar a probabilidade de um ponto de dados pertencer a um cluster e atribuí-lo de acordo. Métodos de mistura Gaussianas pertencem a este tipo. +- **Clustering baseado em distribuição**. Baseado em modelagem estatística, clustering baseado em distribuição centra-se em determinar a probabilidade de um ponto de dados pertencer a um cluster e atribuí-lo de acordo. Métodos de mistura Gaussiana pertencem a este tipo. -- **Clusterização baseada em densidade**. Pontos de dados são atribuídos a clusters com base em sua densidade, ou seu agrupamento ao redor uns dos outros. Pontos de dados distantes do grupo são considerados outliers ou ruídos. DBSCAN, Mean-shift e OPTICS pertencem a este tipo de clusterização. +- **Clustering baseado em densidade**. Pontos de dados são atribuídos a clusters com base na densidade, ou seja, seu agrupamento uns aos outros. Pontos de dados longe do grupo são considerados outliers ou ruído. DBSCAN, Mean-shift e OPTICS pertencem a esse tipo de clustering. -- **Clusterização baseada em grade**. Para conjuntos de dados multidimensionais, uma grade é criada e os dados são divididos entre as células da grade, criando assim clusters. +- **Clustering baseado em grade**. Para conjuntos de dados multidimensionais, uma grade é criada e os dados são divididos entre as células da grade, criando clusters. ## Exercício - agrupe seus dados -Clusterização como técnica é muito auxiliada por uma boa visualização, então vamos começar visualizando nossos dados musicais. Este exercício nos ajudará a decidir qual dos métodos de clusterização devemos usar de forma mais eficaz para a natureza desses dados. +Clustering como técnica é muito beneficiado por uma boa visualização, então vamos começar visualizando nossos dados musicais. Este exercício nos ajudará a decidir qual dos métodos de clustering devemos usar mais efetivamente para a natureza destes dados. 1. Abra o arquivo [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) nesta pasta. @@ -110,7 +109,7 @@ Clusterização como técnica é muito auxiliada por uma boa visualização, ent !pip install seaborn ``` -1. Adicione os dados das músicas do arquivo [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Carregue um dataframe com alguns dados sobre as músicas. Prepare-se para explorar esses dados importando as bibliotecas e exibindo os dados: +1. Anexe os dados das músicas do arquivo [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Carregue um dataframe com alguns dados sobre as músicas. Prepare-se para explorar esses dados importando as bibliotecas e exibindo os dados: ```python import matplotlib.pyplot as plt @@ -120,15 +119,15 @@ Clusterização como técnica é muito auxiliada por uma boa visualização, ent df.head() ``` - Verifique as primeiras linhas de dados: + Confira as primeiras linhas dos dados: - | | nome | álbum | artista | gênero_principal_artista | data_lançamento | duração | popularidade | dançabilidade | acústica | energia | instrumentalidade | vivacidade | volume | discurso | tempo | assinatura_tempo | - | --- | ------------------------ | ---------------------------- | ------------------- | ------------------------ | ---------------- | ------- | ------------ | ------------- | -------- | ------- | ----------------- | ---------- | ------ | -------- | ------- | ---------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | r&b alternativo | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | 1. Obtenha algumas informações sobre o dataframe, chamando `info()`: @@ -136,7 +135,7 @@ Clusterização como técnica é muito auxiliada por uma boa visualização, ent df.info() ``` - A saída será semelhante a: + A saída será semelhante a esta: ```output @@ -170,7 +169,7 @@ Clusterização como técnica é muito auxiliada por uma boa visualização, ent df.isnull().sum() ``` - Tudo certo: + Tudo parece bom: ```output name 0 @@ -209,9 +208,9 @@ Clusterização como técnica é muito auxiliada por uma boa visualização, ent | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Se estamos trabalhando com clustering, um método não supervisionado que não requer dados rotulados, por que estamos mostrando esses dados com rótulos? Na fase de exploração de dados, eles são úteis, mas não são necessários para os algoritmos de clustering funcionarem. Você poderia simplesmente remover os cabeçalhos das colunas e se referir aos dados pelo número da coluna. +> 🤔 Se estamos trabalhando com clustering, um método não supervisionado que não requer dados rotulados, por que estamos mostrando esses dados com rótulos? Na fase de exploração dos dados, eles são úteis, mas não são necessários para o funcionamento dos algoritmos de clustering. Você poderia muito bem remover os cabeçalhos das colunas e se referir aos dados pelo número da coluna. -Observe os valores gerais dos dados. Note que a popularidade pode ser '0', o que indica músicas que não têm classificação. Vamos remover esses valores em breve. +Observe os valores gerais dos dados. Note que a popularidade pode ser '0', o que indica músicas que não têm classificação. Vamos removê-las em breve. 1. Use um gráfico de barras para descobrir os gêneros mais populares: @@ -225,13 +224,13 @@ Observe os valores gerais dos dados. Note que a popularidade pode ser '0', o que plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![mais populares](../../../../translated_images/pt-BR/popular.9c48d84b3386705f.webp) -✅ Se você quiser ver mais valores principais, altere o top `[:5]` para um valor maior ou remova-o para ver todos. +✅ Se você quiser ver mais valores principais, mude o top `[:5]` para um valor maior, ou remova-o para ver todos. -Note que, quando o gênero principal é descrito como 'Missing', isso significa que o Spotify não o classificou, então vamos eliminá-lo. +Observe que, quando o gênero principal é descrito como 'Missing', isso significa que o Spotify não o classificou, então vamos nos livrar dele. -1. Elimine os dados ausentes filtrando-os: +1. Remova os dados ausentes filtrando-os ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -244,9 +243,9 @@ Note que, quando o gênero principal é descrito como 'Missing', isso significa Agora verifique novamente os gêneros: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![mais populares](../../../../translated_images/pt-BR/all-genres.1d56ef06cefbfcd6.webp) -1. De longe, os três principais gêneros dominam este conjunto de dados. Vamos nos concentrar em `afro dancehall`, `afropop` e `nigerian pop`, além de filtrar o conjunto de dados para remover qualquer coisa com valor de popularidade 0 (o que significa que não foi classificado com uma popularidade no conjunto de dados e pode ser considerado ruído para nossos propósitos): +1. De longe, os três principais gêneros dominam este conjunto de dados. Vamos nos concentrar em `afro dancehall`, `afropop` e `nigerian pop`, além disso, filtre o conjunto de dados para remover qualquer coisa com valor de popularidade 0 (significando que não foi classificada com popularidade no conjunto de dados e pode ser considerada ruído para nossos propósitos): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +257,7 @@ Note que, quando o gênero principal é descrito como 'Missing', isso significa plt.title('Top genres',color = 'blue') ``` -1. Faça um teste rápido para ver se os dados têm alguma correlação particularmente forte: +1. Faça um teste rápido para ver se os dados se correlacionam de alguma maneira particularmente forte: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +265,21 @@ Note que, quando o gênero principal é descrito como 'Missing', isso significa sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlações](../../../../translated_images/pt-BR/correlation.a9356bb798f5eea5.webp) - A única correlação forte é entre `energy` e `loudness`, o que não é muito surpreendente, dado que músicas altas geralmente são bastante energéticas. Fora isso, as correlações são relativamente fracas. Será interessante ver o que um algoritmo de clustering pode fazer com esses dados. + A única correlação forte é entre `energy` e `loudness`, o que não é surpreendente, dado que música alta costuma ser bem energética. Caso contrário, as correlações são relativamente fracas. Será interessante ver o que um algoritmo de clustering pode fazer com esses dados. > 🎓 Note que correlação não implica causalidade! Temos prova de correlação, mas nenhuma prova de causalidade. Um [site divertido](https://tylervigen.com/spurious-correlations) tem alguns visuais que enfatizam esse ponto. -Há alguma convergência neste conjunto de dados em torno da popularidade percebida de uma música e sua capacidade de dança? Um FacetGrid mostra que há círculos concêntricos que se alinham, independentemente do gênero. Será que os gostos nigerianos convergem em um certo nível de capacidade de dança para este gênero? +Há alguma convergência neste conjunto de dados entre a popularidade percebida de uma música e sua dançabilidade? Um FacetGrid mostra que existem círculos concêntricos que se alinham, independentemente do gênero. Pode ser que gostos nigerianos convirjam para um certo nível de dançabilidade para esse gênero? -✅ Experimente diferentes pontos de dados (energia, loudness, speechiness) e mais ou diferentes gêneros musicais. O que você pode descobrir? Dê uma olhada na tabela `df.describe()` para ver a distribuição geral dos pontos de dados. +✅ Experimente diferentes pontos de dados (energia, volume, fala) e mais ou diferentes gêneros musicais. O que você pode descobrir? Dê uma olhada na tabela `df.describe()` para ver a dispersão geral dos pontos de dados. -### Exercício - distribuição de dados +### Exercício - distribuição dos dados -Esses três gêneros são significativamente diferentes na percepção de sua capacidade de dança, com base em sua popularidade? +Esses três gêneros são significativamente diferentes na percepção de sua dançabilidade, com base em sua popularidade? -1. Examine a distribuição de dados dos nossos três principais gêneros para popularidade e capacidade de dança ao longo de um eixo x e y dado. +1. Examine a distribuição dos dados dos nossos três gêneros principais para popularidade e dançabilidade ao longo de um eixo x e y fornecido. ```python sns.set_theme(style="ticks") @@ -292,13 +291,13 @@ Esses três gêneros são significativamente diferentes na percepção de sua ca ) ``` - Você pode descobrir círculos concêntricos em torno de um ponto geral de convergência, mostrando a distribuição dos pontos. + Você pode descobrir círculos concêntricos ao redor de um ponto geral de convergência, mostrando a distribuição dos pontos. - > 🎓 Note que este exemplo usa um gráfico KDE (Kernel Density Estimate) que representa os dados usando uma curva de densidade de probabilidade contínua. Isso nos permite interpretar os dados ao trabalhar com múltiplas distribuições. + > 🎓 Note que este exemplo usa um gráfico KDE (Estimativa de Densidade de Kernel) que representa os dados usando uma curva contínua de densidade de probabilidade. Isso nos permite interpretar os dados ao trabalhar com múltiplas distribuições. - Em geral, os três gêneros se alinham vagamente em termos de sua popularidade e capacidade de dança. Determinar clusters nesses dados vagamente alinhados será um desafio: + Em geral, os três gêneros se alinham vagamente em termos de popularidade e dançabilidade. Determinar clusters nesses dados vagamente alinhados será um desafio: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribuição](../../../../translated_images/pt-BR/distribution.9be11df42356ca95.webp) 1. Crie um gráfico de dispersão: @@ -308,25 +307,25 @@ Esses três gêneros são significativamente diferentes na percepção de sua ca .add_legend() ``` - Um gráfico de dispersão dos mesmos eixos mostra um padrão semelhante de convergência. + Um gráfico de dispersão dos mesmos eixos mostra um padrão semelhante de convergência - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/pt-BR/facetgrid.9b2e65ce707eba1f.webp) -Em geral, para clustering, você pode usar gráficos de dispersão para mostrar clusters de dados, então dominar esse tipo de visualização é muito útil. Na próxima lição, usaremos esses dados filtrados e aplicaremos o clustering k-means para descobrir grupos nesses dados que parecem se sobrepor de maneiras interessantes. +Em geral, para clustering, você pode usar gráficos de dispersão para mostrar clusters de dados, por isso dominar esse tipo de visualização é muito útil. Na próxima lição, vamos pegar esses dados filtrados e usar o clustering k-means para descobrir grupos nesses dados que parecem se sobrepor de formas interessantes. --- ## 🚀Desafio -Em preparação para a próxima lição, faça um gráfico sobre os vários algoritmos de clustering que você pode descobrir e usar em um ambiente de produção. Que tipos de problemas o clustering está tentando resolver? +Em preparação para a próxima lição, faça um gráfico sobre os vários algoritmos de clustering que você possa descobrir e usar em um ambiente de produção. Que tipos de problemas o clustering tenta resolver? ## [Quiz pós-aula](https://ff-quizzes.netlify.app/en/ml/) -## Revisão e Autoestudo +## Revisão & Autoestudo -Antes de aplicar algoritmos de clustering, como aprendemos, é uma boa ideia entender a natureza do seu conjunto de dados. Leia mais sobre este tópico [aqui](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Antes de aplicar algoritmos de clustering, como aprendemos, é uma boa ideia entender a natureza do seu conjunto de dados. Leia mais sobre esse assunto [aqui](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Este artigo útil](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) explica as diferentes maneiras como vários algoritmos de clustering se comportam, dados diferentes formatos de dados. +[Este artigo útil](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) orienta você sobre as diferentes formas como vários algoritmos de clustering se comportam, dados diferentes formatos de dados. ## Tarefa @@ -334,5 +333,7 @@ Antes de aplicar algoritmos de clustering, como aprendemos, é uma boa ideia ent --- -**Aviso Legal**: -Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução. \ No newline at end of file + +**Aviso Legal**: +Este documento foi traduzido usando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, por favor, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução. + \ No newline at end of file diff --git a/translations/pt-PT/.co-op-translator.json b/translations/pt-PT/.co-op-translator.json index ff078c45c..1448edfd9 100644 --- a/translations/pt-PT/.co-op-translator.json +++ b/translations/pt-PT/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T08:44:57+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:20:55+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "pt-PT" }, @@ -240,8 +240,8 @@ "language_code": "pt-PT" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T08:40:50+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:20:31+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "pt-PT" }, diff --git a/translations/pt-PT/1-Introduction/1-intro-to-ML/README.md b/translations/pt-PT/1-Introduction/1-intro-to-ML/README.md index 8c0d81d74..e5ee9f3d9 100644 --- a/translations/pt-PT/1-Introduction/1-intro-to-ML/README.md +++ b/translations/pt-PT/1-Introduction/1-intro-to-ML/README.md @@ -6,145 +6,152 @@ [![ML para iniciantes - Introdução ao Machine Learning para Iniciantes](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML para iniciantes - Introdução ao Machine Learning para Iniciantes") -> 🎥 Clique na imagem acima para assistir a um vídeo curto sobre esta lição. +> 🎥 Clique na imagem acima para ver um vídeo curto a acompanhar esta aula. -Bem-vindo a este curso sobre machine learning clássico para iniciantes! Quer seja completamente novo neste tema ou um praticante experiente de ML que procura rever uma área, estamos felizes por tê-lo connosco! Queremos criar um ponto de partida amigável para o seu estudo de ML e ficaremos felizes em avaliar, responder e incorporar o seu [feedback](https://github.com/microsoft/ML-For-Beginners/discussions). +Bem-vindo a este curso de machine learning clássico para iniciantes! Quer seja completamente novo neste tópico, ou um praticante experiente de ML que procura rever uma área, estamos felizes por ter a sua companhia! Queremos criar um ponto de partida amigável para o seu estudo de ML e ficaríamos felizes em avaliar, responder e incorporar o seu [feedback](https://github.com/microsoft/ML-For-Beginners/discussions). [![Introdução ao ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introdução ao ML") -> 🎥 Clique na imagem acima para assistir a um vídeo: John Guttag do MIT apresenta o machine learning +> 🎥 Clique na imagem acima para um vídeo: John Guttag do MIT apresenta machine learning --- -## Começando com machine learning +## Começar com machine learning -Antes de começar com este currículo, é necessário configurar o seu computador e prepará-lo para executar notebooks localmente. +Antes de começar com este currículo, precisa de ter o seu computador configurado e pronto para executar notebooks localmente. -- **Configure o seu computador com estes vídeos**. Utilize os seguintes links para aprender [como instalar Python](https://youtu.be/CXZYvNRIAKM) no seu sistema e [configurar um editor de texto](https://youtu.be/EU8eayHWoZg) para desenvolvimento. -- **Aprenda Python**. Também é recomendado ter uma compreensão básica de [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), uma linguagem de programação útil para cientistas de dados que utilizamos neste curso. -- **Aprenda Node.js e JavaScript**. Utilizamos JavaScript algumas vezes neste curso ao criar aplicações web, por isso será necessário ter [node](https://nodejs.org) e [npm](https://www.npmjs.com/) instalados, bem como [Visual Studio Code](https://code.visualstudio.com/) disponível para desenvolvimento em Python e JavaScript. -- **Crie uma conta no GitHub**. Como nos encontrou aqui no [GitHub](https://github.com), talvez já tenha uma conta, mas, se não, crie uma e depois faça um fork deste currículo para usar por conta própria. (Sinta-se à vontade para nos dar uma estrela também 😊) -- **Explore o Scikit-learn**. Familiarize-se com [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), um conjunto de bibliotecas de ML que referenciamos nestas lições. +- **Configure o seu computador com estes vídeos**. Use os seguintes links para aprender [como instalar o Python](https://youtu.be/CXZYvNRIAKM) no seu sistema e [configurar um editor de texto](https://youtu.be/EU8eayHWoZg) para desenvolvimento. +- **Aprenda Python**. Também é recomendado ter uma compreensão básica de [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), uma linguagem de programação útil para cientistas de dados que usamos neste curso. +- **Aprenda Node.js e JavaScript**. Usamos também JavaScript algumas vezes neste curso quando construímos aplicações web, por isso vai precisar de ter [node](https://nodejs.org) e [npm](https://www.npmjs.com/) instalados, bem como [Visual Studio Code](https://code.visualstudio.com/) disponível para desenvolvimento em Python e JavaScript. +- **Crie uma conta no GitHub**. Como nos encontrou aqui no [GitHub](https://github.com), pode já ter uma conta, mas se não, crie uma e depois faça fork deste currículo para usar por sua conta. (Sinta-se à vontade para nos dar uma estrela também 😊) +- **Explore Scikit-learn**. Familiarize-se com [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), um conjunto de bibliotecas de ML que referenciamos nestas lições. --- ## O que é machine learning? -O termo 'machine learning' é um dos mais populares e frequentemente utilizados atualmente. Existe uma possibilidade significativa de que já tenha ouvido este termo pelo menos uma vez, caso tenha algum tipo de familiaridade com tecnologia, independentemente da área em que trabalha. No entanto, a mecânica do machine learning é um mistério para a maioria das pessoas. Para um iniciante em machine learning, o tema pode, por vezes, parecer avassalador. Por isso, é importante entender o que realmente é machine learning e aprender sobre ele passo a passo, através de exemplos práticos. +O termo 'machine learning' é um dos termos mais populares e frequentemente usados atualmente. Existe uma possibilidade não trivial de já ter ouvido este termo pelo menos uma vez se tiver alguma familiaridade com tecnologia, independentemente da área em que trabalha. No entanto, os mecanismos do machine learning são um mistério para a maioria das pessoas. Para um iniciante em machine learning, o assunto pode por vezes parecer avassalador. Por isso, é importante compreender o que é realmente machine learning e aprender passo a passo, através de exemplos práticos. --- -## A curva de hype +## A curva do hype -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![curva do hype ml](../../../../translated_images/pt-PT/hype.07183d711a17aafe.webp) -> O Google Trends mostra a recente 'curva de hype' do termo 'machine learning' +> Google Trends mostra a recente 'curva do hype' do termo 'machine learning' --- ## Um universo misterioso -Vivemos num universo cheio de mistérios fascinantes. Grandes cientistas como Stephen Hawking, Albert Einstein e muitos outros dedicaram as suas vidas à busca de informações significativas que desvendassem os mistérios do mundo ao nosso redor. Esta é a condição humana de aprender: uma criança humana aprende coisas novas e descobre a estrutura do seu mundo ano após ano, à medida que cresce até à idade adulta. +Vivemos num universo cheio de mistérios fascinantes. Grandes cientistas como Stephen Hawking, Albert Einstein, e muitos mais, dedicaram as suas vidas a procurar informação significativa que desvenda os mistérios do mundo à nossa volta. Esta é a condição humana de aprender: uma criança humana aprende coisas novas e descobre a estrutura do seu mundo ano após ano enquanto cresce até à idade adulta. --- ## O cérebro da criança -O cérebro e os sentidos de uma criança percebem os factos do seu ambiente e, gradualmente, aprendem os padrões ocultos da vida que ajudam a criança a criar regras lógicas para identificar padrões aprendidos. O processo de aprendizagem do cérebro humano torna os humanos a criatura viva mais sofisticada deste mundo. Aprender continuamente, descobrindo padrões ocultos e depois inovando com base nesses padrões, permite-nos melhorar cada vez mais ao longo da nossa vida. Esta capacidade de aprendizagem e evolução está relacionada a um conceito chamado [plasticidade cerebral](https://www.simplypsychology.org/brain-plasticity.html). Superficialmente, podemos traçar algumas semelhanças motivacionais entre o processo de aprendizagem do cérebro humano e os conceitos de machine learning. +O cérebro e os sentidos de uma criança percebem os factos do seu meio e gradualmente aprendem os padrões ocultos da vida que ajudam a criança a criar regras lógicas para identificar os padrões aprendidos. O processo de aprendizagem do cérebro humano faz dos humanos a criatura mais sofisticada deste mundo. Aprender continuamente ao descobrir padrões ocultos e depois inovar nesses padrões permite-nos melhorar cada vez mais ao longo da nossa vida. Esta capacidade de aprendizagem e evolução está relacionada com um conceito chamado [plasticidade cerebral](https://www.simplypsychology.org/brain-plasticity.html). Superficialmente, podemos traçar algumas semelhanças motivacionais entre o processo de aprendizagem do cérebro humano e os conceitos do machine learning. --- ## O cérebro humano -O [cérebro humano](https://www.livescience.com/29365-human-brain.html) percebe coisas do mundo real, processa as informações percebidas, toma decisões racionais e realiza certas ações com base nas circunstâncias. Isto é o que chamamos de comportamento inteligente. Quando programamos uma réplica do processo de comportamento inteligente numa máquina, chamamos isso de inteligência artificial (IA). +O [cérebro humano](https://www.livescience.com/29365-human-brain.html) percebe coisas do mundo real, processa a informação percebida, toma decisões racionais e executa certas ações baseadas nas circunstâncias. Isto é o que chamamos de comportamento inteligente. Quando programamos uma réplica do processo de comportamento inteligente numa máquina, chamamos-lhe inteligência artificial (IA). --- -## Alguns termos +## Alguma terminologia -Embora os termos possam ser confundidos, machine learning (ML) é um subconjunto importante da inteligência artificial. **ML está relacionado ao uso de algoritmos especializados para descobrir informações significativas e encontrar padrões ocultos a partir de dados percebidos, corroborando o processo de tomada de decisão racional**. +Embora os termos possam ser confundidos, machine learning (ML) é um subconjunto importante da inteligência artificial. **ML preocupa-se com o uso de algoritmos especializados para descobrir informação significativa e encontrar padrões ocultos a partir dos dados percebidos para corroborar o processo de tomada de decisões racionais**. --- ## IA, ML, Deep Learning -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![IA, ML, deep learning, ciência de dados](../../../../translated_images/pt-PT/ai-ml-ds.537ea441b124ebf6.webp) -> Um diagrama mostrando as relações entre IA, ML, deep learning e ciência de dados. Infográfico por [Jen Looper](https://twitter.com/jenlooper) inspirado por [este gráfico](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Diagrama mostrando as relações entre IA, ML, deep learning e ciência de dados. Infografia por [Jen Looper](https://twitter.com/jenlooper) inspirada por [este gráfico](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Conceitos a abordar +## Conceitos a cobrir -Neste currículo, vamos abordar apenas os conceitos principais de machine learning que um iniciante deve conhecer. Abordamos o que chamamos de 'machine learning clássico', utilizando principalmente o Scikit-learn, uma excelente biblioteca que muitos estudantes utilizam para aprender o básico. Para entender conceitos mais amplos de inteligência artificial ou deep learning, um conhecimento fundamental sólido de machine learning é indispensável, e é isso que queremos oferecer aqui. +Neste currículo, vamos cobrir apenas os conceitos base do machine learning que um iniciante deve conhecer. Cobrimos o que chamamos 'machine learning clássico' principalmente usando Scikit-learn, uma excelente biblioteca que muitos alunos usam para aprender o básico. Para compreender conceitos mais amplos de inteligência artificial ou deep learning, um conhecimento fundamental forte de machine learning é indispensável, e por isso gostaríamos de o oferecer aqui. --- -## Neste curso, irá aprender: +## Neste curso vai aprender: -- conceitos principais de machine learning +- conceitos base de machine learning - a história do ML -- ML e equidade -- técnicas de regressão em ML -- técnicas de classificação em ML -- técnicas de clustering em ML -- técnicas de processamento de linguagem natural em ML -- técnicas de previsão de séries temporais em ML +- ML e a equidade +- técnicas de ML para regressão +- técnicas de ML para classificação +- técnicas de ML para clustering +- técnicas de ML para processamento de linguagem natural +- técnicas de ML para previsão de séries temporais - aprendizagem por reforço -- aplicações reais de ML +- aplicações reais do ML --- -## O que não iremos abordar +## O que não iremos cobrir - deep learning - redes neurais - IA -Para proporcionar uma melhor experiência de aprendizagem, evitaremos as complexidades das redes neurais, 'deep learning' - construção de modelos com várias camadas utilizando redes neurais - e IA, que discutiremos num currículo diferente. Também ofereceremos um futuro currículo de ciência de dados para focar nesse aspeto deste campo mais amplo. +Para proporcionar uma melhor experiência de aprendizagem, vamos evitar as complexidades das redes neurais, 'deep learning' - construção de modelos com várias camadas usando redes neurais - e IA, que discutiremos noutro currículo. Também iremos oferecer um futuro currículo sobre ciência de dados para nos focarmos nesse aspeto deste campo maior. --- -## Por que estudar machine learning? +## Porque estudar machine learning? -Machine learning, do ponto de vista de sistemas, é definido como a criação de sistemas automatizados que podem aprender padrões ocultos a partir de dados para ajudar na tomada de decisões inteligentes. +Machine learning, do ponto de vista dos sistemas, é definido como a criação de sistemas automatizados que podem aprender padrões ocultos a partir dos dados para ajudar na tomada de decisões inteligentes. -Esta motivação é vagamente inspirada por como o cérebro humano aprende certas coisas com base nos dados que percebe do mundo exterior. +Esta motivação é vagamente inspirada por como o cérebro humano aprende certas coisas baseando-se nos dados que percebe do mundo exterior. -✅ Pense por um momento por que uma empresa gostaria de tentar usar estratégias de machine learning em vez de criar um motor baseado em regras codificadas. +✅ Pense por um momento porque é que uma empresa gostaria de tentar usar estratégias de machine learning em vez de criar um motor baseado em regras codificadas manualmente. --- -## Aplicações de machine learning +## Porque a qualidade dos dados importa -As aplicações de machine learning estão agora quase em todo lugar e são tão ubíquas quanto os dados que circulam pelas nossas sociedades, gerados pelos nossos smartphones, dispositivos conectados e outros sistemas. Considerando o imenso potencial dos algoritmos de machine learning de última geração, os investigadores têm explorado a sua capacidade para resolver problemas reais multidimensionais e multidisciplinares com resultados muito positivos. +Dados de alta qualidade melhoram o desempenho do modelo. Dados pobres ou ruidosos podem levar a previsões imprecisas, mesmo quando são usados algoritmos avançados de machine learning. + +--- +## Aplicações do machine learning + +As aplicações do machine learning estão agora quase em todo o lado, e são tão ubiquas como os dados que circulam nas nossas sociedades, gerados pelos nossos telemóveis, dispositivos conectados e outros sistemas. Considerando o imenso potencial dos algoritmos de machine learning de última geração, os investigadores têm explorado a sua capacidade para resolver problemas reais multidimensionais e multidisciplinares com grandes resultados positivos. --- ## Exemplos de ML aplicado -**Pode usar machine learning de várias formas**: +**Pode usar machine learning de muitas formas**: -- Para prever a probabilidade de uma doença com base no histórico médico ou relatórios de um paciente. -- Para utilizar dados meteorológicos e prever eventos climáticos. +- Para prever a probabilidade de doença a partir do histórico médico ou relatórios de um paciente. +- Para aproveitar dados meteorológicos para prever eventos climáticos. - Para entender o sentimento de um texto. -- Para detetar notícias falsas e impedir a propagação de propaganda. +- Para detetar notícias falsas para parar a propagação de propaganda. -Finanças, economia, ciência da terra, exploração espacial, engenharia biomédica, ciência cognitiva e até áreas das humanidades têm adaptado o machine learning para resolver os problemas árduos e pesados em processamento de dados dos seus domínios. +Finanças, economia, ciência da terra, exploração espacial, engenharia biomédica, ciência cognitiva, e até áreas das humanidades adaptaram o machine learning para resolver problemas árduos e pesados de processamento de dados do seu domínio. --- ## Conclusão -Machine learning automatiza o processo de descoberta de padrões ao encontrar insights significativos a partir de dados reais ou gerados. Provou ser altamente valioso em aplicações empresariais, de saúde e financeiras, entre outras. +Machine learning automatiza o processo de descoberta de padrões ao encontrar perceções significativas a partir de dados do mundo real ou gerados. Tem-se revelado altamente valioso em negócios, saúde, e aplicações financeiras, entre outras. -Num futuro próximo, entender os fundamentos de machine learning será indispensável para pessoas de qualquer área devido à sua ampla adoção. +Num futuro próximo, compreender os fundamentos do machine learning será obrigatório para pessoas de qualquer área devido à sua ampla adoção. --- # 🚀 Desafio -Desenhe, em papel ou utilizando uma aplicação online como [Excalidraw](https://excalidraw.com/), a sua compreensão das diferenças entre IA, ML, deep learning e ciência de dados. Adicione algumas ideias sobre os problemas que cada uma destas técnicas é boa em resolver. +Desenhe, em papel ou usando uma aplicação online como [Excalidraw](https://excalidraw.com/), a sua compreensão das diferenças entre IA, ML, deep learning, e ciência de dados. Adicione algumas ideias dos problemas que cada uma destas técnicas é boa a resolver. # [Questionário pós-aula](https://ff-quizzes.netlify.app/en/ml/) --- -# Revisão e Autoestudo +# Revisão & Autoestudo -Para aprender mais sobre como pode trabalhar com algoritmos de ML na nuvem, siga este [Percurso de Aprendizagem](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Para aprender mais sobre como pode trabalhar com algoritmos de ML na cloud, siga este [Percurso de Aprendizagem](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Faça um [Percurso de Aprendizagem](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) sobre os fundamentos de ML. +Faça um [Percurso de Aprendizagem](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) sobre os conceitos básicos de ML. --- # Tarefa -[Prepare-se e comece](assignment.md) +[Comece já a trabalhar](assignment.md) --- -**Aviso Legal**: -Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, é importante notar que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes da utilização desta tradução. \ No newline at end of file + +**Aviso Legal**: +Este documento foi traduzido utilizando o serviço de tradução automática [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes da utilização desta tradução. + \ No newline at end of file diff --git a/translations/pt-PT/5-Clustering/1-Visualize/README.md b/translations/pt-PT/5-Clustering/1-Visualize/README.md index 03c45dc7e..a1853763e 100644 --- a/translations/pt-PT/5-Clustering/1-Visualize/README.md +++ b/translations/pt-PT/5-Clustering/1-Visualize/README.md @@ -1,116 +1,116 @@ -# Introdução à Clustering +# Introdução ao clustering -Clustering é um tipo de [Aprendizagem Não Supervisionada](https://wikipedia.org/wiki/Unsupervised_learning) que parte do pressuposto de que um conjunto de dados não está rotulado ou que suas entradas não estão associadas a saídas predefinidas. Ele utiliza vários algoritmos para organizar dados não rotulados e fornecer agrupamentos com base nos padrões identificados nos dados. +Clustering é um tipo de [Aprendizagem Não Supervisionada](https://wikipedia.org/wiki/Unsupervised_learning) que presume que um conjunto de dados não está rotulado ou que as suas entradas não estão associadas a saídas predefinidas. Utiliza vários algoritmos para analisar dados não rotulados e fornecer agrupamentos de acordo com os padrões que identifica nos dados. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Clique na imagem acima para assistir a um vídeo. Enquanto estuda machine learning com clustering, aproveite algumas faixas de Dance Hall nigeriano - esta é uma música muito bem avaliada de 2014 por PSquare. +> 🎥 Clique na imagem acima para um vídeo. Enquanto estuda aprendizagem automática com clustering, desfrute de algumas faixas de Dance Hall nigeriano - esta é uma canção muito bem avaliada de 2014 por PSquare. -## [Questionário pré-aula](https://ff-quizzes.netlify.app/en/ml/) +## [Teste pré-aula](https://ff-quizzes.netlify.app/en/ml/) ### Introdução -[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) é muito útil para exploração de dados. Vamos ver se ele pode ajudar a descobrir tendências e padrões na forma como o público nigeriano consome música. +[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) é muito útil para a exploração de dados. Vamos ver se pode ajudar a descobrir tendências e padrões na forma como os públicos nigerianos consomem música. -✅ Reserve um momento para pensar sobre os usos do clustering. Na vida real, clustering acontece sempre que você tem uma pilha de roupa suja e precisa separar as roupas dos membros da sua família 🧦👕👖🩲. Em ciência de dados, clustering ocorre ao tentar analisar as preferências de um usuário ou determinar as características de qualquer conjunto de dados não rotulado. Clustering, de certa forma, ajuda a dar sentido ao caos, como uma gaveta de meias. +✅ Reserve um minuto para refletir sobre os usos do clustering. Na vida real, clustering acontece sempre que tem um monte de roupa para lavar e precisa de separar as roupas dos membros da sua família 🧦👕👖🩲. Em ciência de dados, clustering acontece quando se tenta analisar as preferências de um utilizador, ou determinar as características de qualquer conjunto de dados não rotulado. O clustering, de certa forma, ajuda a dar sentido ao caos, como numa gaveta de meias. [![Introdução ao ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introdução ao Clustering") -> 🎥 Clique na imagem acima para assistir a um vídeo: John Guttag do MIT apresenta clustering. +> 🎥 Clique na imagem acima para ver um vídeo: John Guttag, do MIT, introduz o clustering -No ambiente profissional, clustering pode ser usado para determinar coisas como segmentação de mercado, identificando quais faixas etárias compram quais itens, por exemplo. Outro uso seria a detecção de anomalias, talvez para identificar fraudes em um conjunto de dados de transações com cartão de crédito. Ou você pode usar clustering para identificar tumores em um lote de exames médicos. +Num contexto profissional, o clustering pode ser usado para determinar coisas como a segmentação de mercado, determinando que grupos etários compram que itens, por exemplo. Outro uso seria a deteção de anomalias, talvez para detectar fraude num conjunto de dados de transações de cartões de crédito. Ou pode usar clustering para determinar tumores num lote de exames médicos. -✅ Pense por um momento sobre como você pode ter encontrado clustering 'na prática', em um ambiente bancário, de e-commerce ou empresarial. +✅ Pense um minuto em como poderá ter encontrado clustering 'no mundo real', num banco, comércio eletrónico ou contexto empresarial. -> 🎓 Curiosamente, a análise de clusters teve origem nos campos de Antropologia e Psicologia na década de 1930. Consegue imaginar como ela pode ter sido usada? +> 🎓 Curiosamente, a análise de clusters originou-se nos campos da Antropologia e Psicologia nos anos 1930. Consegue imaginar como pode ter sido usada? -Alternativamente, você poderia usá-lo para agrupar resultados de pesquisa - por links de compras, imagens ou avaliações, por exemplo. Clustering é útil quando você tem um grande conjunto de dados que deseja reduzir e sobre o qual deseja realizar uma análise mais detalhada, então a técnica pode ser usada para aprender sobre os dados antes de construir outros modelos. +Alternativamente, pode usá-lo para agrupar resultados de pesquisa - por links de compra, imagens ou opiniões, por exemplo. O clustering é útil quando se tem um grande conjunto de dados que se quer reduzir e sobre o qual se pretende fazer uma análise mais granular, por isso a técnica pode ser usada para aprender sobre os dados antes de outros modelos serem construídos. -✅ Uma vez que seus dados estão organizados em clusters, você atribui a eles um Id de cluster, e essa técnica pode ser útil para preservar a privacidade de um conjunto de dados; você pode, em vez disso, referir-se a um ponto de dados pelo seu Id de cluster, em vez de por dados identificáveis mais reveladores. Consegue pensar em outros motivos pelos quais você preferiria usar um Id de cluster em vez de outros elementos do cluster para identificá-lo? +✅ Uma vez que os seus dados estejam organizados em clusters, atribui-lhes um Id de cluster, e esta técnica pode ser útil para preservar a privacidade de um conjunto de dados; pode referir-se a um ponto de dados pelo seu id de cluster, em vez de por dados identificáveis mais reveladores. Consegue pensar em outras razões para referir-se a um Id de cluster em vez de outros elementos do cluster para o identificar? -Aprofunde seu entendimento sobre técnicas de clustering neste [módulo de aprendizado](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Aprofunde a sua compreensão das técnicas de clustering neste [módulo Learn](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) -## Começando com clustering +## Começar com clustering -[Scikit-learn oferece uma ampla gama](https://scikit-learn.org/stable/modules/clustering.html) de métodos para realizar clustering. O tipo que você escolhe dependerá do seu caso de uso. De acordo com a documentação, cada método tem vários benefícios. Aqui está uma tabela simplificada dos métodos suportados pelo Scikit-learn e seus casos de uso apropriados: +[Scikit-learn oferece uma grande variedade](https://scikit-learn.org/stable/modules/clustering.html) de métodos para realizar clustering. O tipo que escolher dependerá do seu caso de uso. Segundo a documentação, cada método tem vários benefícios. Aqui está uma tabela simplificada dos métodos suportados pelo Scikit-learn e os seus casos de uso apropriados: -| Nome do método | Caso de uso | -| :---------------------------- | :-------------------------------------------------------------------- | -| K-Means | propósito geral, indutivo | -| Propagação de afinidade | muitos clusters desiguais, indutivo | -| Mean-shift | muitos clusters desiguais, indutivo | -| Clustering espectral | poucos clusters iguais, transdutivo | -| Clustering hierárquico Ward | muitos clusters restritos, transdutivo | -| Clustering aglomerativo | muitos clusters restritos, distâncias não euclidianas, transdutivo | -| DBSCAN | geometria não plana, clusters desiguais, transdutivo | -| OPTICS | geometria não plana, clusters desiguais com densidade variável, transdutivo | -| Misturas Gaussianas | geometria plana, indutivo | -| BIRCH | grande conjunto de dados com outliers, indutivo | +| Nome do método | Caso de uso | +| :-------------------------- | :------------------------------------------------------------------- | +| K-Means | uso geral, indutivo | +| Propagação de afinidade | muitos, clusters irregulares, indutivo | +| Mean-shift | muitos, clusters irregulares, indutivo | +| Clustering espectral | poucos, clusters uniformes, transdutivo | +| Clustering hierárquico Ward| muitos, clusters restritos, transdutivo | +| Clustering aglomerativo | muitos, restrito, distâncias não euclidianas, transdutivo | +| DBSCAN | geometria não plana, clusters irregulares, transdutivo | +| OPTICS | geometria não plana, clusters irregulares com densidade variável, transdutivo | +| Misturas gaussianas | geometria plana, indutivo | +| BIRCH | conjunto de dados grande com outliers, indutivo | -> 🎓 Como criamos clusters tem muito a ver com como agrupamos os pontos de dados. Vamos explorar alguns vocabulários: +> 🎓 Como criamos clusters tem muito a ver com a forma como agrupamos os pontos de dados. Vamos explorar algum vocabulário: > > 🎓 ['Transdutivo' vs. 'indutivo'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Inferência transdutiva é derivada de casos de treinamento observados que mapeiam para casos de teste específicos. Inferência indutiva é derivada de casos de treinamento que mapeiam para regras gerais que só então são aplicadas aos casos de teste. +> A inferência transdutiva é derivada de casos de treino observados que correspondem a casos de teste específicos. A inferência indutiva é derivada de casos de treino que mapeiam para regras gerais que só depois são aplicadas aos casos de teste. > -> Um exemplo: Imagine que você tem um conjunto de dados parcialmente rotulado. Algumas coisas são 'discos', outras 'CDs', e algumas estão em branco. Sua tarefa é fornecer rótulos para os itens em branco. Se você escolher uma abordagem indutiva, treinaria um modelo procurando por 'discos' e 'CDs', e aplicaria esses rótulos aos dados não rotulados. Essa abordagem terá dificuldade em classificar coisas que são, na verdade, 'cassetes'. Uma abordagem transdutiva, por outro lado, lida com esses dados desconhecidos de forma mais eficaz, agrupando itens semelhantes e aplicando um rótulo ao grupo. Nesse caso, os clusters podem refletir 'coisas musicais redondas' e 'coisas musicais quadradas'. +> Um exemplo: Imagine que tem um conjunto de dados apenas parcialmente rotulado. Algumas coisas são 'discos', outras 'CDs' e algumas estão em branco. A sua tarefa é fornecer etiquetas para os em branco. Se optar por uma abordagem indutiva, treinaria um modelo à procura de 'discos' e 'CDs', e aplicaria essas etiquetas aos dados não rotulados. Esta abordagem terá dificuldade em classificar coisas que na verdade são 'cassetes'. Uma abordagem transdutiva, por outro lado, lida mais eficazmente com estes dados desconhecidos, pois trabalha para agrupar itens semelhantes e depois aplica uma etiqueta a um grupo. Neste caso, os clusters podem refletir 'coisas musicais redondas' e 'coisas musicais quadradas'. > > 🎓 ['Geometria não plana' vs. 'plana'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Derivado da terminologia matemática, geometria não plana vs. plana refere-se à medida de distâncias entre pontos por métodos geométricos 'planos' ([Euclidianos](https://wikipedia.org/wiki/Euclidean_geometry)) ou 'não planos' (não Euclidianos). +> Derivado da terminologia matemática, geometria não plana vs. plana refere-se à medida das distâncias entre pontos por métodos geométricos 'planos' ([Euclidianos](https://wikipedia.org/wiki/Euclidean_geometry)) ou 'não planos' (não Euclidianos). > ->'Plana' neste contexto refere-se à geometria Euclidiana (partes da qual são ensinadas como 'geometria plana'), e não plana refere-se à geometria não Euclidiana. O que a geometria tem a ver com machine learning? Bem, como dois campos que têm raízes na matemática, deve haver uma maneira comum de medir distâncias entre pontos em clusters, e isso pode ser feito de forma 'plana' ou 'não plana', dependendo da natureza dos dados. [Distâncias Euclidianas](https://wikipedia.org/wiki/Euclidean_distance) são medidas como o comprimento de um segmento de linha entre dois pontos. [Distâncias não Euclidianas](https://wikipedia.org/wiki/Non-Euclidean_geometry) são medidas ao longo de uma curva. Se seus dados, visualizados, parecem não existir em um plano, você pode precisar usar um algoritmo especializado para lidar com isso. +> 'Plano', neste contexto, refere-se à geometria Euclidiana (partes da qual são ensinadas como geometria 'plana'), e não plano refere-se à geometria não Euclidiana. O que tem a geometria a ver com aprendizagem automática? Bem, como dois campos que têm raízes na matemática, deve haver uma forma comum de medir distâncias entre pontos em clusters, e isso pode ser feito de forma 'plana' ou 'não plana', dependendo da natureza dos dados. [Distâncias Euclidianas](https://wikipedia.org/wiki/Euclidean_distance) são medidas como o comprimento de um segmento de linha entre dois pontos. [Distâncias não Euclidianas](https://wikipedia.org/wiki/Non-Euclidean_geometry) são medidas ao longo de uma curva. Se os seus dados, visualizados, parecerem não existir num plano, poderá precisar de usar um algoritmo especializado para lidar com isso. > -![Infográfico Geometria Plana vs Não Plana](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) +![Infográfico Geometria Plana vs Não Plana](../../../../translated_images/pt-PT/flat-nonflat.d1c8c6e2a96110c1.webp) > Infográfico por [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Distâncias'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Clusters são definidos por sua matriz de distâncias, ou seja, as distâncias entre pontos. Essa distância pode ser medida de algumas maneiras. Clusters Euclidianos são definidos pela média dos valores dos pontos e contêm um 'centroide' ou ponto central. As distâncias são, portanto, medidas pela distância até esse centroide. Distâncias não Euclidianas referem-se a 'clustroids', o ponto mais próximo de outros pontos. Clustroids, por sua vez, podem ser definidos de várias maneiras. +> Clusters são definidos pela sua matriz de distâncias, por exemplo, as distâncias entre pontos. Esta distância pode ser medida de várias formas. Clusters Euclidianos são definidos pela média dos valores dos pontos, e contêm um 'centroide' ou ponto central. As distâncias são portanto medidas pela distância para esse centroide. Distâncias não Euclidianas referem-se a 'clustroides', o ponto mais próximo dos outros pontos. Clustroides, por sua vez, podem ser definidos de várias formas. > > 🎓 ['Restrito'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Clustering Restrito](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introduz aprendizado 'semi-supervisionado' neste método não supervisionado. As relações entre pontos são marcadas como 'não pode vincular' ou 'deve vincular', então algumas regras são impostas ao conjunto de dados. +> [Clustering restrito](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introduz aprendizagem 'semi-supervisionada' neste método não supervisionado. As relações entre pontos são marcadas como 'não pode ligar' ou 'deve ligar' para que algumas regras sejam impostas ao conjunto de dados. > -> Um exemplo: Se um algoritmo é liberado em um lote de dados não rotulados ou semi-rotulados, os clusters que ele produz podem ser de baixa qualidade. No exemplo acima, os clusters podem agrupar 'coisas musicais redondas', 'coisas musicais quadradas', 'coisas triangulares' e 'biscoitos'. Se forem dadas algumas restrições ou regras para seguir ("o item deve ser feito de plástico", "o item precisa ser capaz de produzir música"), isso pode ajudar a 'restringir' o algoritmo para fazer escolhas melhores. +>Um exemplo: Se um algoritmo for colocado livremente num lote de dados não rotulados ou semi-rotulados, os clusters que produz podem ser de má qualidade. No exemplo acima, os clusters podem agrupar 'coisas musicais redondas', 'coisas musicais quadradas', 'coisas triangulares' e 'bolachas'. Se forem dadas algumas restrições, ou regras a seguir ("o item deve ser feito de plástico", "o item precisa ser capaz de produzir música") isto pode ajudar a 'constranger' o algoritmo a fazer escolhas melhores. > > 🎓 'Densidade' > -> Dados que são 'ruidosos' são considerados 'densos'. As distâncias entre pontos em cada um de seus clusters podem, ao serem examinadas, provar ser mais ou menos densas, ou 'aglomeradas', e assim esses dados precisam ser analisados com o método de clustering apropriado. [Este artigo](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) demonstra a diferença entre usar clustering K-Means vs. algoritmos HDBSCAN para explorar um conjunto de dados ruidoso com densidade de cluster desigual. +> Dados que são 'ruidosos' são considerados 'densos'. As distâncias entre pontos em cada um dos seus clusters podem provar, ao exame, ser mais ou menos densas, ou 'lotadas' e assim estes dados precisam de ser analisados com o método de clustering apropriado. [Este artigo](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) demonstra a diferença entre usar clustering K-Means vs. algoritmos HDBSCAN para explorar um conjunto de dados ruidoso com densidade irregular de cluster. ## Algoritmos de clustering -Existem mais de 100 algoritmos de clustering, e seu uso depende da natureza dos dados em questão. Vamos discutir alguns dos principais: +Existem mais de 100 algoritmos de clustering, e o seu uso depende da natureza dos dados em questão. Vamos discutir alguns dos principais: -- **Clustering hierárquico**. Se um objeto é classificado por sua proximidade a um objeto próximo, em vez de a um mais distante, os clusters são formados com base na distância de seus membros para outros objetos. O clustering aglomerativo do Scikit-learn é hierárquico. +- **Clustering hierárquico**. Se um objeto for classificado pela sua proximidade a um objeto próximo, em vez de a um mais distante, formam-se clusters baseados na distância dos seus membros para e a partir de outros objetos. O clustering aglomerativo do Scikit-learn é hierárquico. - ![Infográfico Clustering Hierárquico](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Infográfico Clustering Hierárquico](../../../../translated_images/pt-PT/hierarchical.bf59403aa43c8c47.webp) > Infográfico por [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Clustering por centroide**. Este algoritmo popular exige a escolha de 'k', ou o número de clusters a serem formados, após o qual o algoritmo determina o ponto central de um cluster e reúne dados ao redor desse ponto. [Clustering K-means](https://wikipedia.org/wiki/K-means_clustering) é uma versão popular de clustering por centroide. O centro é determinado pela média mais próxima, daí o nome. A distância quadrada do cluster é minimizada. +- **Clustering por centróide**. Este algoritmo popular requer a escolha de 'k', ou o número de clusters a formar, após o que o algoritmo determina o ponto central de um cluster e reúne dados à volta desse ponto. [Clustering K-means](https://wikipedia.org/wiki/K-means_clustering) é uma versão popular do clustering por centróide. O centro é determinado pela média mais próxima, daí o nome. A distância quadrada ao cluster é minimizada. - ![Infográfico Clustering por Centroide](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Infográfico Clustering por Centrôide](../../../../translated_images/pt-PT/centroid.097fde836cf6c918.webp) > Infográfico por [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Clustering baseado em distribuição**. Baseado em modelagem estatística, clustering baseado em distribuição centra-se em determinar a probabilidade de um ponto de dados pertencer a um cluster e atribuí-lo de acordo. Métodos de mistura Gaussianas pertencem a este tipo. +- **Clustering baseado em distribuição**. Baseado em modelagem estatística, o clustering baseado em distribuição centra-se em determinar a probabilidade de um ponto de dados pertencer a um cluster, e atribuio-lho em conformidade. Métodos de mistura Gaussiana pertencem a este tipo. -- **Clustering baseado em densidade**. Pontos de dados são atribuídos a clusters com base em sua densidade, ou seu agrupamento ao redor uns dos outros. Pontos de dados distantes do grupo são considerados outliers ou ruídos. DBSCAN, Mean-shift e OPTICS pertencem a este tipo de clustering. +- **Clustering baseado em densidade**. Os pontos de dados são atribuídos a clusters com base na sua densidade, ou no seu agrupamento uns em torno dos outros. Pontos de dados longe do grupo são considerados outliers ou ruído. DBSCAN, Mean-shift e OPTICS pertencem a este tipo de clustering. -- **Clustering baseado em grade**. Para conjuntos de dados multidimensionais, uma grade é criada e os dados são divididos entre as células da grade, criando assim clusters. +- **Clustering baseado em grelha**. Para conjuntos de dados multidimensionais, é criada uma grelha e os dados são divididos pelas células da grelha, criando assim clusters. -## Exercício - agrupe seus dados +## Exercício - faça clusters dos seus dados -Clustering como técnica é muito auxiliado por uma boa visualização, então vamos começar visualizando nossos dados musicais. Este exercício nos ajudará a decidir qual dos métodos de clustering devemos usar de forma mais eficaz para a natureza desses dados. +O clustering, enquanto técnica, é grandemente auxiliado por uma boa visualização, por isso vamos começar por visualizar os nossos dados musicais. Este exercício ajudará a decidir qual dos métodos de clustering devemos usar mais eficazmente para a natureza destes dados. -1. Abra o arquivo [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) nesta pasta. +1. Abra o ficheiro [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) nesta pasta. -1. Importe o pacote `Seaborn` para uma boa visualização de dados. +1. Importe o pacote `Seaborn` para boa visualização de dados. ```python !pip install seaborn ``` -1. Adicione os dados das músicas do arquivo [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Carregue um dataframe com alguns dados sobre as músicas. Prepare-se para explorar esses dados importando as bibliotecas e exibindo os dados: +1. Anexe os dados das músicas do [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Carregue um dataframe com alguns dados sobre as músicas. Prepare-se para explorar estes dados importando as bibliotecas e despejando os dados: ```python import matplotlib.pyplot as plt @@ -120,23 +120,23 @@ Clustering como técnica é muito auxiliado por uma boa visualização, então v df.head() ``` - Verifique as primeiras linhas de dados: + Verifique as primeiras linhas dos dados: - | | nome | álbum | artista | género_principal_artista | data_lançamento | duração | popularidade | dançabilidade | acústica | energia | instrumentalidade | vivacidade | volume | discurso | tempo | assinatura_tempo | - | --- | ------------------------ | ---------------------------- | ------------------- | ------------------------- | ---------------- | ------- | ------------ | ------------- | -------- | ------- | ------------------ | ---------- | -------- | ---------- | ------- | ---------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | r&b alternativo | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Obtenha algumas informações sobre o dataframe, chamando `info()`: +1. Obtenha alguma informação sobre o dataframe, chamando `info()`: ```python df.info() ``` - O resultado será semelhante a: + A saída será semelhante a esta: ```output @@ -164,13 +164,13 @@ Clustering como técnica é muito auxiliado por uma boa visualização, então v memory usage: 66.4+ KB ``` -1. Verifique novamente se há valores nulos, chamando `isnull()` e verificando se a soma é 0: +1. Verifique novamente a existência de valores nulos, chamando `isnull()` e verificando se a soma é 0: ```python df.isnull().sum() ``` - Tudo certo: + Está tudo bem: ```output name 0 @@ -209,11 +209,11 @@ Clustering como técnica é muito auxiliado por uma boa visualização, então v | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Se estamos a trabalhar com clustering, um método não supervisionado que não requer dados rotulados, por que estamos a mostrar estes dados com rótulos? Na fase de exploração de dados, eles são úteis, mas não são necessários para os algoritmos de clustering funcionarem. Poderíamos simplesmente remover os cabeçalhos das colunas e referir-nos aos dados pelo número da coluna. +> 🤔 Se estamos a trabalhar com clustering, um método não supervisionado que não requer dados rotulados, por que estamos a mostrar estes dados com etiquetas? Na fase de exploração de dados, são úteis, mas não são necessárias para os algoritmos de clustering funcionarem. Poderia muito bem remover os cabeçalhos das colunas e referir-se aos dados pelo número da coluna. -Observe os valores gerais dos dados. Note que a popularidade pode ser '0', o que indica músicas que não têm classificação. Vamos remover esses valores em breve. +Observe os valores gerais dos dados. Note que a popularidade pode ser '0', o que mostra músicas que não têm classificação. Vamos removê-las em breve. -1. Use um gráfico de barras para descobrir os géneros mais populares: +1. Utilize um gráfico de barras para descobrir os géneros mais populares: ```python import seaborn as sns @@ -225,13 +225,13 @@ Observe os valores gerais dos dados. Note que a popularidade pode ser '0', o que plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/pt-PT/popular.9c48d84b3386705f.webp) -✅ Se quiser ver mais valores principais, altere o top `[:5]` para um valor maior ou remova-o para ver todos. +✅ Se quiser ver mais valores principais, altere o topo `[:5]` para um valor maior, ou remova-o para ver todos. -Note que, quando o género principal é descrito como 'Missing', isso significa que o Spotify não o classificou, então vamos eliminá-lo. +Note que, quando o género principal é descrito como 'Missing', isso significa que o Spotify não o classificou, por isso vamos livrar-nos dele. -1. Elimine os dados ausentes filtrando-os: +1. Elimine os dados em falta filtrando-os ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -244,9 +244,9 @@ Note que, quando o género principal é descrito como 'Missing', isso significa Agora verifique novamente os géneros: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/pt-PT/all-genres.1d56ef06cefbfcd6.webp) -1. De longe, os três géneros principais dominam este conjunto de dados. Vamos concentrar-nos em `afro dancehall`, `afropop` e `nigerian pop`, e adicionalmente filtrar o conjunto de dados para remover qualquer valor de popularidade igual a 0 (o que significa que não foi classificado com uma popularidade no conjunto de dados e pode ser considerado ruído para os nossos propósitos): +1. De longe, os três géneros principais dominam este conjunto de dados. Vamos concentrar-nos em `afro dancehall`, `afropop` e `nigerian pop`, filtrando também o conjunto de dados para remover qualquer coisa com valor de popularidade 0 (significando que não foi classificado com uma popularidade no conjunto de dados e pode ser considerado ruído para os nossos propósitos): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +258,7 @@ Note que, quando o género principal é descrito como 'Missing', isso significa plt.title('Top genres',color = 'blue') ``` -1. Faça um teste rápido para ver se os dados têm alguma correlação particularmente forte: +1. Faça um teste rápido para ver se os dados se correlacionam de alguma forma particularmente forte: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +266,21 @@ Note que, quando o género principal é descrito como 'Missing', isso significa sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/pt-PT/correlation.a9356bb798f5eea5.webp) - A única correlação forte é entre `energy` e `loudness`, o que não é muito surpreendente, dado que música alta geralmente é bastante energética. Fora isso, as correlações são relativamente fracas. Será interessante ver o que um algoritmo de clustering pode fazer com estes dados. + A única correlação forte é entre `energy` e `loudness`, o que não é surpreendente, dado que música alta normalmente é bastante energética. Caso contrário, as correlações são relativamente fracas. Será interessante ver o que um algoritmo de clustering pode fazer com estes dados. - > 🎓 Note que correlação não implica causalidade! Temos prova de correlação, mas não prova de causalidade. Um [site divertido](https://tylervigen.com/spurious-correlations) tem alguns visuais que enfatizam este ponto. + > 🎓 Note que correlação não implica causalidade! Temos prova de correlação, mas não de causalidade. Um [site divertido](https://tylervigen.com/spurious-correlations) tem alguns visuais que enfatizam este ponto. -Há alguma convergência neste conjunto de dados em torno da popularidade percebida de uma música e sua capacidade de dança? Um FacetGrid mostra que há círculos concêntricos que se alinham, independentemente do género. Poderia ser que os gostos nigerianos convergem a um certo nível de capacidade de dança para este género? +Existe alguma convergência neste conjunto de dados em torno da popularidade percebida de uma música e a sua dança? Um FacetGrid mostra que há círculos concêntricos que se alinham, independentemente do género. Poderá ser que os gostos nigerianos convirjam num certo nível de dança para este género? -✅ Experimente diferentes pontos de dados (energia, loudness, speechiness) e mais ou diferentes géneros musicais. O que consegue descobrir? Veja a tabela `df.describe()` para observar a distribuição geral dos pontos de dados. +✅ Experimente diferentes pontos de dados (energia, volume, discurso) e mais ou diferentes géneros musicais. O que pode descobrir? Dê uma olhadela na tabela `df.describe()` para ver a dispersão geral dos pontos de dados. -### Exercício - distribuição de dados +### Exercício – distribuição dos dados -Estes três géneros são significativamente diferentes na perceção da sua capacidade de dança, com base na sua popularidade? +Estes três géneros são significativamente diferentes na perceção da sua dança, baseado na sua popularidade? -1. Examine a distribuição de dados dos nossos três géneros principais para popularidade e capacidade de dança ao longo de um eixo x e y dado. +1. Examine a distribuição dos dados dos nossos três géneros principais para popularidade e dança numa dada eixo x e y. ```python sns.set_theme(style="ticks") @@ -292,13 +292,13 @@ Estes três géneros são significativamente diferentes na perceção da sua cap ) ``` - Pode descobrir círculos concêntricos em torno de um ponto geral de convergência, mostrando a distribuição dos pontos. + Pode descobrir círculos concêntricos em torno de um ponto geral de convergência, mostrando a distribuição de pontos. - > 🎓 Note que este exemplo usa um gráfico KDE (Kernel Density Estimate) que representa os dados usando uma curva de densidade de probabilidade contínua. Isso permite interpretar os dados ao trabalhar com múltiplas distribuições. + > 🎓 Note que este exemplo utiliza um gráfico KDE (Estimativa de Densidade Kernel) que representa os dados usando uma curva contínua de densidade de probabilidade. Isto permite interpretar os dados quando se trabalha com múltiplas distribuições. - Em geral, os três géneros alinham-se vagamente em termos de sua popularidade e capacidade de dança. Determinar clusters nestes dados vagamente alinhados será um desafio: + Em geral, os três géneros alinham-se vagamente em termos de sua popularidade e dança. Determinar clusters neste conjunto de dados vagamente alinhado será um desafio: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/pt-PT/distribution.9be11df42356ca95.webp) 1. Crie um gráfico de dispersão: @@ -308,31 +308,33 @@ Estes três géneros são significativamente diferentes na perceção da sua cap .add_legend() ``` - Um gráfico de dispersão dos mesmos eixos mostra um padrão semelhante de convergência. + Um gráfico de dispersão dos mesmos eixos mostra um padrão semelhante de convergência - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/pt-PT/facetgrid.9b2e65ce707eba1f.webp) -Em geral, para clustering, pode usar gráficos de dispersão para mostrar clusters de dados, por isso dominar este tipo de visualização é muito útil. Na próxima lição, vamos pegar neste conjunto de dados filtrado e usar clustering k-means para descobrir grupos nestes dados que parecem sobrepor-se de formas interessantes. +Em geral, para clustering, pode-se usar gráficos de dispersão para mostrar clusters de dados, por isso dominar este tipo de visualização é muito útil. Na próxima lição, utilizaremos estes dados filtrados e usaremos clustering k-means para descobrir grupos neste conjunto de dados que parecem sobrepor-se de maneiras interessantes. --- ## 🚀Desafio -Em preparação para a próxima lição, crie um gráfico sobre os vários algoritmos de clustering que pode descobrir e usar num ambiente de produção. Que tipos de problemas o clustering está a tentar resolver? +Em preparação para a próxima lição, faça um gráfico sobre os vários algoritmos de clustering que pode descobrir e usar num ambiente de produção. Que tipo de problemas é que o clustering procura resolver? -## [Questionário pós-aula](https://ff-quizzes.netlify.app/en/ml/) +## [Quiz pós-aula](https://ff-quizzes.netlify.app/en/ml/) -## Revisão e Autoestudo +## Revisão & Autoestudo Antes de aplicar algoritmos de clustering, como aprendemos, é uma boa ideia entender a natureza do seu conjunto de dados. Leia mais sobre este tópico [aqui](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Este artigo útil](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) explica os diferentes comportamentos de vários algoritmos de clustering, dados diferentes formatos de dados. +[Este artigo útil](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) guia-o pelos diferentes comportamentos de vários algoritmos de clustering, dados diferentes formatos de dados. -## Tarefa +## Trabalho de casa [Pesquise outras visualizações para clustering](assignment.md) --- -**Aviso Legal**: -Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original no seu idioma nativo deve ser considerado a fonte oficial. Para informações críticas, recomenda-se uma tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes do uso desta tradução. \ No newline at end of file + +**Aviso Legal**: +Este documento foi traduzido utilizando o serviço de tradução automática [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes da utilização desta tradução. + \ No newline at end of file