diff --git a/translations/km/.co-op-translator.json b/translations/km/.co-op-translator.json
index ae2dc36ff..c45090b0c 100644
--- a/translations/km/.co-op-translator.json
+++ b/translations/km/.co-op-translator.json
@@ -1,7 +1,7 @@
{
"1-Introduction/1-intro-to-ML/README.md": {
- "original_hash": "69389392fa6346e0dfa30f664b7b6fec",
- "translation_date": "2026-04-06T18:13:33+00:00",
+ "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0",
+ "translation_date": "2026-05-26T22:08:24+00:00",
"source_file": "1-Introduction/1-intro-to-ML/README.md",
"language_code": "km"
},
@@ -360,8 +360,8 @@
"language_code": "km"
},
"5-Clustering/1-Visualize/README.md": {
- "original_hash": "730225ea274c9174fe688b21d421539d",
- "translation_date": "2026-04-06T18:43:38+00:00",
+ "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd",
+ "translation_date": "2026-05-26T22:07:16+00:00",
"source_file": "5-Clustering/1-Visualize/README.md",
"language_code": "km"
},
diff --git a/translations/km/1-Introduction/1-intro-to-ML/README.md b/translations/km/1-Introduction/1-intro-to-ML/README.md
index c593f8df7..bfcd70265 100644
--- a/translations/km/1-Introduction/1-intro-to-ML/README.md
+++ b/translations/km/1-Introduction/1-intro-to-ML/README.md
@@ -1,152 +1,157 @@
# ការណែនាំអំពីការរៀនម៉ាស៊ីន
-## [សំណួរតេស្តមុនថ្នាក់](https://ff-quizzes.netlify.app/en/ml/)
+## [សំណួរពីមុនវគ្គសិក្សា](https://ff-quizzes.netlify.app/en/ml/)
---
-[](https://youtu.be/6mSx_KJxcHI "ML សម្រាប់អ្នកសរសេរใหม่ - ការណែនាំអំពីការរៀនម៉ាស៊ីនសម្រាប់អ្នកសរសេរ")
+[](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners")
-> 🎥 ចុចលើរូបភាពខាងលើសម្រាប់វីដេអូខ្លីបង្ហាញពីមេរៀននេះ។
+> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូចំនុចខ្លីបរិយាយអំពីមេរៀននេះ។
-សូមស្វាគមន៍មកកាន់វគ្គសិក្សានេះអំពីការរៀនម៉ាស៊ីនបែបសាមញ្ញសម្រាប់អ្នកចាប់ផ្ដើម! មិនថាអ្នកជាអ្នកថ្មីតែម្តងនឹងប្រធានបទនេះ ឬជាអ្នកអនុវត្ត ML ដែលមានបទពិសោធន៍ជាមួយកន្លែងមួយណាមួយដែលចង់បង្កើតវិជ្ជាជីវៈឡើងវិញ យើងមានសេចក្ដីសប្បាយរីករាយដែលអ្នកបានចូលរួមជាមួយយើង! យើងចង់បង្កើតទីតាំងមួយដែលរាប់មិត្តភាព សម្រាប់ការសិក្សា ML របស់អ្នក ហើយយើងនឹងមានមោទនភាពក្នុងការវាយតម្លៃ ឆ្លើយតប និងរួមបញ្ចូលមតិយោបល់របស់អ្នក [feedback](https://github.com/microsoft/ML-For-Beginners/discussions)។
+សូមស្វាគមន៍មកកាន់មុខវិជ្ជានេះស្តីពីការរៀនម៉ាស៊ីនបែបបុរាណសម្រាប់អ្នកដែលជាអ្នកចាប់ផ្តើម! មិនថាអ្នកថ្មីយ៉ាងពិតប្រាកដដល់មុខវិជ្ជានេះ ឬជាអ្នកមានបទពិសោធន៍ក្នុងការអនុវត្ត ML ដែលចង់បន្ថែមជំនាញផ្នែកណាមួយក៏ដោយ យើងរីករាយដែលអ្នកបានចូលរួមជាមួយយើង! យើងចង់បង្កើតចំណុចចាប់ផ្តើមមិត្តភក្តិសម្រាប់ការសិក្សា ML របស់អ្នក ហើយរីករាយក្នុងការវាយតម្លៃ ការឆ្លើយតប និងបញ្ចូលមតិអ្នក [មតិយោបល់](https://github.com/microsoft/ML-For-Beginners/discussions)។
-[](https://youtu.be/h0e2HAPTGF4 "ការណែនាំអំពី ML")
+[](https://youtu.be/h0e2HAPTGF4 "Introduction to ML")
-> 🎥 ចុចលើរូបភាពខាងលើសម្រាប់វីដេអូ៖ John Guttag របស់ MIT ដឹកនាំបង្ហាញអំពីការរៀនម៉ាស៊ីន
+> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ៖ John Guttag ពី MITណែនាំអំពីការរៀនម៉ាស៊ីន
---
-## ផ្ដើមសិក្សាអំពីការរៀនម៉ាស៊ីន
+## ការចាប់ផ្តើមជាមួយការរៀនម៉ាស៊ីន
-មុននឹងចាប់ផ្ដើមវគ្គសិក្សានេះ អ្នកត្រូវតែមានកុំព្យូទ័ររបស់អ្នកត្រៀមរួចរាល់សម្រាប់បើកចូលប្រើមូលដ្ឋានសៀវភៅកំណត់ត្រាផ្ទាល់ខ្លួន។
+មុននឹងចាប់ផ្តើមជាមួយមេរៀននេះ អ្នកត្រូវតែដំឡើងកុំព្យូទ័ររបស់អ្នកហើយមានការត្រៀមរួចជាស្រេចដើម្បីរត់កំណត់ត្រាតូចៗនៅក្នុងកន្លែងរបស់អ្នកបាន។
-- **កំណត់រចនាសម្ព័ន្ធម៉ាស៊ីនរបស់អ្នកជាមួយវីដេអូទាំងនេះ**។ ប្រើតំណភ្ជាប់ខាងក្រោមសម្រាប់រៀនពីរបៀប [ដំឡើង Python](https://youtu.be/CXZYvNRIAKM) នៅលើប្រព័ន្ធរបស់អ្នក និង [កំណត់ការ text editor](https://youtu.be/EU8eayHWoZg) សម្រាប់ការអភិវឌ្ឍន៍។
-- **រៀន Python**។ បើកមានការផ្តល់អនុសាសន៍ឲ្យមានការយល់ដឹងមូលដ្ឋានអំពី [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) ដែលជាភាសាកូដដែលមានប្រយោជន៍សម្រាប់អ្នកវិទ្យាសាស្ត្រទិន្នន័យដែលយើងប្រើក្នុងវគ្គសិក្សានេះ។
-- **រៀន Node.js និង JavaScript**។ យើងក៏ប្រើ JavaScript ពេលខ្លះនៅក្នុងវគ្គនេះពេលកសាងកម្មវិធីបណ្តាញ ដូច្នេះអ្នកត្រូវតែមាន [node](https://nodejs.org) និង [npm](https://www.npmjs.com/) តម្លើងក្នុងប្រព័ន្ធរបស់អ្នក បូកជាមួយការចូលប្រើ [Visual Studio Code](https://code.visualstudio.com/) សម្រាប់ការអភិវឌ្ឍ Python និង JavaScript ។
-- **បង្កើតគណនី GitHub**។ ពីព្រោះអ្នកបានរកឃើញយើងនៅទីនេះលើ [GitHub](https://github.com) សូមអាចមានគណនីរួចហើយ តែបើមិនមានសូមបង្កើត និង Fork វគ្គសិក្សានេះដើម្បីប្រើប្រាស់ដោយផ្ទាល់ខ្លួន។ (សូមឥតគិតថ្លៃផ្តល់ផ្កាយមួយជាការគាំទ្រ 😊)
-- **ស្វែងយល់អំពី Scikit-learn**។ សូមស្គាល់គាត់ [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ដែលជាសំណុំនៃបណ្ណាល័យ ML ដែលយើងយោងទៅលើក្នុងមេរៀនទាំងនេះ។
+- **កំណត់ការកំណត់ម៉ាស៊ីនរបស់អ្នកដោយប្រើវីដេអូទាំងនេះ**។ ប្រើតំណភ្ជាប់ខាងក្រោមដើម្បីរៀនពីរបៀប [ដំឡើង Python](https://youtu.be/CXZYvNRIAKM) នៅក្នុងប្រព័ន្ធរបស់អ្នក និង [កំណត់កម្មវិធីកែសម្រួលអត្ថបទ](https://youtu.be/EU8eayHWoZg) សម្រាប់ការអភិវឌ្ឍន៍។
+- **រៀន Python**។ វាក៏ត្រូវបានណែនាំឱ្យមានការយល់ដឹងមូលដ្ឋានអំពី [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) ដែលជាភាសាកម្មវិធីមានប្រយោជន៍សម្រាប់អ្នកវិទ្យាសាស្ត្រទិន្នន័យដែលយើងប្រើនៅក្នុងមុខវិជ្ជានេះ។
+- **រៀន Node.js និង JavaScript**។ យើងក៏ប្រើ JavaScript ដល់ច្រើនដងក្នុងមុខវិជ្ជានេះនៅពេលបង្កើតកម្មវិធីវេប ដូច្នេះអ្នកនឹងត្រូវមាន [node](https://nodejs.org) និង [npm](https://www.npmjs.com/) ដំឡើង និងមាន [Visual Studio Code](https://code.visualstudio.com/) សម្រាប់សម្រាប់ការអភិវឌ្ឍ Python និង JavaScript។
+- **បង្កើតគណនី GitHub**។ ព្រោះអ្នកបានរកឃើញយើងនៅទីនេះនៅលើ [GitHub](https://github.com) អ្នកប្រហែលជាមានគណនីរួចហើយ បើមិនមាន សូមបង្កើតមួយ ហើយបន្ទាប់មកសូមធ្វើ fork មេរៀននេះសម្រាប់ប្រើប្រាស់ផ្ទាល់ខ្លួន។ (ក៏អាចផ្តល់ផ្កាយមួយដែរ 😊)
+- **ស្គាល់ Scikit-learn**। ស្គាល់វាមួយប្រព័ន្ធ [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ដែលជាក្រុមបណ្ណាល័យ ML ដែលយើងយោងក្នុងមេរៀនទាំងនេះ។
---
-## តើការរៀនម៉ាស៊ីនគឺជាអ្វី?
+## តើការរៀនម៉ាស៊ីនជាអ្វី?
-ពាក្យ 'machine learning' គឺជាក្ដីពេញនិយម និងប្រើប្រាស់ញឹកញាប់បំផុតសម្រាប់សព្វថ្ងៃ។ មានភាពអាចម៍កើតឡើងថាអ្នកបានឮពាក្យនេះយ៉ាងហោចណាស់មួយដង ប្រសិនបើអ្នកមានស្គាល់ខ្លះៗអំពីបច្ចេកវិទ្យា មិនថាអ្នកធ្វើការនៅក្នុងវិស័យណា។ បច្ចេកទេសនៃការរៀនម៉ាស៊ីន យ៉ាងណាមិញ ក៏នៅតែជារឿងលេងល្បងសម្រាប់មនុស្សភាគច្រើន។ សម្រាប់អ្នកចាប់ផ្ដើមការរៀនម៉ាស៊ីន ប្រធានបទនេះអាចមានអារម្មណ៍ថាស្មួតស្មើ។ ដូច្នេះ វាសំខាន់ណាស់ក្នុងការយល់ពីអ្វីទៅជា machine learning ពិតប្រាកដ ហើយរៀនវាជាគ្រប់ជំហាន តាមរយៈឧទាហរណ៍អនុវត្តន៍។
+ពាក្យ 'machine learning' គឺជាពាក្យដែលពេញនិយមនិងត្រូវបានប្រើប្រាស់ជាញឹកញាប់បំផុតក្នុងសម័យបច្ចុប្បន្ន។ មានសក្តានុពលមិនតិចដែលអ្នកបានដឹងពីពាក្យនេះយ៉ាងហោចណាស់មួយដង ប្រសិនបើអ្នកមានការស្គាល់ខ្លះៗអំពីបច្ចេកវិទ្យា មិនថាអ្នកធ្វើការនៅក្នុងវិស័យអ្វី។ ទោះយ៉ាងណា យន្តការរៀនម៉ាស៊ីន គឺជារឿងអាថ៌កំបាំងសម្រាប់មនុស្សភាគច្រើន។ សម្រាប់អ្នកចាប់ផ្តើមរៀនម៉ាស៊ីន ប្រធានបទនេះអាចធ្វើអោយមានអារម្មណ៍ធ្ងន់ធ្ងរនិងរំខាន។ ដូច្នេះ វាសំខាន់ក្នុងការយល់អំពីអ្វីដែល machine learning ជាផ្ទាល់ និងរៀនវាដោយជំហាន ក្តៅតាមឧទាហរណ៍ជាក់ស្តែង។
---
-## របងប្រភេទតំណពន្លឺ
+## កំណត់ត្រាអំពីភាពរំខាន

-> Google Trends បង្ហាញរបងប្រភេទ 'hype curve' នៃពាក្យ 'machine learning' នៅពេលថ្មីៗនេះ
+> Google Trends បង្ហាញ 'hype curve' នៃពាក្យ 'machine learning' ដែលកើនឡើងថ្មីៗនេះ
---
-## ពិភពគម្រប
+## ចក្រពន្លឺមួយពោរពេញដោយអាថ៌កំបាំង
-យើងរស់នៅក្នុងពិភពមួយដែលពេញលេញដោយសម្ងាត់គួរឱ្យចាប់អារម្មណ៍។ អ្នកវិទ្យាសាស្ត្រល្បីៗដូចជា Stephen Hawking, Albert Einstein និងមនុស្សជាច្រើនទៀត បានសំលាប់ពេលវេលាផ្នែកធ្វើស្រាវជ្រាវដើម្បីស្វែងរកព័ត៌មានមានន័យ ដែលបំភ្លឺសម្ងាត់នៃពិភពជុំវិញយើង។ នេះគឺជាសភាពមនុស្សក្នុងការរៀន៖ កុមារមនុស្សរៀនអ្វីថ្មីៗ និងរកឃើញរចនាសម្ព័ន្ធនៃពិភពរបស់ពួកគេឆ្នាំក្រោមឆ្នាំនៅពេលពួកគេចាស់ដល់វ័យពេញវ័យ។
+យើងរស់នៅក្នុងចក្រពន្លឺមួយដែលពោរពេញទៅដោយអាថ៌កំបាំងគួរឲ្យចាប់អារម្មណ៍។ វិទ្យាសាស្ត្រដ៏ធំៗដូចជា Stephen Hawking, Albert Einstein និងមនុស្សផ្សេងទៀតបានចំណាយពេលរស់នៅសម្រាប់ស្វែងរកព័ត៌មានមានន័យដែលអាចបង្ហាញពីអាថ៌កំបាំងនៅជុំវិញពិភពលោកយើង។ នេះជាសភាពធម្មតានៃបុរសនារីក្នុងការរៀន៖ កូនក្មេងមនុស្សរៀនអ្វីថ្មីៗ ហើយរកឃើញរចនាសម្ព័ន្ធនៃពិភពលោករបស់ពួកគេជាដំណាក់កាលទៅរូបរាងពេញវ័យ។
---
-## សម្ថភាពខួរក្បាលកុមារ
+## ខួរក្បាលក្មេង
-ខួរក្បាល និងអារម្មណ៍របស់កុមារយល់ឃើញពីការពិតជុំវិញពួកគេ ហើយរៀនយ៉ាងតិចតួចពីរចនាសម្ព័ន្ធលាក់សំខាន់នៃជីវិត ដែលជួយឲ្យកុមារបង្កើតច្បាប់មានទិដ្ឋភាពយុត្តិធម៌ ដើម្បីសំគាល់លំនាំដែលបានរៀន។ ដំណើរការរៀននៃខួរក្បាលមនុស្សធ្វើឱ្យមនុស្សមានជីវិតកាន់តែស្មុគស្មាញបំផុតលើពិភពលោកនេះ។ ការរៀនទៅជានិរន្តរភាពដោយបង្កើតរកលំនាំលាក់ ហើយបន្ទាប់មកបង្កើតថ្មីលើលំនាំទាំងនោះ អនុញ្ញាតឱ្យយើងធ្វើឱ្យខ្លួនឯងកាន់តែប្រសើរឡើងក្នុងអាយុកាលកំណត់របស់យើង។ សមត្ថភាពរៀន និងសមត្ថភាពអភិវឌ្ឍឆាប់រហ័សនេះ មានទំនាក់ទំនងជាមួយយោគយល់មួយហៅថា [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html)។ ជាមិនធម្មតាទេ យើងអាចគូររូបភាពស្រដៀងគ្នាជាមួយរបស់ការរៀននៃខួរក្បាលមនុស្ស និងយោគយល់នៃការរៀនម៉ាស៊ីន។
+ខួរក្បាលនិងកោសិការបស់ក្មេងម្នាក់ដឹកនាំការយល់ដឹងពីព្រឹត្តិការណ៍ដែលនៅជុំវិញ ហើយរៀនពីលំនាំលំអៀងនៅស្នាក់ក្នុងជីវិតដែលជួយឱ្យក្មេងបង្កើតច្បាប់វិជ្ជាជីវៈដើម្បីកំណត់លំនាំដែលរៀនបាន។ ដំណើរការរៀនរបស់ខួរក្បាលមនុស្សធ្វើឱ្យមនុស្សជាតិត្រូវបានគេទទួលស្គាល់ថាជាសត្វរស់នៅដ៏ស្មុគស្មាញបំផុតនៅលើពិភពលោកនេះ។ ការរៀនជាប់តែកើតឡើងដោយការរកឃើញលំនាំត្រូវហើយបន្ទាប់មកបង្កើតច្នៃភាពលើលំនាំទាំងនោះ នាំអោយយើងអាចធ្វើឱ្យខ្លួនឯងកាន់តែប្រសើរឡើងនៅក្នុងអាយុរបស់យើង។ សមត្ថភាពក្នុងការរៀននិងសមត្ថភាពដែលកំពុងអភិវឌ្ឍនេះពាក់ព័ន្ធនឹងគំនិតមួយដែលគេហៅថា [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html)។ បណ្តាញដោយខ្លី យើងអាចគូររូបភាពមានភាពស្រដៀងគ្នារវាងដំណើរការរៀននៃខួរក្បាលមនុស្ស និងគំនិតនៃការរៀនម៉ាស៊ីន។
---
## ខួរក្បាលមនុស្ស
-[ខួរក្បាលមនុស្ស](https://www.livescience.com/29365-human-brain.html) យល់ឃើញអំពីរឿងនៅពិតក្នុងពិភពលោក ធ្វើដំណើរការព័ត៌មានដែលបានយល់ឃើញ ធ្វើសេចក្តីសម្រេចយុត្តិធម៌ និងអនុវត្តសកម្មភាពមួយចំនួនដោយផ្អែកលើអត្តសញ្ញាណនៃស្ថានភាព។ នេះគឺជារឿងដែលយើងហៅថា ការប្រព្រឹត្តសមត្ថភាពយុត្តិាសាស្រ្ត។ នៅពេលដែលយើងកូដការប្រព្រឹត្តបែបនេះទៅឲ្យម៉ាស៊ីនវាយហៅថា បញ្ញាសិប្បនិម្មិត (AI)។
+[ខួរក្បាលមនុស្ស](https://www.livescience.com/29365-human-brain.html) បានយល់ពីរឿងពីពិភពលោក ពិនិត្យព្រឹត្តិការណ៍ដែលមាន កំណត់ការសម្រេចចិត្តដោយហិរញ្ញវត្ថុហើយអនុវត្តសកម្មភាពមួយចំនួនទាក់ទងនឹងស្ថានភាព។ នេះហៅថាការប្រព្រឹត្តអោយមានភាពប្រាជ្ញា។ នៅពេលយើងប្រាប់កម្មវិធីសំណុំនៃដំណើរការប្រព្រឹត្តប្រាជ្ញាទៅក្នុងម៉ាស៊ីន នោះហៅថាបញ្ញាសិប្បនិម្មិត (AI)។
---
-## ពាក្យបច្ចេកទេសខ្លះៗ
+## ពាក្យក្រិតខ្លះៗ
-ទោះពាក្យទាំងនោះអាចបង្កភាពច្របូកច្របល់ តែការរៀនម៉ាស៊ីន (ML) គឺជាផ្នែកសំខាន់មួយរបស់បញ្ញាសិប្បនិម្មិត។ **ML គឺផ្តោតលើការប្រើប្រាស់អាល់ហ្គោរីធម៍ឯកទេស ដើម្បីរកព័ត៌មានមានន័យ និងរកលំនាំលាក់ពីទិន្នន័យដែលបានយល់ឃើញ ដើម្បីពន្លឿនដំណើរការសម្រេចចិត្តយុត្តិធម៌**។
+ទោះបីជាពាក្យអាចបំភាន់ ក៏ ML គឺជាផ្នែកសំខាន់មួយនៃបញ្ញាសិប្បនិម្មិត។ **ML ពាក់ព័ន្ធនឹងការប្រើប្រាស់អាល់ហ្គរីធម៍ពិសេសក្នុងការរកឃើញព័ត៌មានមានន័យ និងស្វែងរកលំនាំលាក់ពីទិន្នន័យដែលបានយល់ដឹង ដើម្បីបញ្ជាក់ដល់ដំណើរការសម្រេចចិត្តត្រឹមត្រូវ។**
---
-## AI, ML, ការរៀនជ្រៅ
+## AI, ML, រៀនជ្រៅ

-> ក្រាហ្វិកបង្ហាញទំនាក់ទំនងរវាង AI, ML, ការរៀនជ្រៅ និងវិទ្យាសាស្រ្តទិន្នន័យ។ ប្លង់បាប់ដោយ [Jen Looper](https://twitter.com/jenlooper) នាំមកពី [រូបនេះ](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining)
+> រូបភាពបង្ហាញទំនាក់ទំនងរវាង AI, ML, រៀនជ្រៅ និងវិទ្យាសាស្ត្រទិន្នន័យ។ រូបភាពអត្ថាធិប្បាយដោយ [Jen Looper](https://twitter.com/jenlooper) អាចប្រើប្រាស់ពីរូបភាពនេះ [this graphic](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining)
---
-## គន្លឹះដែលត្រូវរៀន
+## គំនិតដែលត្រូវគ្របដណ្តប់
-នៅក្នុងវគ្គនេះ យើងនឹងគ្របដណ្តប់ត្រឹមតែគន្លឹះស្នូលនៃការរៀនម៉ាស៊ីនដែលអ្នកចាប់ផ្ដើមត្រូវបានគេរៀន។ យើងលើកឡើងអ្វីដែលហៅថា 'classical machine learning' ជាចម្បងប្រើ Scikit-learn ដែលជាបណ្ណាល័យល្អសម្រាប់សិស្សជាច្រើនក្នុងការរៀនមូលដ្ឋាន។ ដើម្បីយល់ពីគំនិតធំទូលាយនៃបញ្ញាសិប្បនិម្មិត ឬការរៀនជ្រៅ បានត្រូវកំលាំងចំណេះដឹងមូលដ្ឋានរឹងមាំមួយនៃការរៀនម៉ាស៊ីន ហើយយើងចង់ផ្តល់វា នៅទីនេះ។
+ក្នុងមេរៀននេះ យើងនឹងគ្របដណ្តប់តែគំនិតមូលដ្ឋាននៃការរៀនម៉ាស៊ីនដែលអ្នកចាប់ផ្តើមត្រូវតែដឹង។ យើងគ្របដណ្តប់អ្វីដែលយើងហៅថា "classical machine learning" ជាចម្បងដោយប្រើប្រាស់ Scikit-learn ជាបណ្ណាល័យល្អឥតខ្ចោះដែលសطلابជាច្រើនប្រើសម្រាប់រៀនមូលដ្ឋាន។ ដើម្បីយល់យ៉ាងទូលំទូលាយអំពីគំនិតបញ្ញាសិប្បនិម្មិត ឬរៀនជ្រៅ ចំណេះដឹងមូលដ្ឋានរឹងមាំអំពីការរៀនម៉ាស៊ីន គឺមានសារៈសំខាន់ ខណ:យើងចង់ផ្តល់វានៅទីនេះ។
---
-## ក្នុងវគ្គនេះ អ្នកនឹងរៀនពី៖
+## នៅក្នុងមុខវិជ្ជានេះ អ្នកនឹងរៀន៖
-- គន្លឹះស្នូលនៃការរៀនម៉ាស៊ីន
-- ប្រវត្តិការរៀនម៉ាស៊ីន
-- ការរៀនម៉ាស៊ីន និងភាពយុត្តិធម៌
-- ជំនាញ ML សម្រាប់បញ្ហាអនុគមន៍វិនិយោគ (regression)
-- ជំនាញ ML សម្រាប់ចាត់ថ្នាក់ (classification)
-- ជំនាញ ML សម្រាប់ក្រុមគ្នា (clustering)
-- ជំនាញ ML សម្រាប់ដំណើរការភាសាត្រឹមត្រូវ (natural language processing)
-- ជំនាញ ML សម្រាប់ការព្យាករណ៍ស៊េរីពេលវេលា (time series forecasting)
-- ការរៀនតាមមូលដ្ឋានការបង្រៀន (reinforcement learning)
-- ករណីប្រើប្រាស់ដែលមាននៅក្នុងពិភពជាក់ស្តែងសម្រាប់ ML
+- គំនិតមូលដ្ឋាននៃការរៀនម៉ាស៊ីន
+- ប្រវត្តិ ML
+- ML និងភាពយុត្តិធម៌
+- បច្ចេកទេស regression ML
+- បច្ចេកទេស classification ML
+- បច្ចេកទេស clustering ML
+- បច្ចេកទេស natural language processing ML
+- បច្ចេកទេស time series forecasting ML
+- reinforcement learning
+- ការអនុវត្តពិតប្រាកដសម្រាប់ ML
---
## អ្វីដែលយើងមិនគ្របដណ្តប់
-- ការរៀនជ្រៅ (deep learning)
-- បណ្តាញប្រព័ន្ធប្រតិបត្តិកម្មប្រសព្វ (neural networks)
-- បញ្ញាសិប្បនិម្មិត (AI)
+- រៀនជ្រៅ
+- បណ្ដាញប្រសាទ
+- AI
-ដើម្បីធ្វើឱ្យមានបទពិសោធន៍សិក្សាជាងនេះ យើងនឹងបម្លែងការលំបាករបស់បណ្តាញប្រព័ន្ធប្រតិបត្តិកម្ម ប្រភេទ 'deep learning' ដែលជាការសាងសង់គំរូជាច្រើនជាន់ ដោយប្រើបណ្តាញប្រព័ន្ធប្រតិបត្តិកម្ម និង AI ដែលយើងនឹងពិភាក្សាវា នៅក្នុងវគ្គផ្សេងទៀត។ យើងនឹងផ្តល់ថ្នាក់សិក្សាវិទ្យាសាស្ត្រទិន្នន័យមួយមកក្រោយដើម្បីផ្តោតលើផ្នែកនោះ។
+ដើម្បីបង្កើតបទពិសោធន៍សិក្សាល្អ យើងនឹងចៀសវាងភាពស្មុគស្មាញនៃបណ្តាញប្រសាទ, "រៀនជ្រៅ" ដែលជាការប្រើបណ្តាញប្រសាទដើម្បីកសាងម៉ូឌែលមានជ្រៅច្រើនស្រទាប់ និង AI ដែលយើងនឹងពិភាក្សានៅមុខវិជ្ជាផ្សេង។ យើងក៏នឹងផ្តល់មុខវិជ្ជាថ្មីបន្ថែមស្តីពីវិទ្យាសាស្ត្រទិន្នន័យដើម្បីផ្ដោតអារម្មណ៍លើផ្នែកនេះ។
---
-## ហេតុអ្វីបានជាអាចរៀនការរៀនម៉ាស៊ីន?
+## ប៉ុន្មានហេតុផលក្នុងការសិក្សាររៀនម៉ាស៊ីន?
-ការរៀនម៉ាស៊ីន តាមទស្សនវិជ្ជាស៊ីស្តុំ កំណត់ថាជាការបង្កើតប្រព័ន្ធស្វ័យប្រវត្តិ ដែលអាចរៀនពីលំនាំលាក់ក្នុងទិន្នន័យ ដើម្បីជួយក្នុងការបង្កើតសេចក្តីសម្រេចយុត្តិធម៌យ៉ាងមានមហិច្ឆតា។
+ការរៀនម៉ាស៊ីន យ៉ាងទូលំទូលាយ ចែងកំណត់ជា ការបង្កើតប្រព័ន្ធស្វ័យប្រវត្តដែលអាចរៀនពីលំនាំលាក់ដែលមានក្នុងទិន្នន័យ ដើម្បីជួយសម្រេចចិត្តយ៉ាងប្រាជ្ញា។
-ជំនោគនេះគឺបានទទួលការប្រៀបធៀបយ៉ាងមិនតឹងរឹងទេពីរបៀបដែលខួរក្បាលមនុស្សរៀនអ្វីមួយវាលើទិន្នន័យដែលខួរក្បាលទទួលបានពីបរិយាកាសខាងក្រៅ។
+គំនិតនេះបានបញ្ចោញដោយរបៀបដែលខួរក្បាលមនុស្សរៀនអ្វីមួយចំនួនយោងទៅលើទិន្នន័យដែលវាយល់ដឹងពីពិភពក្រៅ។
-✅ សូមគិតរយៈពេលជាមួយអ្នកមួយនាទីថា ហេតុអ្វីបានជាអាជីវកម្មចង់ប្រើវិធីសាស្រ្តការរៀនម៉ាស៊ីន ផ្ទុយពីការបង្កើតម៉ោងកូដលក្ខខណ្ឌរឹងមាំ។
+✅ គិតមួយនាទីហេតុអ្វីបានជាក្រុមហ៊ុនចង់ប្រើយុទ្ធសាស្រ្ត machine learning ជ្រើសរើសជំនួសការបង្កើតប្រព័ន្ធច្បាប់ដ៏រឹងមាំមួយ។
---
-## ការប្រើប្រាស់ការរៀនម៉ាស៊ីន
+## ហេតុអ្វីបានជា គុណភាពទិន្នន័យសំខាន់?
-កម្មវិធីនៃការរៀនម៉ាស៊ីនឥឡូវនេះមានគ្រប់ទីកន្លែង ហើយពេញលេញដូចទិន្នន័យដែលហូរៀងជុំវិញសង្គមយើង ដែលបង្កើតដោយទូរស័ព្ទដៃឆ្លាតរបស់យើង ឧបករណ៍ភ្ជាប់ និងប្រព័ន្ធផ្សេងទៀត។ ក្នុងការប្រកួតប្រជែងនៃអាល់ហ្គោរីធម៍ការរៀនម៉ាស៊ីនដ៏ទំនើប បណ្ឌិតស្រាវជ្រាវបានស្វែងយល់ពីសមត្ថភាពរបស់ពួកគេនៅក្នុងដោះស្រាយបញ្ហាជាច្រើនdimensional និង multidisciplinary នៃជីវិតពិតជាមួយលទ្ធផលវិជ្ជមានជាច្រើន។
+ទិន្នន័យគុណភាពខ្ពស់បង្កើនប្រសិទ្ធភាពម៉ូឌែល។ ទិន្នន័យអន់ ឬពេញដោយសម្លេងរំខាន អាចនាំឱ្យទន់ភាគការទាយដែលមិនត្រឹមត្រូវ ទោះបីមានការប្រើប្រាស់អាល់ហ្គរីធម៍ machine learning កម្រិតខ្ពស់ក៏ដោយ។
---
-## ឧទាហរណ៍នៃ ML ដែលបានអនុវត្ត
+## ការអនុវត្តន៍នៃ machine learning
-**អ្នកអាចប្រើប្រាស់ការរៀនម៉ាស៊ីននៅក្នុងវិធីជាច្រើន**៖
+ការអនុវត្តន៍នៃ machine learning ឥឡូវមាននៅគ្រប់ទីកន្លែង ហើយពេញលេញដូចទិន្នន័យដែលរាលដាលនៅជុំវិញសង្គមយើង ដែលបង្កើតឡើងដោយទូរស័ព្ទឆ្លាត អេក្រង់ភ្ជាប់ ប៉ុន្តែប្រាប់ថាសកម្មភាពផ្សេងៗ។ គិតសម្រាប់សក្តានុពលដ៏ធំនៃអាល់ហ្គរីធម៍ machine learning កម្រិតខ្ពស់ អ្នកស្រាវជ្រាវបានស្វែងរកសមត្ថភាពរបស់ពួកវាជួយដោះស្រាយបញ្ហាជាច្រើនមុខ ពីជំហរផ្លូវការនិងចម្រុះដោយលទ្ធផលវិជ្ជមាន។
-- ដើម្បីព្យាករណ៍អត្រាឆាប់ជម្ងឺពីប្រវត្តិវេជ្ជសាស្ត្រឬរបាយការណ៍របស់អ្នកជំងឺម្នាក់។
-- ដើម្បីប្រើទិន្នន័យអាកាសធាតុក្នុងការព្យាករណ៍លទ្ធផលអាកាសធាតុ។
-- ដើម្បីយល់ពីអារម្មណ៍នៃអត្ថបទមួយ។
-- ដើម្បីរកឃើញព័ត៌មានមិនពិត ដើម្បីបិទបាំងការផ្សាយពាណិជ្ជកម្មមិនពិត។
+---
+## ឧទាហរណ៍នៃការអនុវត្ត ML
+
+**អ្នកអាចប្រើ machine learning ដោយរបៀបជាច្រើន**៖
+
+- ដើម្បីទាយករណីជំងឺពីប្រវត្តិវេជ្ជសាស្ត្រឬរបាយការណ៍របស់អ្នកជំងឺម្នាក់។
+- ដើម្បីប្រើទិន្នន័យអាកាសធាតុទាយព្រឹត្តិការណ៍អាកាសធាតុ។
+- ដើម្បីយល់ចិត្តអារម្មណ៍របស់អត្ថបទមួយ។
+- ដើម្បីរកឃើញព័ត៌មានចេកចល ដែលគ្រប់គ្រាន់ក្នុងការបញ្ឈប់ការបញ្ចុះផ្សាយពត៌មានបច្ចុប្បន្ន។
-វិស័យហិរញ្ញវត្ថុ សេដ្ឋកិច្ច វិទ្យាសាស្ត្រផែនដី ការស្វែងរកអាកាស ការវិទ្យាសាស្ត្រពេទ្យ វិទ្យាសាស្ត្រស្មារតី និងសតិវិទ្យា និងជំនាញមួយចំនួននៅវិស័យមនុស្សវិទ្យា ក៏បានអភិវឌ្ឍការរៀនម៉ាស៊ីនដើម្បីដោះស្រាយបញ្ហាដ៏ញឹកញាប់ នៃការប្រមូលទិន្នន័យធុញទ្រាន់នូវដែនជួញដូរ។
+វិស័យហិរញ្ញវត្ថុ សេដ្ឋកិច្ច វិទ្យាសាស្ត្រប្រព័ន្ធសរីរាង្គ សិល្បៈនៃការស្វែងយល់ និងមុខវិជ្ជាមនុស្សវិទ្យា ត្រូវបានអប់រំដោយ machine learning ដើម្បីដោះស្រាយបញ្ហា ពេញនិយមមានទិន្នន័យធំ ដែលមានភាពពិបាក។
---
## សេចក្តីសន្និដ្ឋាន
-ការរៀនម៉ាស៊ីនបន្ទាន់សកម្មភាពស្វែងរកលំនាំដោយរកដំណោះស្រាយមានន័យពីទិន្នន័យពិតប្រាកដ ឬទិន្នន័យដែលបង្កើតឡើង។ វាបានបញ្ជាក់ថាមានតម្លៃខ្ពស់បំផុតក្នុងវិស័យអាជីវកម្ម សុខភាព និងហិរញ្ញវត្ថុ ជាដើម។
+ការរៀនម៉ាស៊ីន ជំនួយឱ្យដំណើរការរកឃើញលំនាំដោយស្វ័យប្រវត្តិ ដោយរកឃើញជំនាញមានន័យពីទិន្នន័យពិត ឬទិន្នន័យបង្កើតឡើង។ វាបានបង្ហាញភាពមានប្រយោជន៍ខ្ពស់នៅជំនួញ សុខភាព ហិរញ្ញវត្ថុ និងវិស័យផ្សេងទៀត។
-នៅពេលអនាគតជិតមក ការយល់ដឹងពីមូលដ្ឋាននៃការរៀនម៉ាស៊ីន នឹងក្លាយជាការដែលមនុស្សគ្រប់វិស័យតម្រូវការចង់យល់ ខ្លួនដោយសារតែកំណាត់ទោលបណ្ដាញរបស់វាត្រូវបានទទួលយកយ៉ាងទូលំទូលាយ។
+នៅពេលខាងមុខ ការយល់ដឹងពីមូលដ្ឋាននៃការរៀនម៉ាស៊ីននឹងក្លាយជាការចាំបាច់សម្រាប់មនុស្សពីគ្រប់វិស័យដោយសារតែការទទួលយកគ្រប់គ្រាន់របស់វា។
---
-# 🚀 ប défi
+# 🚀 챌린지
-គូររូបរាង លើក្រដាស ឬប្រើកម្មវិធីផ្សេងទៀតដូចជា [Excalidraw](https://excalidraw.com/), ពិចារណាអំពីភាពខុសគ្នារវាង AI, ML, ការរៀនជ្រៅ និងវិទ្យាសាស្ត្រទិន្នន័យ។ បន្ថែមគំនិតអំពីបញ្ហាណាមួយដែលបច្ចេកទេសទាំងនេះល្អក្នុងការដោះស្រាយ។
+គូររូបភាពលើក្រដាស ឬប្រើកម្មវិធីអនឡាញដូចជា [Excalidraw](https://excalidraw.com/), សម្រាប់យល់ដឹងរបស់អ្នកអំពីភាពខុសគ្នារវាង AI, ML, រៀនជ្រៅ និងវិទ្យាសាស្ត្រទិន្នន័យ។ បន្ថែមគំនិតបញ្ហាមួយចំនួនដែលបច្ចេកទេសទាំងនេះឆាប់សម្រួលក្នុងការដោះស្រាយ។
-# [សំណួរតេស្តបន្ទាប់ថ្នាក់](https://ff-quizzes.netlify.app/en/ml/)
+# [សំណួរបន្ទាប់វគ្គសិក្សា](https://ff-quizzes.netlify.app/en/ml/)
---
-# ការពិនិត្យឡើងវិញ និងសិក្សាឯករាជ្យ
+# ការត្រួតពិនិត្យ និងការសិក្សាឯកោ
-ដើម្បីរៀនបន្ថែមអំពីរបៀបដែលអ្នកអាចធ្វើការជាមួយអាល់ហ្គោរីធម៍ ML នៅក្នុងពពក សូមអនុវត្តតាម [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) នេះ។
+ដើម្បីស្វែងយល់បន្ថែមអំពីរបៀបដែលអ្នកអាចធ្វើការជាមួយអាល់ហ្គរីធម៍ ML នៅក្នុងមេฆា ត្រូវតាមដាន [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) នេះ។
ចូលរួម [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) អំពីមូលដ្ឋាននៃ ML។
---
-# ផ្ដល់ការងារ
+# ការចាត់តាំង
-[ចាប់ផ្ដើមដំណើរការ](assignment.md)
+[ចាប់ផ្តើមរត់](assignment.md)
---
-**ការបញ្ជាក់**៖
-ឯកសារនេះត្រូវបានបកប្រែដោយប្រើសេវាកម្មបកប្រែ AI [Co-op Translator](https://github.com/Azure/co-op-translator)។ ទោះយើងព្យាយាមធ្វើឲ្យមានភាពត្រឹមត្រូវ នោះទេ សូមយល់ដឹងថាការបកប្រែដោយស្វ័យប្រវត្តិអាចមានកំហុស ឬភាពមិនត្រឹមត្រូវខ្លះ។ ឯកសារដើមជាភាសាជាតិនៃឯកសារនោះគួរត្រូវបានទទួលស្គាល់ថាជាភស្តុតាងផ្លូវការជាចម្បង។ សម្រាប់ព័ត៌មានសំខាន់ៗ អនុញ្ញាតឲ្យមានការបកប្រែដោយអ្នកជំនាញមនុស្សជំនាញ។ យើងមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកប្រែច្រឡំណាមួយដែលកើតឡើងពីការប្រើប្រាស់ការបកប្រែនេះទេ។
+**ការបដិសេធ**:
+ឯកសារនេះត្រូវបានបម្លែងភាសា ដោយប្រើសេវាបម្លែងភាសា AI [Co-op Translator](https://github.com/Azure/co-op-translator)។ ទោះយើងខ្ញុំមានក្តីប្រាថ្នាឱ្យបានច្បាស់លាស់ តែសូមយល់ដឹងថាការបម្លែងដោយស្វ័យប្រវត្តិក៏អាចមានកំហុសឬភាពមិនត្រឹមត្រូវ។ ឯកសារដើមជាភាសាទីតាំងគួរត្រូវបានគេប្រើជាប្រភពច្បាស់លាស់។ សម្រាប់ព័ត៌មានសំខាន់ៗ សូមណែនាំឱ្យប្រើប្រាស់ការប្រែដោយមនុស្សជំនាញ។ យើងខ្ញុំមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកស្រាយខុសបន្ទាប់ពីការប្រើប្រាស់ការបម្លែងនេះនោះទេ។
\ No newline at end of file
diff --git a/translations/km/5-Clustering/1-Visualize/README.md b/translations/km/5-Clustering/1-Visualize/README.md
index 77249b639..e22f5c1d7 100644
--- a/translations/km/5-Clustering/1-Visualize/README.md
+++ b/translations/km/5-Clustering/1-Visualize/README.md
@@ -1,115 +1,116 @@
-# សេចក្ដីផ្តើមអំពីការចែកទំព័រ
+# ការណែនាំអំពីការបែងចែកក្រុម
-ការចែកទំព័រជាប្រភេទ [ការសិក្សាឥតគ្រប់គ្រង](https://wikipedia.org/wiki/Unsupervised_learning) ដែលគិតថា អាសយដ្ឋានទិន្នន័យមួយគ្មានស្លាក ឬថា បញ្ចូលរបស់វាមិនបានផ្គូរផ្គងជាមួយលទ្ធផលដែលកំណត់រួចជាស្រេច។ វាប្រើប្រាស់អាល់ហ្គរីធម៍ផ្សេងៗ ដើម្បីខ្វះខាតតាមទិន្នន័យគ្មានស្លាក និងផ្តល់ការបែងចែកតាមលំនាំដែលវាស្គាល់បានក្នុងទិន្នន័យ។
+ការបែងចែកក្រុមគឺជាប្រភេទនៃការសិក្សាដោយគ្មានការត្រួតពិនិត្យ ([Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning)) ដែលទាយថា ឯកសារទិន្នន័យមិនមានស្លាក ឬថា ទិន្នន័យបញ្ចូលរបស់វាមិនត្រូវបានតភ្ជាប់ជាមួយនឹងលទ្ធផលដែលបានកំណត់ជាមុន។ វាប្រើអាល់ហ្គோரីធម៍ផ្សេងៗដើម្បីចម្រោះតាមទិន្នន័យគ្មានស្លាក និងផ្តល់ការបែងចែកជាក្រុមតទៅតាមលំនាំដែលវាសង្កេតឃើញក្នុងទិន្នន័យ។
[](https://youtu.be/ty2advRiWJM "No One Like You by PSquare")
-> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ។ ខណៈពេលដែលអ្នកកំពុងសិក្សាអំពីការសិក្សាម៉ាស៊ីនជាមួយការចែកទំព័រ សូមរីករាយជាមួយបទចម្រៀង Dance Hall នៃប្រទេសណាយហ្សេរី - នេះជាបទដែលមានការវាយតម្លៃខ្ពស់បំផុតពីឆ្នាំ ២០១៤ ដោយ PSquare។
+> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ។ ខណៈពេលដែលអ្នកកំពុងរៀនម៉ាស៊ីនរៀនជាមួយការបែងចែកក្រុម សូមរីករាយជាមួយបទចម្រៀង Dance Hall នៃប្រទេស Nigeria – នេះគឺជាបទចម្រៀងដែលមានការវាយតម្លៃខ្ពស់ពីឆ្នាំ 2014 ដោយ PSquare។
-## [សំណួរលទ្ធផលមុនជំនอบ](https://ff-quizzes.netlify.app/en/ml/)
+## [សំនួរតេស្តមុនអធិប្បាយ](https://ff-quizzes.netlify.app/en/ml/)
-### សេចក្ដីផ្តើម
+### ការណែនាំ
-[ការចែកទំព័រ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) មានប្រយោជន៍ខ្លាំងសម្រាប់ការស្វែងរកទិន្នន័យ។ មកមើលថាវាអាចជួយរកឃើញនិន្នាការនិងលំនាំក្នុងរបៀបដែលអ្នកទស្សនាណាយហ្សេរីប្រើប្រាស់តន្ត្រី។
+[ការបែងចែកក្រុម](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) មានប្រយោជន៍ខ្លាំងសម្រាប់ការស្វែងយល់ទិន្នន័យ។ យើងមកមើលថា តើវាអាចជួយរកឃើញនិន្នាការនិងលំនាំនៅវិធីដែលអ្នកស្តាប់ភ្លេងកម្ពុជាស៊ីវ៉េងហ្សិកប៍រមកបានយ៉ាងដូចម្តេច។
-✅ ចំណាយពេលមួយនាទី ដើម្បីគិតពីការប្រើប្រាស់ចែកទំព័រ។ ក្នុងជីវិតពិត ការចែកទំព័រកើតឡើងពេលដែលអ្នកមានសំលៀកបំពាក់មិនកខ្វះ និងត្រូវរុំសំលៀកបំពាក់របស់សមាជិកគ្រួសារ 🧦👕👖🩲។ ក្នុងវិទ្យាសាស្ត្រទិន្នន័យ ការចែកទំព័រកើតឡើងពេលកំពុងព្យាយាមវិភាគចំណូលចិត្តរបស់អ្នកប្រើ ឬកំណត់លក្ខណៈពិសេសនៃឯកសារទិន្នន័យគ្មានស្លាកមួយ។ ការចែកទំព័រជាទម្រង់មួយជួយធ្វើអោយមានការយល់ដឹងអំពីអ្វីដែលមិនប្រក្រតី ដូចជាប្រអប់ស្បែកជើង។
+✅ ចំណាយពេលមួយនាទីគិតអំពីប្រយោជន៍នៃការបែងចែកក្រុម។ ក្នុងជីវិតពិត ការបែងចែកក្រុមកើតឡើងខណៈដែលអ្នកមានចំណុចគ្រប់យ៉ាងនៃការកក់ស្បែក ហើយត្រូវតែចម្រោះសម្លៀកបំពាក់របស់សមាជិកគ្រួសាររបស់អ្នក 🧦👕👖🩲។ ក្នុងវិទ្យាសាស្ត្រទិន្នន័យ ការបែងចែកក្រុមកើតឡើងពេលខល្បងវិភាគចំណូលចិត្តរបស់អ្នកប្រើ ហើយកំណត់លក្ខណៈនៃឯកសារទិន្នន័យគ្មានស្លាក។ ការបែងចែកក្រុម ជួយបំភ្លឺន័យចម្រង់ដូចជាប្រអប់ស្រោមជើងស្បែក។
[](https://youtu.be/esmzYhuFnds "Introduction to Clustering")
-> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ: John Guttag នៃ MIT ផ្តល់បង្ហាញអំពីការចែកទំព័រ
+> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ៖ John Guttag របស់ MIT គឺណែនាំអំពីការបែងចែកក្រុម
-នៅក្នុងបរិបទវិជ្ជាជីវៈ ការចែកទំព័រអាចប្រើសម្រាប់កំណត់របស់ដូចជា បំបែកទីផ្សារ កំណត់អាយុក្រុមដែលទិញទំនិញណាមួយ ជាដើម។ ការប្រើប្រាស់មួយផ្សេងទៀតគឺកំណត់ការរកឃើញករណីបញ្ហា ដូចជាការរកឃើញការលួចសារ ប្រសិនបើមានទិន្នន័យប្រតិបត្តិការកាតឥណទាន។ ឬអ្នកអាចប្រើការចែកទំព័រដើម្បីកំណត់ឆៅនៅក្នុងស្កេនវេជ្ជសាស្ត្រជាច្រើន។
+នៅក្នុងបរិដ្ឋានវិជ្ជាជីវៈ ការបែងចែកក្រុមអាចប្រើសម្រាប់កំណត់ចំណែកទីផ្សារ កំណត់ថា តើក្រុមអាយុណាដែលទិញមុខទំនិញណា ឧទាហរណ៍។ ប្រើសម្រាប់រកករណីប្លែកៗ ឧត្តមសម្រាប់រកការលួចបន្លំពីកម្រិតទិន្នន័យប្រតិបត្តិការកាតឥណទាន។ ឬអ្នកអាចប្រើការបែងចែកក្រុមដើម្បីច្បាស់លាស់ភាពមានមហារីកក្នុងឯកសារស្កែនវេជ្ជសាស្រ្តមួយ។
-✅ ចំណាយពេលមួយនាទីគិតពីរបៀបដែលអ្នកប្រហែលជាបានប្រទះមកការចែកទំព័រ 'ក្នុងធម្មជាតិ' នៅក្នុងបរិបទធនាគារ អ៊ី-ម៉ាស៊ីនបំពង់ ឬអាជីវកម្ម។
+✅ ចំណាយពេលមួយនាទីគិតពីវិធីដែលអ្នកបានជួបប្រទៈជាមួយការបែងចែកក្រុមក្នុងបរិដ្ឋានធម្មជាតិ ដូចជា ធនាគារ, ពាណិជ្ជកម្មអេឡិចត្រូនិក, ឬអាជីវកម្ម។
-> 🎓 វិជ្ជាជីវៈដែលគួរឲ្យចាប់អារម្មណ៍ ការវិភាគក្រុមត្រូវបានចាប់ផ្តើមនៅក្នុងដែនវិទ្យាសាស្ត្រអង់ត្រូប្យូឡូជី និង ហ្សីកូឡូជី ក្នុងឆ្នាំ ១៩៣០។ តើអ្នកអាចស្រមៃថាវាបានប្រើប្រាស់ដូចម្តេច?
+> 🎓 ចំនុចគួរចាប់អារម្មណ៍ គឺការវិភាគក្រុមបានចាប់ផ្តើមនៅក្នុង វិស័យ Anthropology និង Psychology ក្នុងឆ្នាំ 1930។ តើអ្នកអាចស្រមៃថាវាត្រូវបានប្រើយ៉ាងដូចម្តេច?
-ផ្សេងទៀត អ្នកអាចប្រើសម្រាប់ក្រុមលទ្ធផលស្វែងរក - តាមតំណភ្ជាប់ទំនិញ រូបភាព ឬ ការវាយតម្លៃ ជាដើម។ ការចែកទំព័រមានប្រយោជន៍ពេលអ្នកមានទិន្នន័យធំដែលអ្នកចង់បន្ថយ ហើយចង់អនុវត្តវិភាគលម្អិតជាងនេះ ដូច្នេះបច្ចេកវិទ្យានេះអាចប្រើសម្រាប់រៀនអំពីទិន្នន័យមុនពេលម៉ូដែលផ្សេងទៀតត្រូវបានបង្កើត។
+ក្នុងករណីផ្សេងទៀត អ្នកអាចប្រើវាសម្រាប់បែងចែកលទ្ធផលស្វែងរក - ជាដំណាក់កាលផ្ដោតតាមតំណភ្ជាប់ទំនិញ, រូបភាព, ឬការវាយតម្លៃ។ ការបែងចែកក្រុមមានប្រយោជន៍ខ្លាំងនៅពេលដែលអ្នកមានទិន្នន័យច្រើនដែលអ្នកចង់កាត់បន្ថយ ហើយធ្វើការវិភាគជាមុខងារជ្រាលជ្រៅបន្ថែម ដូច្នេះបច្ចេកទេសនេះអាចប្រើសម្រាប់រៀនអំពីទិន្នន័យ មុនពេលថតម៉ូដែលផ្សេងៗ។
-✅ ពេលទិន្នន័យរបស់អ្នកត្រូវរៀបចំជាក្រុម អ្នកផ្ដល់លេខសម្គាល់ក្រុម ហើយបច្ចេកទេសនេះអាចមានប្រយោជន៍ពេលរក្សាទុកឯកជនភាពនៃទិន្នន័យ; អ្នកអាចយោងទៅតាមចំណុចទិន្នន័យដោយលេខសម្គាល់ក្រុមជំនួស លេខសម្គាល់ដែលបង្ហាញអត្តសញ្ញាណខ្លះៗជាងនេះ។ តើអ្នកអាចគិតមូលហេតុផ្សេងទៀតដែលអ្នកនឹងយោងលេខសម្គាល់ក្រុមជំនួសធាតុផ្សេងៗក្នុងក្រុមដើម្បីកំណត់វា?
+✅ បន្ទាប់ពីទិន្នន័យរបស់អ្នកត្រូវបានរៀបចំក្នុងក្រុម អ្នកបែងចែកវាជា ID ក្រុម ហើយបច្ចេកទេសនេះអាចមានប្រយោជន៍នៅពេលរក្សាអាហារូបត្ថម្ភនៃទិន្នន័យ; អ្នកអាចយោងទៅកាន់ចំណុចទិន្នន័យដោយ ID ក្រុម ជំនួសទៅនឹងប្រើទិន្នន័យដែលបង្ហាញអត្តសញ្ញាណ។ តើអ្នកអាចគិតអំពីមូលហេតុផ្សេងទៀតហើយហេតុអ្វីបានជាជ្រើសយោង ID ក្រុមជាជំនួសវត្ថុផ្សេងទៀតក្នុងក្រុមដើម្បីកំណត់វា?
-ពង្រីកការយល់ដឹងរបស់អ្នកអំពីបច្ចេកទេសចែកទំព័រនៅក្នុង [មូឌុលរៀននេះ](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott)
-## ការចាប់ផ្តើមជាមួយការចែកទំព័រ
+បន្ថែមការយល់ដឹងរបស់អ្នកអំពីបច្ចេកទេសបែងចែកក្រុមក្នុងមេឡឺន [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott)
-[Scikit-learn ផ្ដល់ជម្រើសធំទូលាយ](https://scikit-learn.org/stable/modules/clustering.html) នៃវិធីសាស្ត្រដើម្បីអនុវត្តការចែកទំព័រ។ ប្រភេទដែលអ្នកជ្រើសរើសនឹងអាស្រ័យលើការប្រើប្រាស់របស់អ្នក។ គោលបំណងផ្អែកលើឯកសារយោង នីតិវិធីមួយៗមានអត្ថប្រយោជន៍ជាច្រើន។ ទីនេះគឺជាតារាងសាមញ្ញនៃវិធីដែល Scikit-learn គាំទ្រ និងករណីប្រើប្រាស់សមរម្យ៖
+## ការចាប់ផ្តើមជាមួយការបែងចែកក្រុម
-| ឈ្មោះវិធីសាស្ត្រ | ករណីប្រើប្រាស់ |
-| :------------------------------ | :-------------------------------------------------------------------- |
-| K-Means | ប្រើទូទៅ ជាវិធីចូលពីមុខ |
-| Affinity propagation | ក្រុមច្រើន មិនស្មើរ ជាវិធីចូលពីមុខ |
-| Mean-shift | ក្រុមច្រើន មិនស្មើរ ជាវិធីចូលពីមុខ |
-| Spectral clustering | ក្រុមកាត់សរុប មួយចំនួន ស្មើរ ជាវិធីប្រើផ្ទាល់ |
-| Ward hierarchical clustering | ក្រុមច្រើន មានកំណត់ ជាវិធីប្រើផ្ទាល់ |
-| Agglomerative clustering | ក្រុមច្រើន មានកំណត់ ចម្ងាយមិនមែន Euclidean ជាវិធីប្រើផ្ទាល់ |
-| DBSCAN | ជីមេត្រីមិនស្មើរ មិនស្មើរ ជាវិធីប្រើផ្ទាល់ |
-| OPTICS | ជីមេត្រីមិនស្មើរ មិនស្មើរជាមួយដង់ស៊ីតេចម្រុះ ជាវិធីប្រើផ្ទាល់ |
-| Gaussian mixtures | ជីមេត្រីស្មើរ ជាវិធីចូលពីមុខ |
-| BIRCH | ទិន្នន័យធំពីរដុំជាមួយ outliers ជាវិធីចូលពីមុខ |
+[Scikit-learn ផ្ដល់ជូននូវវីធីផ្សេងៗ](https://scikit-learn.org/stable/modules/clustering.html) សម្រាប់បំពេញការបែងចែកក្រុម។ ប្រភេទដែលអ្នកជ្រើសរើសនឹងអាស្រ័យលើការប្រើប្រាស់របស់អ្នក។ យោងតាមឯកសារ ចំណុចផ្សេងគ្នានៃមាគ៌ាមួយៗមានអត្ថប្រយោជន៍ខុសៗគ្នា។ នេះគឺជាបារាំងតារាងសាមញ្ញនៃវិធីសាស្ត្រ ដែលស្គីតឡើនគាំទ្រ និងករណីប្រើប្រាស់សមរម្យរបស់ពួកវា៖
-> 🎓 របៀបយើងបង្កើតក្រុមមានទំនាក់ទំនងយ៉ាងខ្លាំងជាមួយរបៀបយើងបម្លែងចំណុចទិន្នន័យទៅជាក្រុម។ មកពន្យល់ពាក្យមួយចំនួន៖
+| ឈ្មោះវិធីសាស្ត្រ | ករណីប្រើ |
+| :--------------------------- | :----------------------------------------------------------------- |
+| K-Means | គោលបំណងទូទៅ, inductive |
+| Affinity propagation | ក្រុមច្រើន, មិនស្មើ, inductive |
+| Mean-shift | ក្រុមច្រើន, មិនស្មើ, inductive |
+| Spectral clustering | ក្រុមតិច, ស្មើ, transductive |
+| Ward hierarchical clustering | ក្រុមច្រើន, ដាក់កំណត់, transductive |
+| Agglomerative clustering | ក្រុមច្រើន, ដាក់កំណត់, បំបែកប្រភេទអេយូស៍ Euclidean, transductive |
+| DBSCAN | គំនរផ្ទៃមិនស្មើ, ក្រុមមិនស្មើ, transductive |
+| OPTICS | គំនរផ្ទៃមិនស្មើ, ក្រុមមិនស្មើជាមួយសំបុត្រផ្ទឹងខុសៗគ្នា, transductive |
+| Gaussian mixtures | គំនរផ្ទៃស្មើ, inductive |
+| BIRCH | ឯកសារទិន្នន័យធំជាមួយច្រេីន, inductive |
+
+> 🎓 របៀបដែលយើងបង្កើតក្រុមពាក់ព័ន្ធយ៉ាងខ្លាំងនឹងរបៀបយើងប្រមូលចំណុចទិន្នន័យទៅជាក្រុម។ យើងមកពន្យល់ពាក្យគន្លឹះ៖
>
-> 🎓 ['ប្រភេទប្រើផ្ទាល់' ទល់នឹង 'ចូលពីមុខ'](https://wikipedia.org/wiki/Transduction_(machine_learning))
+> 🎓 ['Transductive' ទល់នឹង 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))
>
-> ការអនុវត្តប្រភេទប្រើផ្ទាល់ចេញមកពីករណីបណ្តុះបណ្តាលដែលត្រូវម៉េចទៅករណីតេស្តជាក់លាក់។ ការអនុវត្តចូលពីមុខចេញពីករណីបណ្តុះបណ្តាលដែលប្រើទៅលក្ខណៈទូទៅ ហើយបន្ទាប់មកអនុវត្ដទៅករណីតេស្ត។
+> ការសន្និដ្ឋានតាមការបញ្ជូន (transductive inference) នៅលើករណីបណ្តុះបណ្តាលដែលតភ្ជាប់ទៅករណីសាកល្បងជាក់លាក់។ ការសន្និដ្ឋានអនុគមន៍ (inductive inference) គឺចេញពីករណីបណ្តុះបណ្តាលដែលដាក់ចេញជាការតំលើងទង្វើទូទៅ ហើយបន្ទាប់មកអនុវត្តទៅករណីសាកល្បង។
>
-> ឧទាហរណ៍៖ សូមស្រមៃថាអ្នកមានទិន្នន័យដែលមានស្លាកតិចតួច។ អ្វីខ្លះជារេកតិត (records), អ្វីខ្លះជាលីបស៊ីឌី (cds), ហើយអ្វីខ្លះទៀតទទេ។ ការងាររបស់អ្នកគឺផ្ដល់ស្លាកមកសម្រាប់អ្វីទទេ។ ប្រសិនបើអ្នកជ្រើសរើសវិធីចូលពីមុខ អ្នកនឹងបង្ហាត់ម៉ូដែលស្វែងរករេកតិត និងលីបស៊ីឌី ហើយអនុវត្តស្លាកទាំងនោះទៅលើទិន្នន័យគ្មានស្លាក។ វិធីនេះនឹងមានបញ្ហាក្នុងការបែងចែកវត្ថុដែលពិតជាជាស៊ីស៊ីត (cassettes)។ តាមផ្ទុយ, វិធីប្រើផ្ទាល់មានសមត្ថភាពច្រើនក្នុងការដោះស្រាយទិន្នន័យមិនស្គាល់ ដោយវាធ្វើការបែងចែកវត្ថុដូចគ្នាជាក្រុម ហើយបន្ទាប់មកផ្ដល់ស្លាកទៅក្រុម។ ក្នុងករណីនេះ ក្រុមអាចបង្ហាញថាអ្វីដែលជាវត្ថុនឹងទំនាក់ទំនងទៅនឹងតន្ត្រីធ្វើដូចជា 'រង្វង់តន្ត្រី' និង 'ការ៉េតន្ត្រី'។
+> ឧទាហរណ៍៖ សូមគំនិតថា អ្នកមានទិន្នន័យដែលមានស្លាកមួយផ្នែកប៉ុណ្ណោះ។ មានវត្ថុជារបាំង, ស៊ីឌី, និងខាំស្កិច។ ការងាររបស់អ្នកគឺផ្ដល់ស្លាកទៅវត្ថុខាំស្កិចទទេ។ ប្រសិនបើអ្នកជ្រើសរើសវិធីសាស្ត្រអនុគមន៍ អ្នកនឹងបណ្តុះម៉ូដែលស្វែងរក 'របាំង' និង 'ស៊ីឌី' ហើយផ្ដល់ស្លាកទៅទិន្នន័យគ្មានស្លាក។ វិធីសាស្ត្រនេះប្រឈមមុខនឹងការលំបាកក្នុងការបែងចែកវត្ថុពិតជាជាទម្រង់ 'កាសែត'។ វិធីសាស្ត្រតាមការបញ្ជូន ប្រញាប់ប្រញាល់ដោះស្រាយទិន្នន័យមិនស្គាល់វា ដោយវាធ្វើការបែងចែកវត្ថុដែលស្រដៀងគ្នាទៅក្នុងក្រុម ហើយបន្ទាប់មកផ្ដល់ស្លាកទៅក្រុម។ ក្នុងករណីនេះ ក្រុមអាចបង្ហាញ 'វត្ថុភ្លេងរង្វង់' និង 'វត្ថុកែង'។
>
-> 🎓 ['ជីមេត្រីមិនស្មើ' ទល់នឹង 'ជីមេត្រីស្មើ'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
+> 🎓 ['គំនរមិនស្មើ' ទល់នឹង 'គំនរស្មើ'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
>
-> ប្រភពលើកទឹកចិត្តពីពាក្យគណិតវិទ្យា ជីមេត្រមិនស្មើ និងជីមេត្រីស្មើ បង្ហាញពីវិធីវាស់ចម្ងាយរវាងចំណុច ដោយប្រើវិធីជីមេត្រស្មើ ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) ឬ មិនស្មើ (non-Euclidean)។
+> កាន់តាមគណិតវិទ្យា គំនរមិនស្មើ និង គំនរស្មើ បញ្ជាក់ពីវិធីវាស់ចម្ងាយរវាងចំណុចដោយវិធី គំនរស្មើ ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) ឬ គំនរមិនស្មើ (non-Euclidean)។
>
->'ជីមេត្រីស្មើ' មានន័យជាជីមេត្រយូក្លីដ (ដែលផ្នែកមួយត្រូវបានបង្រៀនជាជីមេត្រប្លែន), ខណៈដែលជីមេត្រមិនស្មើមានន័យជាជីមេត្រមិនយូឃ្លីដ។ តើជីមេត្រមានទំនាក់ទំនងយ៉ាងដូចម្តេចជាមួយការសិក្សាម៉ាស៊ីន? ជាផ្នែកមួយនៃវិស័យវិទ្យាសាស្ត្រគណិតវិទ្យា ត្រូវមានវិធីសម្រាប់វាស់ចម្ងាយរវាងចំណុចនៅក្នុងក្រុម និងវា អាចធ្វើបានក្នុងរបៀប 'ស្មើ' ឬ 'មិនស្មើ' ដោយហេតុផលពីធម្មជាតិនៃទិន្នន័យ។ [ចម្ងាយយូឃ្លីដ](https://wikipedia.org/wiki/Euclidean_distance) គឺវាស់ថាវែងបន្ទាត់រវាងចំណុចពីរដុល។ [ចម្ងាយមិនយូឃ្លីដ](https://wikipedia.org/wiki/Non-Euclidean_geometry) គឺវាស់ជាប្រវែងតាមខ្សែវង់។ ប្រសិនបើទិន្នន័យរបស់អ្នក, ដែលបានបង្ហាញរូបមន្ត, មិនមានលំនាំស្មើផ្លែនទេ អ្នកប្រហែលជាត្រូវប្រើអាល់ហ្គរីធម៍ពិសេសមួយដើម្បីដោះស្រាយវា។
+> 'គំនរស្មើ' ក្នុងបរិបទនេះគឺ Euclidean (ផ្ទៃផែនទី), ហើយគំនរមិនស្មើគឺ non-Euclidean។ តើគំនរ និង ម៉ាស៊ីនរៀនមានចំនាក់ទំនងយ៉ាងដូចម្តេច? ដោយសារទាំងពីរជាវិស័យដែលដើមកំណើតពីគណិតវិទ្យា នោះវាត្រូវមានវិធីវាស់ចម្ងាយរវាងចំណុចក្នុងក្រុម ដោយរបៀបគំនរស្មើ ឬ គំនរមិនស្មើ ប្រែក្លាយតាមលក្ខណៈទិន្នន័យ។ [ចម្ងាយ Euclidean](https://wikipedia.org/wiki/Euclidean_distance) វាស់ជាប្រវែងខ្សែរវាងចំណុចពីរដោយផ្ទាល់។ [ចម្ងាយ non-Euclidean](https://wikipedia.org/wiki/Non-Euclidean_geometry) វាស់តាមខ្សែរ曲។ ប្រសិនបើទិន្នន័យរបស់អ្នក មើលទៅមិនស្ថិតលើផែនទីផ្ទាល់ នោះ អ្នកប្រហែលជាត្រូវការប្រើអាល់ហ្គរីធម៍ពិសេសសម្រាប់ដោះស្រាយវា។
>

-> រូបភាពបង្ហាញដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded)
->
+> រូបភាពដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded)
+>
> 🎓 ['ចម្ងាយ'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)
+>
+> ក្រុមត្រូវបានកំណត់ដោយម៉ាទ្រីចចម្ងាយរវាងចំណុច។ ចម្ងាយឈ្មោះ Euclidean គឺដោយជម្រាលតម្លៃមធ្យមនៃចំណុច និងមាន 'centroid' ឬចំណុចមួយកណ្តាល។ ចម្ងាយវាស់តាមចម្ងាយទៅកាន់ centroid នោះ។ ចម្ងាយ non-Euclidean មានការតំរៀបជាក្រុម 'clustroids' ដែលជាចំណុចអាចជិតច្រើនចំណុចផ្សេងទៀត។ Clustroids មានវិធីកំណត់ខុសៗគ្នា។
>
-> ក្រុមត្រូវបានកំណត់ដោយ ម៉ាទ្រីចចម្ងាយរបស់ពួកវា ពិរុទ្ធជា ចម្ងាយរវាងចំណុច។ ចម្ងាយនេះអាចវាស់បានជាច្រើនវិធី។ ក្រុមយូឃ្លីដត្រូវបានកំណត់ដោយមធ្យមនៃតម្លៃចំណុច ហើយមាន 'ចំណុចកណ្តាល' ឬចំណុចមជ្ឈមណ្ឌល។ ចម្ងាយត្រូវវាស់ដោយចម្ងាយទៅរកចំណុចមជ្ឈមណ្ឌលនោះ។ ចម្ងាយមិនយូឃ្លីដត្រូវបានទាក់ទងទៅនឹង 'clustroids' ដែលជាចំណុចនៅជិតចំណុចផ្សេងទៀតបំផុត។ Clustroids អាចត្រូវបានកំណត់ដោយវិធីផ្សេងៗ។
->
-> 🎓 ['មានកំណត់'](https://wikipedia.org/wiki/Constrained_clustering)
->
-> [Constrained Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) ណែនាំការសិក្សាជាដំណែកធ្វើយូរអចលន៍ទៅវិធីសាស្ត្រឥតគ្រប់គ្រងនេះ។ អត្ថិភាពរវាងចំណុចត្រូវបានពិនិត្យថា 'មិនអាចភ្ជាប់' ឬ 'ត្រូវភ្ជាប់' ដូច្នេះ ឬជាការបង្ខំច្បាប់លើទិន្នន័យ។
->
->ឧទាហរណ៍៖ ប្រសិនបើអាល់ហ្គរីធម៍ត្រូវបានដាក់ឲ្យប្រើលើឈុតទិន្នន័យដែលគ្មានស្លាក ឬស្លាកប៉ុន្មានភាគ ក្រុមដែលវាបង្កើតឡើងអាចមានគុណភាពទាប។ ក្នុងឧទាហរណ៍ខាងលើ ក្រុមអាចបែងចែកជា 'រង្វង់តន្ត្រី', 'ការ៉េចតន្ត្រី', 'បីកោណ' និង 'ខូចខាត'។ ប្រសិនបើមានកំណត់ ឬច្បាប់ ("វត្ថុត្រូវបានផលិតពីប្លាស្ទិច", "វត្ថុត្រូវមានសមត្ថភាពបង្កើតតន្ត្រី") នេះជួយច្រោះអាល់ហ្គរីធម៍ឲ្យជ្រើសរើសល្អជាង។
+> 🎓 ['ដាក់កំណត់'](https://wikipedia.org/wiki/Constrained_clustering)
>
-> 🎓 'ដង់ស៊ីតេ'
+> [ការបែងចែកក្រុមដាក់កំណត់](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) បញ្ចូលការសិក្សា 'semi-supervised' ទៅក្នុងវិធានការដោយគ្មានការត្រួតពិនិត្យនេះ។ ទំនាក់ទំនងរវាងចំណុចត្រូវបានមើលថាជា 'មិនអាចភ្ជាប់' ឬ 'ត្រូវភ្ជាប់' ដើម្បីដាក់កំណត់ច្បាស់លាស់លើទិន្នន័យ។
>
-> ទិន្នន័យដែលមាន 'សំឡេងរំខាន' ត្រូវបានកំណត់ថា 'ដង់ស៊ីតេ'។ ចម្ងាយរវាងចំណុចក្នុងក្រុមមួយៗអាចបង្ហាញថា ដង់ស៊ីតេ ឬ 'ម៉ាស៊ីនជ្រៅ' ហើយទិន្នន័យនេះត្រូវបានវាយតម្លៃជាមួយវិធីចែកទំព័រដែលសមរម្យ។ [អត្ថបទនេះ](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) បង្ហាញខុសគ្នារវាងការប្រើប្រាស់ K-Means និងអាល់ហ្គរីធម៍ HDBSCAN ដើម្បីស្វែងរកទិន្នន័យដែលមានសំលេងរំខានជាមួយដង់ស៊ីតេចម្រុះ។
+> ឧទាហរណ៍៖ ប្រសិនបើអាល់ហ្គរីធម៍ត្រូវបញ្ចេញការងារនៅលើទិន្នន័យគ្មានស្លាក ឬជាក់ស្តែងខ្លះនៃស្លាក ក្រុមដែលបានបង្កើតអាចមានគុណភាពខ្សោយ។ ក្នុងឧទាហរណ៍ខាងលើ ក្រុមអាចបែងចែកជា 'វត្ថុភ្លេងរង្វង់', 'វត្ថុកែង', 'វត្ថុកោងត្រី', និង 'គុយគុយ'។ ប្រសិនប្រសើរបំពាន ន័យដូចជា ("វត្ថុត្រូវតែផលិតពីផ្លាស្ទិច", "វត្ថុខ្លះត្រូវតែផលិតសំលេង") វាអាចជួយ 'ដាក់កំណត់' អាល់ហ្គរីធម៍ឲ្យធ្វើជម្រើសល្អជាងមុន។
+>
+> 🎓 'ភាពខ្លាញ់'
+>
+> ទិន្នន័យដែល 'រញ្លៀត' ត្រូវបានគេពិនិត្យថា 'ខ្លាញ់'។ ចម្ងាយរវាងចំណុចនៅក្នុងក្រុមមួយៗអាចបង្ហាញថាខ្លាញ់ឬច្របូកច្របល់ ហើយទិន្នន័យនេះត្រូវបានវិភាគជាមួយវិធីបែងចែកក្រុមសមរម្យ។ [អត្ថបទនេះ](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) បង្ហាញពីភាពខុសគ្នារវាងការប្រើ K-Means clustering និង HDBSCAN ដើម្បីស្វែងយល់ទិន្នន័យរញ្លៀតដែលមានភាពខ្លាញ់ខុសៗគ្នា។
-## អាល់ហ្គរីធម៍ចែកទំព័រ
+## អាល់ហ្គរីធម៍បែងចែកក្រុម
-មានអាល់ហ្គរីធម៍ចែកទំព័រលើស ១០០ គឺ ដោយប្រើប្រាស់គឺអាស្រ័យលើធម្មជាតិនៃទិន្នន័យ។ នេះជាការពិភាក្សាអំពីខ្លះៗនៃអាល់ហ្គរីធម៍សំខាន់ៗ៖
+មានអាល់ហ្គរីធម៍បែងចែកក្រុមជាង 100 និងការប្រើប្រាស់របស់ពួកវាអាស្រ័យលើលក្ខណៈទិន្នន័យ។ យើងមកពិភាក្សាពីអាល់ហ្គរីធម៍សំខាន់ៗ៖
-- **ការចែកទំព័រប្រភេទលំដាប់លំដោយ**។ ប្រសិនបើវត្ថុត្រូវបានចាត់ថ្នាក់ដោយភាពជិតស្និទ្ធទៅអ្វីដែលនៅជិតវា ជំនួសការជិតទៅវត្ថុចម្ងាយជាង ពួកក្រុមត្រូវបានបង្កើតឡើង ដោយផ្អែកលើចម្ងាយរវាងសមាជិកទៅនឹងវត្ថុផ្សេងៗ។ ការចែកទំព័រអាហ្គ្លូម៉ើត៊ីវរបស់ Scikit-learn គឺប្រភេទលំដាប់លំដោយ។
+- **ការបែងចែកក្រុមរាយត្រី**។ ប្រសិនបើវត្ថុត្រូវបានចាត់ថ្នាក់ដោយជិតស្និទ្ធទៅកាន់វត្ថុជិតខាង ជាងទៅវត្ថុឆ្ងាយ ក្រុមនឹងបង្កើតផ្អែកលើចម្ងាយរបស់សមាជិកទៅកាន់វត្ថុផ្សេងៗ។ Scikit-learn agglomerative clustering គឺជារឿងរាយត្រី។

- > រូបភាពបង្ហាញដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded)
+ > រូបភាពដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded)
-- **ការចែកទំព័រចំណុចកណ្តាល**។ អាល់ហ្គរីធម៍ល្បីឈ្មោះនេះត្រូវការជ្រើសរើស 'k' រឺ ចំនួនក្រុមដែលត្រូវបង្កើត បន្ទាប់មកអាល់ហ្គរីធម៍កំណត់ចំណុចមជ្ឈមណ្ឌលរបស់ក្រុម និងប្រមូលទិន្នន័យនៅជុំវិញចំណុចនោះ។ [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) គឺជាប្រភេទពេញនិយមនៃការចែកទំព័រចំណុចកណ្តាល។ ចំណុចមជ្ឈមណ្ឌលត្រូវបានកំណត់ដោយមធ្យមជិតបំផុត ដូច្នេះឈ្មោះ។ ចម្ងាយកោណត្រូវបានបន្តិចបន្តួច។
+- **ការបែងចែកក្រុមមជ្ឈមណ្ឌល**។ អាល់ហ្គរីធម៍ពេញនិយមនេះត្រូវការជ្រើសរើស 'k' ឬចំនួនក្រុមចង់បង្កើត បន្ទាប់មកអាល់ហ្គរីធម៍កំណត់ចំណុចមជ្ឈមណ្ឌលនៃក្រុមមួយ ហើយប្រមូលទិន្នន័យជុំវិញចំណុចនោះ។ [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) គឺជារូបមន្តពេញនិយមនៃការបែងចែកមជ្ឈមណ្ឌល។ ចំណុចមជ្ឈមណ្ឌលកំណត់ដោយមធ្យមដល់ជិតមុខ និងហៅវាឈ្មោះដូច្នេះ។ ចម្ងាយចតពីក្រុមត្រូវបានធ្វើអោយតិចបំផុត។

- > រូបភាពបង្ហាញដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded)
+ > រូបភាពដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded)
-- **ការចែកទំព័រដែលផ្អែកលើចែកចាយ**។ មានមូលដ្ឋានលើគំរូស្ថិតិ ការចែកទំព័រដែលផ្អែកលើចែកចាយផ្តោតលើការកំណត់ពិតភាពថាចំណុចទិន្នន័យទាក់ទងទៅក្រុមណាមួយ ហើយផ្ដាច់ផ្តាច់ទៅតាមរបៀប។ វិធី Gaussian mixture ស្ថិតនៅក្នុងប្រភេទនេះ។
+- **ការបែងចែកក្រុមដោយផ្អែកលើចែកចាយ**។ អាស្រ័យលើគំរូស្ថិតិ, ការបែងចែកក្រុមដោយផ្អែកលើចែកចាយផ្តោតលើការកំណត់ប្រហែលថាចំណុចទិន្នន័យជាក្រុមណាមួយ ហើយផ្តល់អោយយ៉ាងសមរម្យ។ វិធី Gaussian mixture ស្ថិតក្នុងប្រភេទនេះ។
-- **ការចែកទំព័រលើមូលដ្ឋានដង់ស៊ីតេ**។ ចំណុចទិន្នន័យត្រូវបានតែងតាំងទៅក្រុម ដោយផ្អែកលើដង់ស៊ីតេរបស់ពួកវា ឬការប្រមូលផ្តុំគ្នា។ ចំណុចទិន្នន័យដែលឆ្ងាយពីក្រុម ត្រូវបានគេចាត់ទុកថាជាផលប៉ះពាល់ខាងក្រៅ ឬសំឡេងរំខាន។ DBSCAN, Mean-shift និង OPTICS ស្ថិតក្នុងប្រភេទនេះ។
+- **ការបែងចែកក្រុមដោយផ្អែកលើភាពខ្លាញ់**។ ចំណុចទិន្នន័យត្រូវបានផ្ដាច់ក្នុងក្រុមដោយផ្អែកលើភាពខ្លាញ់ ឬ ការប្រមូលគ្នាព័ន្ធព័ន្ធ។ ចំណុចដែលឆ្ងាយពីក្រុមត្រូវបានគេចាត់ទុកជាចំណុចលំបាក ឬសំឡេងរំខាន។ DBSCAN, Mean-shift, និង OPTICS ស្ថិតក្នុងប្រភេទនេះ។
-- **ការចែកទំព័រលើមូលដ្ឋានក្រឡា**។ សម្រាប់ទិន្នន័យពហុវិមាត្រ ក្រឡាត្រូវបានបង្កើត ហើយទិន្នន័យត្រូវបានចែកចាយទៅក្នុងវាលនៃក្រឡា បង្កើតក្រុមឡើង។
+- **ការបែងចែកក្រុមបែបក្រឡា**។ សម្រាប់ឯកសារទិន្នន័យច្រើនវិមាត្រ ក្រឡាបង្កើតឡើង ហើយទិន្នន័យត្រូវបានបែងចែកទៅក្នុងក្រឡានីមួយៗ ដូច្នេះបង្កើតក្រុម។
-## លំហាត់ - ចែកទិន្នន័យរបស់អ្នកជាក្រុម
+## លំហាត់ - បែងចែកក្រុមទិន្នន័យរបស់អ្នក
-ការចែកទំព័រជាបច្ចេកទេស ត្រូវបានជួយស្រាលដូចខុសគ្នា ដោយការពិពណ៌នារូបភាពដូចត្រឹមត្រូវ ដូច្នេះសូមចាប់ផ្តើមដោយបង្ហាញទិន្នន័យតន្ត្រីរបស់យើង។ លំហាត់នេះនឹងជួយយើងសម្រេចចិត្តថាតើយ៉ាងដូចម្តេចក្នុងចំណោមវិធីចែកទំព័រដែលគួរប្រើសម្រាប់ធម្មជាតិនៃទិន្នន័យនេះ។
+ការបែងចែកក្រុមជាបច្ចេកទេសមានអត្ថប្រយោជន៍ខ្លាំងដោយរូបភាពភាពបញ្ជាក់យ៉ាងត្រឹមត្រូវ ដូច្នេះតោះចាប់ផ្តើមដោយរូបភាពទិន្នន័យភ្លេងរបស់យើង។ លំហាត់នេះនឹងជួយយើងសម្រេចថាវិធីណាមួយនៃការបែងចែកក្រុមដែលយើងគួរប្រើប្រាស់យ៉ាងមានប្រសិទ្ធភាពសម្រាប់ប្រភេទទិន្នន័យនេះ។
1. បើកឯកសារ [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) ក្នុងថតនេះ។
-1. នាំចូលកញ្ចប់ `Seaborn` សម្រាប់ការពិពណ៌នាទិន្នន័យល្អ។
+1. នាំចូលកញ្ចប់ `Seaborn` សម្រាប់ការតាំងរូបភាពទិន្នន័យល្អ។
```python
!pip install seaborn
```
-1. បន្ថែមទិន្នន័យបទចម្រៀងពី [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv)។ បង្ហាញ data frame មានទិន្នន័យពីបទចម្រៀង។ រៀបចំខ្លួនដើម្បីស្វែងរកទិន្នន័យនេះដោយនាំចូលបណ្ណាល័យ និងបង្ហាញទិន្នន័យ៖
+1. បន្ថែមទិន្នន័យបទចម្រៀងពី [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv)។ បើក data frame ជាមួយទិន្នន័យពីបទចម្រៀងខ្លះៗ។ រៀបចំសម្រាប់ការស្វែងយល់ទិន្នន័យនេះដោយនាំចូលបណ្ណាល័យ និងបង្ហាញទិន្នន័យ៖
```python
import matplotlib.pyplot as plt
@@ -119,7 +120,7 @@
df.head()
```
- ពិនិត្យមើលខ្សែដំបូងៗនៃទិន្នន័យ:
+ ពិនិត្យមើលបន្ទាត់ដើមទិន្នន័យប៉ុន្មានបន្ទាត់៖
| | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature |
| --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- |
@@ -129,13 +130,13 @@
| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 |
| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 |
-1. សូមទទួលបានព័ត៌មានមួយចំនួនអំពី DataFrame ដោយអំពាវនាវ `info()`៖
+1. ទទួលបានព័ត៌មានអំពី dataframe ដោយហៅ `info()`៖
```python
df.info()
```
- លទ្ធផលបង្ហាញដូចជា៖
+ លទ្ធផលបង្ហាញដូចខាងក្រោម៖
```output
@@ -163,7 +164,7 @@
memory usage: 66.4+ KB
```
-1. ពិនិត្យម្តងទៀតសម្រាប់តម្លៃ null ដោយហៅ `isnull()` ហើយធានាថារួមបញ្ចូលត្រឹម 0៖
+1. ពិនិត្យមើលមួយទៀតសម្រាប់តម្លៃ null ដោយហៅ `isnull()` និងបញ្ជាក់ថា សរុបមានតម្លៃ 0៖
```python
df.isnull().sum()
@@ -191,7 +192,7 @@
dtype: int64
```
-1. ពិពណ៌នាអំពីទិន្នន័យ៖
+1. ពិពណ៍នាអំពីទិន្នន័យ៖
```python
df.describe()
@@ -208,11 +209,11 @@
| 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 |
| max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 |
-> 🤔 ប្រសិនបើយើងកំពុងធ្វើការជាមួយ clustering ដែលជា វិធីសាស្ត្រ unsupervised មួយដែលមិនត្រូវការទិន្នន័យមានស្លាក ហេតុអ្វីបានយើងចង្អុលបង្ហាញទិន្នន័យនេះជាមួយស្លាក? ក្នុងដំណាក់កាលចាប់ផ្តើមស្វែងរកទិន្នន័យ ស្លាកទាំងនេះមានប្រយោជន៍ ប៉ុន្តែវាមិនចាំបាច់សម្រាប់អាល់គ័រីធម clustering ដើម្បីដំណើរការ។ អ្នកអាចយកចេញក្បាលជួរឈរនៅតែមិនប៉ះពាល់ ដើម្បីយោងទិន្នន័យតាមលេខជួរឈរ។
+> 🤔 ប្រសិនបើយើងកំពុងធ្វើការជាមួយ clustering ដែលជាវិធីសាស្រ្តមិនត្រូវការទិន្នន័យមានស្លាកហើយ (unsupervised method) នោះហេតុអ្វីបានជាយើងបង្ហាញទិន្នន័យនេះជាមួយស្លាក? ក្នុងដំណាក់កាលស្វែងយល់ទិន្នន័យ វាគឺមានប្រយោជន៍ ប៉ុន្តែវាមិនចាំបាច់សម្រាប់ algorithm clustering ដើម្បីដំណើរការ។ អ្នកអាចដកក្បាលជួរឈរចេញហើយយោងទៅតាមលេខជួរឈរបាន។
-មើលតម្លៃទូទៅនៃទិន្នន័យ។ សូមចំណាំថា popularity អាចមានតម្លៃជា '0' ដែលបង្ហាញពីចម្រៀងដែលមិនមានចំណាត់ថ្នាក់។ យើងនឹងដកចេញចម្រៀងទាំងនោះក្នុងពេលឆាប់ៗនេះ។
+មើលតម្លៃទូទៅរបស់ទិន្នន័យ។ សូមចំណាំថា popularity អាចមានតម្លៃ '0' ដែលបង្ហាញពីបទចម្រៀងដែលគ្មានចំណាត់ថ្នាក់។ យើងនឹងដកវាចេញក្នុងរយៈពេលខ្លី។
-1. ប្រើប្លង់បារដើម្បីស្វែងរកប្រភេទចម្រៀងដែលពេញនិយមបំផុត៖
+1. ប្រើ barplot ដើម្បីរក genres ដែលពេញនិយមបំផុត៖
```python
import seaborn as sns
@@ -226,11 +227,11 @@

-✅ ប្រសិនបើអ្នកចង់មើលតម្លៃកំពូលច្រើនជាងនេះ សូមប្តូរ top `[:5]` ទៅជាតម្លៃធំជាងនេះ ឬដកវាចេញដើម្បីមើលទាំងអស់។
+✅ ប្រសិនបើអ្នកចង់មើលតម្លៃលំដាប់ខ្ពស់បន្ថែមទៀត គ្រាន់តែរំលាស់ `[:5]` ទៅតម្លៃធំជាងនេះ ឬយកវាចេញដើម្បីមើលទាំងអស់។
-សូមចំណាំ ពេលដែលប្រភេទចម្រៀងកំពូលត្រូវបានពិពណ៌នាជា 'Missing' មានន័យថា Spotify មិនបានចាត់ថ្នាក់វា ដូចនេះយើងត្រូវដកវាចេញ។
+សូមចំណាំ ថា នៅពេល genre ខ្ពស់គឺពណ៌នាថា 'Missing' មានន័យថា Spotify មិនបានចាត់ថ្នាក់វា ទេ ដូចនេះយើងត្រូវដកវាចេញ។
-1. ដកចេញទិន្នន័យដែលខ្វះដោយការត្រងវាចេញ
+1. ដកទិន្នន័យ missing ដោយផ.Filterវាចេញ
```python
df = df[df['artist_top_genre'] != 'Missing']
@@ -241,11 +242,11 @@
plt.title('Top genres',color = 'blue')
```
- ឥឡូវនេះសូមពិនិត្យមើលប្រភេទចម្រៀងម្ដងទៀត៖
+ ឥឡូវនេះពិនិត្យមើល genres ម្តងទៀត៖

-1. ប្រភេទចម្រៀងកំពូលបី មានអំណាចលើទិន្នន័យនេះ។ យើងសូមផ្តោតទៅលើ `afro dancehall`, `afropop`, និង `nigerian pop` ហើយត្រងទិន្នន័យដើម្បីដកចេញវត្ថុដែលមានតម្លៃ popularity ដែលស្មើ 0 (មានន័យថាវាមិនត្រូវបានចាត់ថ្នាក់ដោយ popularity ក្នុងទិន្នន័យ ហើយអាចត្រូវបានចាត់ទុកជាសំលេងរំខានសម្រាប់គោលបំណងរបស់យើង)៖
+1. នៅទូទៅ genre បីចុងក្រោយបំផុតគ្រប់គ្រង dataset នេះ។ យើងសូមផ្តោតទៅលើ `afro dancehall`, `afropop`, និង `nigerian pop` ហើយបន្ថែមការលាងសំអាត dataset ដើម្បីដកវត្ថុដែលមានតម្លៃ popularity បាន 0 (មានន័យថាវាមិនបានចាត់ថ្នាក់ជាមួយ popularity ក្នុង dataset ហើយអាចត្រូវបានគេយល់ថាជាសំឡេងរំខានសម្រាប់គោលបំណងរបស់យើង)៖
```python
df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')]
@@ -257,7 +258,7 @@
plt.title('Top genres',color = 'blue')
```
-1. ប្រត្ដិបត្ដិមួយជាបន្ទាន់ដើម្បីមើលថាទិន្នន័យមានការពាក់ព័ន្ធយ៉ាងខ្លាំងវិញឬអត់៖
+1. ប្រើតេស្តមួយឆាប់រហ័សដើម្បីមើលថាតើយោងរវាងទិន្នន័យមានទំនាក់ទំនងខ្លះទេ៖
```python
corrmat = df.corr(numeric_only=True)
@@ -267,19 +268,19 @@

- ការពាក់ព័ន្ធតែមួយដែលខ្លាំងគឺរវាង `energy` និង `loudness` ដែលមិនមែនជារឿងភ្ញាក់ផ្អើលទេ ព្រោះតែលំនៅសំឡេងខ្ពស់ជារឿយៗដូចជាអ្នកមានថាមពលខ្លាំង។ អ្នកលំដាប់ប្រសើរពីរវាងផ្សេងទៀតគួរជារបាយការណ៍ខ្សោយ។ វានឹងគួរអោយចាប់អារម្មណ៍មើលពីអាល់គ័រីធម clustering អាចយល់ដឹងអ្វីខ្លះពីទិន្នន័យនេះបាន។
+ ទំនាក់ទំនងត្រឹមតែខ្លាំងតែរវាង `energy` និង `loudness` ប៉ុណ្ណោះ ដែលមិនចម្លែកទេ ព្រោះតន្ត្រីដែលមានសំឡេងខ្លាំងសាកសមនឹងមានថាមពលខ្លាំង។ ផ្សេងទៀត ទំនាក់ទំនងគឺខ្សោយ។ វានឹងគួរឱ្យចាប់អារម្មណ៍មើលថា algorithm clustering អាចធ្វើអ្វីបានពីទិន្នន័យនេះ។
- > 🎓 សូមចំណាំថាការពាក់ព័ន្ធមិនមានន័យថាការកើតមាន! យើងមានភស្តុតាងនៃការពាក់ព័ន្ធ ប៉ុន្តែមិនមានភស្តុតាងនៃការកើតមាន។ គេហទំព័រមួយដែលគួរឱ្យចាប់អារម្មណ៍ [amusing web site](https://tylervigen.com/spurious-correlations) ផ្តល់នូវរូបភាពសម្រាប់ពិចារណារឿងនេះ។
+ > 🎓 សូមចំណាំថា ទំនាក់ទំនងមិនមានន័យថាមានមូលហេតុទេ! យើងមានភស្តុតាងនៃទំនាក់ទំនង ប៉ុន្តែមិនមានភស្តុតាងនៃមូលហេតុ។ គេហទំព័រស្រែកសើចមួយបានបង្ហាញរូបភាពដែលផ្តោតលើចំណុចនេះ។
-តើមានការប្រមូលផ្តុំគ្នានៅក្នុងទិន្នន័យនេះអំពីការមើលឃើញនូវពន្លឺនិង danceability របស់ចម្រៀងមួយទេ? FacetGrid បង្ហាញថាមានរង្វង់ច្រវ៉ាក់អាចផ្គូរផ្គងគ្នា បើទោះបីជាមានបែបបទផ្សេងៗគ្នាក៏ដោយ។ តើអាចមានការចូលចិត្តនៃនាយាជននៅជាមួយមួយកម្រិតបំណងចិត្តលើលំនាំនេះ?
+តើមានការប្រមូលផ្តុំក្នុង dataset នេះជុំវិញការសង្កេតថាល្បីរបស់បទចម្រៀង និង danceability ទេ? FacetGrid បង្ហាញថាមានវង់រាងមូល ដែលដាក់បន្ទាប់គ្នា បើមិនគិតពី genre។ តើអាចជាការចូលរួមរបស់អ្នកស្តាប់ចម្រៀងនីហ្សេរីយ៉ា នៅលើកម្រិតខ្លះនៃ danceability សម្រាប់ genre នេះទេ?
-✅ សាកល្បងបច្ចេកទិន្នន័យផ្សេងទៀត (energy, loudness, speechiness) និងប្រភេទតន្ត្រីផ្សេងៗ ឬច្រើនជាងនេះ។ តើអ្នកអាចរកឃើញអ្វីខ្លះ? សូមមើលតារាង `df.describe()` ដើម្បីមើលការវេចខ្ចប់ទូទៅនៃចំណុចទិន្នន័យ។
+✅ សូមព្យាយាមប្រើ datapoint ផ្សេងទៀត (energy, loudness, speechiness) និង genre តន្ត្រីផ្សេងៗ មើលថាតើអ្នកអាចរកឃើញអ្វីបានខ្លះ? សូមមើលតារាង `df.describe()` ដើម្បីមើលចំនួនទូទៅនៃចំណុចទិន្នន័យ។
-### វាយតម្លៃ - ការបែងចែកទិន្នន័យ
+### អនុវត្តន៍ - ការបែងចែកទិន្នន័យ
-តើប្រភេទចម្រៀងបីនេះមានភាពខុសគ្នាយ៉ាងច្បាស់ក្នុងការមើលឃើញ danceability របស់ពួកគេ ដោយផ្អែកលើកម្រិត popularity?
+តើតួរនៃ genre ទាំងបីនេះខុសគ្នាយ៉ាងសំខាន់ទេក្នុងការសង្កេតឱ្យឃើញការលេងភ្លេងរបស់ពួកវា ដោយផ្អែកលើ popularity?
-1. ពិនិត្យមើលការបែងចែកទិន្នន័យរបស់បីប្រភេទកំពូលសម្រាប់ popularity និង danceability នៅលើអ័ក្ស x និង y ដែលមានការបញ្ជាក់។
+1. ពិនិត្យការបែងចែកទិន្នន័យនៃ genre ទីបីក្នុងចំណោម popularity និង danceability តាមអ័ក្ស x និង y មួយ៖
```python
sns.set_theme(style="ticks")
@@ -291,15 +292,15 @@
)
```
- អ្នកអាចរកឃើញរង្វង់ច្រវ៉ាក់នៅជុំវិញចំណុចមួយបាន កំណត់បង្ហាញពីបែងចែកចំណុច។
+ អ្នកអាចស្គាល់ភាពជាវង់រាងមូលនៅជុំវិញចំណុចទូទៅមួយ នូវការបែងចែកចំណុចទិន្នន័យ។
- > 🎓 សូមចំណាំឧទាហរណ៍នេះប្រើក្រាហ្វ KDE (Kernel Density Estimate) ដែលតំណាងឱ្យទិន្នន័យដោយ curve មានប្រហែលភាពគុណភាពជាបន្ត។ នេះអាចអោយយើងផ្ដល់អត្ថន័យទិន្នន័យនៅពេលធ្វើការជាមួយការបែងចែកច្រើន។
+ > 🎓 សូមចំណាំថា ឧទាហរណ៍នេះប្រើក្រាហ្វ KDE (Kernel Density Estimate) ដែលតំណាងឲ្យទិន្នន័យតាមរយៈវង់ភាពប្រភេទប្រសាទបន្តរបន្ត។ វាអនុញ្ញាតឲ្យយើងពិវោធន៍ទិន្នន័យនៅពេលធ្វើការជាមួយការបែងចែកច្រើន។
- ជាទូទៅ ប្រភេទចម្រៀងបីភាគបន្តិចឆ្លុះបញ្ចាំងគ្នានៅក្នុងចំណោម popularity និង danceability។ ការទាញយកក្រុមនៅក្នុងទិន្នន័យដែលមានការបង្ហាញខាងលើនេះគឺជាភាពលំបាកជាមួយ៖
+ ទូទៅ genre ទាំងបីស្របគ្នាខ្ពស់លើការលេងភ្លេង និង popularity។ ការកំណត់ cluster ក្នុងទិន្នន័យដែលស្របគ្នាខ្សោយនេះ នឹងជាការប្រឈមមួយ៖

-1. បង្កើតប្លង់ scatter៖
+1. បង្កើត scatter plot៖
```python
sns.FacetGrid(df, hue="artist_top_genre", height=5) \
@@ -307,33 +308,33 @@
.add_legend()
```
- ប្លង់ scatter នៃអ័ក្សដូចគ្នាបង្ហាញលំនាំស្រដៀងគ្នារបស់ការប្រមូលផ្តុំ
+ scatterplot របស់អ័ក្សដូចគ្នាបង្ហាញលំនាំស្រដៀងគ្នានៃការប្រមូលផ្តុំ

-ជាទូទៅ សម្រាប់ clustering អ្នកអាចប្រើប្លង់ scatter ដើម្បីបង្ហាញក្រុមទិន្នន័យ ដូច្នេះការបង្កប់ចំណេះដឹងនៅលើការបង្ហាញទូរគមនាគមន៍នេះគឺមានប្រយោជន៍ខ្លាំង។ នៅមេរៀនបន្ទាប់ យើងនឹងយកទិន្នន័យដែលបានត្រងនេះ ដើម្បីប្រើ k-means clustering ដើម្បីស្វែងរកក្រុមក្នុងទិន្នន័យដែលពាក់ព័ន្ធគ្នាជាបែបគួរឱ្យចាប់អារម្មណ៍។
+ទូទៅសម្រាប់ clustering អ្នកអាចប្រើ scatterplot ដើម្បីបង្ហាញក្រុមទិន្នន័យ ដូច្នេះការទទួលបានជំនាញកែច្នៃ visualization ប្រភេទនេះគឺមានប្រយោជន៍ខ្ពស់។ ក្នុងមេរៀនបន្ទាប់ យើងនឹងយកទិន្នន័យដែលបានត្រៀមនេះ ហើយប្រើ k-means clustering ដើម្បីរកក្រុមទិន្នន័យដែលមានការប្រាប់គ្នានៅវិធីគួរឱ្យចាប់អារម្មណ៍។
---
-## 🚀បញ្ចាំង
+## 🚀បញ្ហាប្រឈម
-ក្នុងការរៀបចំសម្រាប់មេរៀនបន្ទាប់ សូមបង្កើតតារាងអំពីអាល់គ័រីធម clustering ផ្សេងៗដែលអ្នកអាចស្វែងរក និងប្រើក្នុងបរិដ្ឋានផលិតកម្ម។ តើបញ្ហាប្រភេទអ្វីដែល clustering ព្យាយាមដោះស្រាយ?
+ក្នុងការរៀបចំសម្រាប់មេរៀនក្រោយ សូមបង្កើតតារាងអំពី algorithm clustering ផ្សេងៗដែលអ្នកអាចស្វែងរក និងប្រើនៅក្នុងបរិបទផលិតកម្ម។ តើបញ្ហាប្រឈមណាដែល clustering ព្យាយាមដោះស្រាយ?
-## [ប្រលងក្រោយមេរៀន](https://ff-quizzes.netlify.app/en/ml/)
+## [សំណួរពិសោធន៍បន្ទាប់មេរៀន](https://ff-quizzes.netlify.app/en/ml/)
-## សេចក្តីពិនិត្យ និងសិក្សាផ្ទាល់ខ្លួន
+## ការត្រួតពិនិត្យ និងអប់រំផ្ទាល់ខ្លួន
-មុនពេលអ្នកអនុវត្តអាល់គ័រីធម clustering ដូចដែលយើងបានរៀន វាគួរឱ្យចាប់អារម្មណ៍ក្នុងការយល់ដឹងពីធម្មជាតិទិន្នន័យរបស់អ្នក។ ចំណាយពេលអានបន្ថែមស្តីពីប្រធានបទនេះ [ទីនេះ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)
+មុនពេលអ្នកអនុវត្ត algorithm clustering ដូចដែលយើងបានរៀន វាជាគំនិតល្អក្នុងការយល់ដឹងពីសារធាតុនៃ dataset របស់អ្នក។ អានបន្ថែមពីប្រធានបទនេះ [នៅទីនេះ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)
-[អត្ថបទជួយដល់នេះ](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) នឹងដឹកនាំអ្នក តាមរយៈវិធីផ្សេងៗដែលអាល់គ័រីធម clustering ប្រតិបត្តិការពិតដោយផ្អែកលើរូបរាងទិន្នន័យផ្សេងៗ។
+[អត្ថបទមានប្រយោជន៍នេះ](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) នាំអ្នកឆ្ពោះទៅកាន់វិធីផ្សេងៗនៃ algorithm clustering ដែលប្រើប្រាស់ បើយោងតាមរាងទិន្នន័យផ្សេងៗ។
-## ការងារ
+## ភារកិច្ច
-[ស្វែងយល់អំពីការបង្ហាញទិន្នន័យផ្សេងទៀតសម្រាប់ clustering](assignment.md)
+[ស្រាវជ្រាវអំពីការបង្ហាញឬបង្ហាញទិន្នន័យផ្សេងៗសម្រាប់ clustering](assignment.md)
---
-**ការបដិសេធ**៖
-ឯកសារនេះត្រូវបានបកប្រែដោយប្រើសេវាកម្មបកប្រែ AI [Co-op Translator](https://github.com/Azure/co-op-translator)។ ទោះបីយើងខិតខំរក្សាការត្រឹមត្រូវ ក៏សូមយកចិត្តទុកដាក់ថាការបកប្រែដោយស្វ័យប្រវត្តិអាចមានកំហុស ឬភាពមិនត្រឹមត្រូវលើកកន្លែងណាមួយ។ ឯកសារដើមនៅក្នុងភាសាមូលដ្ឋានរបស់វាគួរត្រូវបានចាត់ទុកជាដើមខ្យល់សម្រាប់ព័ត៌មាន។ សម្រាប់ព័ត៌មានសំខាន់ៗ ការបកប្រែដោយមនុស្សជំនាញត្រូវបានណែនាំ។ យើងមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកប្រែខុសធីងអ្វីៗដែលកើតឡើងពីការប្រើប្រាស់ការបកប្រែនេះទេទេ។
+**ការបដិសេធ**:
+ឯកសារនេះត្រូវបានបម្លែងភាសា ដោយប្រើសេវាបម្លែងភាសា AI [Co-op Translator](https://github.com/Azure/co-op-translator)។ ទោះយើងខ្ញុំមានក្តីប្រាថ្នាឱ្យបានច្បាស់លាស់ តែសូមយល់ដឹងថាការបម្លែងដោយស្វ័យប្រវត្តិក៏អាចមានកំហុសឬភាពមិនត្រឹមត្រូវ។ ឯកសារដើមជាភាសាទីតាំងគួរត្រូវបានគេប្រើជាប្រភពច្បាស់លាស់។ សម្រាប់ព័ត៌មានសំខាន់ៗ សូមណែនាំឱ្យប្រើប្រាស់ការប្រែដោយមនុស្សជំនាញ។ យើងខ្ញុំមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកស្រាយខុសបន្ទាប់ពីការប្រើប្រាស់ការបម្លែងនេះនោះទេ។
\ No newline at end of file