diff --git a/translations/km/.co-op-translator.json b/translations/km/.co-op-translator.json index ae2dc36ff..c45090b0c 100644 --- a/translations/km/.co-op-translator.json +++ b/translations/km/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2026-04-06T18:13:33+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:08:24+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "km" }, @@ -360,8 +360,8 @@ "language_code": "km" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2026-04-06T18:43:38+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:07:16+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "km" }, diff --git a/translations/km/1-Introduction/1-intro-to-ML/README.md b/translations/km/1-Introduction/1-intro-to-ML/README.md index c593f8df7..bfcd70265 100644 --- a/translations/km/1-Introduction/1-intro-to-ML/README.md +++ b/translations/km/1-Introduction/1-intro-to-ML/README.md @@ -1,152 +1,157 @@ # ការណែនាំអំពីការរៀនម៉ាស៊ីន -## [សំណួរតេស្តមុនថ្នាក់](https://ff-quizzes.netlify.app/en/ml/) +## [សំណួរពីមុនវគ្គសិក្សា](https://ff-quizzes.netlify.app/en/ml/) --- -[![ML សម្រាប់អ្នកសរសេរใหม่ - ការណែនាំអំពីការរៀនម៉ាស៊ីនសម្រាប់អ្នកសរសេរ](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML សម្រាប់អ្នកសរសេរใหม่ - ការណែនាំអំពីការរៀនម៉ាស៊ីនសម្រាប់អ្នកសរសេរ") +[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") -> 🎥 ចុចលើរូបភាពខាងលើសម្រាប់វីដេអូខ្លីបង្ហាញពីមេរៀននេះ។ +> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូចំនុចខ្លីបរិយាយអំពីមេរៀននេះ។ -សូមស្វាគមន៍មកកាន់វគ្គសិក្សានេះអំពីការរៀនម៉ាស៊ីនបែបសាមញ្ញសម្រាប់អ្នកចាប់ផ្ដើម! មិនថាអ្នកជាអ្នកថ្មីតែម្តងនឹងប្រធានបទនេះ ឬជាអ្នកអនុវត្ត ML ដែលមានបទពិសោធន៍ជាមួយកន្លែងមួយណាមួយដែលចង់បង្កើតវិជ្ជាជីវៈឡើងវិញ យើងមានសេចក្ដីសប្បាយរីករាយដែលអ្នកបានចូលរួមជាមួយយើង! យើងចង់បង្កើតទីតាំងមួយដែលរាប់មិត្តភាព សម្រាប់ការសិក្សា ML របស់អ្នក ហើយយើងនឹងមានមោទនភាពក្នុងការវាយតម្លៃ ឆ្លើយតប និងរួមបញ្ចូលមតិយោបល់របស់អ្នក [feedback](https://github.com/microsoft/ML-For-Beginners/discussions)។ +សូមស្វាគមន៍មកកាន់មុខវិជ្ជានេះស្តីពីការរៀនម៉ាស៊ីនបែបបុរាណសម្រាប់អ្នកដែលជាអ្នកចាប់ផ្តើម! មិនថាអ្នកថ្មីយ៉ាងពិតប្រាកដដល់មុខវិជ្ជានេះ ឬជាអ្នកមានបទពិសោធន៍ក្នុងការអនុវត្ត ML ដែលចង់បន្ថែមជំនាញផ្នែកណាមួយក៏ដោយ យើងរីករាយដែលអ្នកបានចូលរួមជាមួយយើង! យើងចង់បង្កើតចំណុចចាប់ផ្តើមមិត្តភក្តិសម្រាប់ការសិក្សា ML របស់អ្នក ហើយរីករាយក្នុងការវាយតម្លៃ ការឆ្លើយតប និងបញ្ចូលមតិអ្នក [មតិយោបល់](https://github.com/microsoft/ML-For-Beginners/discussions)។ -[![ការណែនាំអំពី ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "ការណែនាំអំពី ML") +[![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML") -> 🎥 ចុចលើរូបភាពខាងលើសម្រាប់វីដេអូ៖ John Guttag របស់ MIT ដឹកនាំបង្ហាញអំពីការរៀនម៉ាស៊ីន +> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ៖ John Guttag ពី MITណែនាំអំពីការរៀនម៉ាស៊ីន --- -## ផ្ដើមសិក្សាអំពីការរៀនម៉ាស៊ីន +## ការចាប់ផ្តើមជាមួយការរៀនម៉ាស៊ីន -មុននឹងចាប់ផ្ដើមវគ្គសិក្សានេះ អ្នកត្រូវតែមានកុំព្យូទ័ររបស់អ្នកត្រៀមរួចរាល់សម្រាប់បើកចូលប្រើមូលដ្ឋានសៀវភៅកំណត់ត្រាផ្ទាល់ខ្លួន។ +មុននឹងចាប់ផ្តើមជាមួយមេរៀននេះ អ្នកត្រូវតែដំឡើងកុំព្យូទ័ររបស់អ្នកហើយមានការត្រៀមរួចជាស្រេចដើម្បីរត់កំណត់ត្រាតូចៗនៅក្នុងកន្លែងរបស់អ្នកបាន។ -- **កំណត់រចនាសម្ព័ន្ធម៉ាស៊ីនរបស់អ្នកជាមួយវីដេអូទាំងនេះ**។ ប្រើតំណភ្ជាប់ខាងក្រោមសម្រាប់រៀនពីរបៀប [ដំឡើង Python](https://youtu.be/CXZYvNRIAKM) នៅលើប្រព័ន្ធរបស់អ្នក និង [កំណត់ការ text editor](https://youtu.be/EU8eayHWoZg) សម្រាប់ការអភិវឌ្ឍន៍។ -- **រៀន Python**។ បើកមានការផ្តល់អនុសាសន៍ឲ្យមានការយល់ដឹងមូលដ្ឋានអំពី [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) ដែលជាភាសាកូដដែលមានប្រយោជន៍សម្រាប់អ្នកវិទ្យាសាស្ត្រទិន្នន័យដែលយើងប្រើក្នុងវគ្គសិក្សានេះ។ -- **រៀន Node.js និង JavaScript**។ យើងក៏ប្រើ JavaScript ពេលខ្លះនៅក្នុងវគ្គនេះពេលកសាងកម្មវិធីបណ្តាញ ដូច្នេះអ្នកត្រូវតែមាន [node](https://nodejs.org) និង [npm](https://www.npmjs.com/) តម្លើងក្នុងប្រព័ន្ធរបស់អ្នក បូកជាមួយការចូលប្រើ [Visual Studio Code](https://code.visualstudio.com/) សម្រាប់ការអភិវឌ្ឍ Python និង JavaScript ។ -- **បង្កើតគណនី GitHub**។ ពីព្រោះអ្នកបានរកឃើញយើងនៅទីនេះលើ [GitHub](https://github.com) សូមអាចមានគណនីរួចហើយ តែបើមិនមានសូមបង្កើត និង Fork វគ្គសិក្សានេះដើម្បីប្រើប្រាស់ដោយផ្ទាល់ខ្លួន។ (សូមឥតគិតថ្លៃផ្តល់ផ្កាយមួយជាការគាំទ្រ 😊) -- **ស្វែងយល់អំពី Scikit-learn**។ សូមស្គាល់គាត់ [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ដែលជាសំណុំនៃបណ្ណាល័យ ML ដែលយើងយោងទៅលើក្នុងមេរៀនទាំងនេះ។ +- **កំណត់ការកំណត់ម៉ាស៊ីនរបស់អ្នកដោយប្រើវីដេអូទាំងនេះ**។ ប្រើតំណភ្ជាប់ខាងក្រោមដើម្បីរៀនពីរបៀប [ដំឡើង Python](https://youtu.be/CXZYvNRIAKM) នៅក្នុងប្រព័ន្ធរបស់អ្នក និង [កំណត់កម្មវិធីកែសម្រួលអត្ថបទ](https://youtu.be/EU8eayHWoZg) សម្រាប់ការអភិវឌ្ឍន៍។ +- **រៀន Python**។ វាក៏ត្រូវបានណែនាំឱ្យមានការយល់ដឹងមូលដ្ឋានអំពី [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) ដែលជាភាសាកម្មវិធីមានប្រយោជន៍សម្រាប់អ្នកវិទ្យាសាស្ត្រទិន្នន័យដែលយើងប្រើនៅក្នុងមុខវិជ្ជានេះ។ +- **រៀន Node.js និង JavaScript**។ យើងក៏ប្រើ JavaScript ដល់ច្រើនដងក្នុងមុខវិជ្ជានេះនៅពេលបង្កើតកម្មវិធីវេប ដូច្នេះអ្នកនឹងត្រូវមាន [node](https://nodejs.org) និង [npm](https://www.npmjs.com/) ដំឡើង និងមាន [Visual Studio Code](https://code.visualstudio.com/) សម្រាប់សម្រាប់ការអភិវឌ្ឍ Python និង JavaScript។ +- **បង្កើតគណនី GitHub**។ ព្រោះអ្នកបានរកឃើញយើងនៅទីនេះនៅលើ [GitHub](https://github.com) អ្នកប្រហែលជាមានគណនីរួចហើយ បើមិនមាន សូមបង្កើតមួយ ហើយបន្ទាប់មកសូមធ្វើ fork មេរៀននេះសម្រាប់ប្រើប្រាស់ផ្ទាល់ខ្លួន។ (ក៏អាចផ្តល់ផ្កាយមួយដែរ 😊) +- **ស្គាល់ Scikit-learn**। ស្គាល់វាមួយប្រព័ន្ធ [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ដែលជាក្រុមបណ្ណាល័យ ML ដែលយើងយោងក្នុងមេរៀនទាំងនេះ។ --- -## តើការរៀនម៉ាស៊ីនគឺជាអ្វី? +## តើការរៀនម៉ាស៊ីនជាអ្វី? -ពាក្យ 'machine learning' គឺជាក្ដីពេញនិយម និងប្រើប្រាស់ញឹកញាប់បំផុតសម្រាប់សព្វថ្ងៃ។ មានភាពអាចម៍កើតឡើងថាអ្នកបានឮពាក្យនេះយ៉ាងហោចណាស់មួយដង ប្រសិនបើអ្នកមានស្គាល់ខ្លះៗអំពីបច្ចេកវិទ្យា មិនថាអ្នកធ្វើការនៅក្នុងវិស័យណា។ បច្ចេកទេសនៃការរៀនម៉ាស៊ីន យ៉ាងណាមិញ ក៏នៅតែជារឿងលេងល្បងសម្រាប់មនុស្សភាគច្រើន។ សម្រាប់អ្នកចាប់ផ្ដើមការរៀនម៉ាស៊ីន ប្រធានបទនេះអាចមានអារម្មណ៍ថាស្មួតស្មើ។ ដូច្នេះ វាសំខាន់ណាស់ក្នុងការយល់ពីអ្វីទៅជា machine learning ពិតប្រាកដ ហើយរៀនវាជាគ្រប់ជំហាន តាមរយៈឧទាហរណ៍អនុវត្តន៍។ +ពាក្យ 'machine learning' គឺជាពាក្យដែលពេញនិយមនិងត្រូវបានប្រើប្រាស់ជាញឹកញាប់បំផុតក្នុងសម័យបច្ចុប្បន្ន។ មានសក្តានុពលមិនតិចដែលអ្នកបានដឹងពីពាក្យនេះយ៉ាងហោចណាស់មួយដង ប្រសិនបើអ្នកមានការស្គាល់ខ្លះៗអំពីបច្ចេកវិទ្យា មិនថាអ្នកធ្វើការនៅក្នុងវិស័យអ្វី។ ទោះយ៉ាងណា យន្តការរៀនម៉ាស៊ីន គឺជារឿងអាថ៌កំបាំងសម្រាប់មនុស្សភាគច្រើន។ សម្រាប់អ្នកចាប់ផ្តើមរៀនម៉ាស៊ីន ប្រធានបទនេះអាចធ្វើអោយមានអារម្មណ៍ធ្ងន់ធ្ងរនិងរំខាន។ ដូច្នេះ វាសំខាន់ក្នុងការយល់អំពីអ្វីដែល machine learning ជាផ្ទាល់ និងរៀនវាដោយជំហាន ក្តៅតាមឧទាហរណ៍ជាក់ស្តែង។ --- -## របងប្រភេទតំណពន្លឺ +## កំណត់ត្រាអំពីភាពរំខាន ![ml hype curve](../../../../translated_images/km/hype.07183d711a17aafe.webp) -> Google Trends បង្ហាញរបងប្រភេទ 'hype curve' នៃពាក្យ 'machine learning' នៅពេលថ្មីៗនេះ +> Google Trends បង្ហាញ 'hype curve' នៃពាក្យ 'machine learning' ដែលកើនឡើងថ្មីៗនេះ --- -## ពិភពគម្រប +## ចក្រពន្លឺមួយពោរពេញដោយអាថ៌កំបាំង -យើងរស់នៅក្នុងពិភពមួយដែលពេញលេញដោយសម្ងាត់គួរឱ្យចាប់អារម្មណ៍។ អ្នកវិទ្យាសាស្ត្រល្បីៗដូចជា Stephen Hawking, Albert Einstein និងមនុស្សជាច្រើនទៀត បានសំលាប់ពេលវេលាផ្នែកធ្វើស្រាវជ្រាវដើម្បីស្វែងរកព័ត៌មានមានន័យ ដែលបំភ្លឺសម្ងាត់នៃពិភពជុំវិញយើង។ នេះគឺជាសភាពមនុស្សក្នុងការរៀន៖ កុមារមនុស្សរៀនអ្វីថ្មីៗ និងរកឃើញរចនាសម្ព័ន្ធនៃពិភពរបស់ពួកគេឆ្នាំក្រោមឆ្នាំនៅពេលពួកគេចាស់ដល់វ័យពេញវ័យ។ +យើងរស់នៅក្នុងចក្រពន្លឺមួយដែលពោរពេញទៅដោយអាថ៌កំបាំងគួរឲ្យចាប់អារម្មណ៍។ វិទ្យាសាស្ត្រដ៏ធំៗដូចជា Stephen Hawking, Albert Einstein និងមនុស្សផ្សេងទៀតបានចំណាយពេលរស់នៅសម្រាប់ស្វែងរកព័ត៌មានមានន័យដែលអាចបង្ហាញពីអាថ៌កំបាំងនៅជុំវិញពិភពលោកយើង។ នេះជាសភាពធម្មតានៃបុរសនារីក្នុងការរៀន៖ កូនក្មេងមនុស្សរៀនអ្វីថ្មីៗ ហើយរកឃើញរចនាសម្ព័ន្ធនៃពិភពលោករបស់ពួកគេជាដំណាក់កាលទៅរូបរាងពេញវ័យ។ --- -## សម្ថភាពខួរក្បាលកុមារ +## ខួរក្បាលក្មេង -ខួរក្បាល និងអារម្មណ៍របស់កុមារយល់ឃើញពីការពិតជុំវិញពួកគេ ហើយរៀនយ៉ាងតិចតួចពីរចនាសម្ព័ន្ធលាក់សំខាន់នៃជីវិត ដែលជួយឲ្យកុមារបង្កើតច្បាប់មានទិដ្ឋភាពយុត្តិធម៌ ដើម្បីសំគាល់លំនាំដែលបានរៀន។ ដំណើរការរៀននៃខួរក្បាលមនុស្សធ្វើឱ្យមនុស្សមានជីវិតកាន់តែស្មុគស្មាញបំផុតលើពិភពលោកនេះ។ ការរៀនទៅជានិរន្តរភាពដោយបង្កើតរកលំនាំលាក់ ហើយបន្ទាប់មកបង្កើតថ្មីលើលំនាំទាំងនោះ អនុញ្ញាតឱ្យយើងធ្វើឱ្យខ្លួនឯងកាន់តែប្រសើរឡើងក្នុងអាយុកាលកំណត់របស់យើង។ សមត្ថភាពរៀន និងសមត្ថភាពអភិវឌ្ឍឆាប់រហ័សនេះ មានទំនាក់ទំនងជាមួយយោគយល់មួយហៅថា [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html)។ ជាមិនធម្មតាទេ យើងអាចគូររូបភាពស្រដៀងគ្នាជាមួយរបស់ការរៀននៃខួរក្បាលមនុស្ស និងយោគយល់នៃការរៀនម៉ាស៊ីន។ +ខួរក្បាលនិងកោសិការបស់ក្មេងម្នាក់ដឹកនាំការយល់ដឹងពីព្រឹត្តិការណ៍ដែលនៅជុំវិញ ហើយរៀនពីលំនាំលំអៀងនៅស្នាក់ក្នុងជីវិតដែលជួយឱ្យក្មេងបង្កើតច្បាប់វិជ្ជាជីវៈដើម្បីកំណត់លំនាំដែលរៀនបាន។ ដំណើរការរៀនរបស់ខួរក្បាលមនុស្សធ្វើឱ្យមនុស្សជាតិត្រូវបានគេទទួលស្គាល់ថាជាសត្វរស់នៅដ៏ស្មុគស្មាញបំផុតនៅលើពិភពលោកនេះ។ ការរៀនជាប់តែកើតឡើងដោយការរកឃើញលំនាំត្រូវហើយបន្ទាប់មកបង្កើតច្នៃភាពលើលំនាំទាំងនោះ នាំអោយយើងអាចធ្វើឱ្យខ្លួនឯងកាន់តែប្រសើរឡើងនៅក្នុងអាយុរបស់យើង។ សមត្ថភាពក្នុងការរៀននិងសមត្ថភាពដែលកំពុងអភិវឌ្ឍនេះពាក់ព័ន្ធនឹងគំនិតមួយដែលគេហៅថា [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html)។ បណ្តាញដោយខ្លី យើងអាចគូររូបភាពមានភាពស្រដៀងគ្នារវាងដំណើរការរៀននៃខួរក្បាលមនុស្ស និងគំនិតនៃការរៀនម៉ាស៊ីន។ --- ## ខួរក្បាលមនុស្ស -[ខួរក្បាលមនុស្ស](https://www.livescience.com/29365-human-brain.html) យល់ឃើញអំពីរឿងនៅពិតក្នុងពិភពលោក ធ្វើដំណើរការព័ត៌មានដែលបានយល់ឃើញ ធ្វើសេចក្តីសម្រេចយុត្តិធម៌ និងអនុវត្តសកម្មភាពមួយចំនួនដោយផ្អែកលើអត្តសញ្ញាណនៃស្ថានភាព។ នេះគឺជារឿងដែលយើងហៅថា ការប្រព្រឹត្តសមត្ថភាពយុត្តិាសាស្រ្ត។ នៅពេលដែលយើងកូដការប្រព្រឹត្តបែបនេះទៅឲ្យម៉ាស៊ីនវាយហៅថា បញ្ញាសិប្បនិម្មិត (AI)។ +[ខួរក្បាលមនុស្ស](https://www.livescience.com/29365-human-brain.html) បានយល់ពីរឿងពីពិភពលោក ពិនិត្យព្រឹត្តិការណ៍ដែលមាន កំណត់ការសម្រេចចិត្តដោយហិរញ្ញវត្ថុហើយអនុវត្តសកម្មភាពមួយចំនួនទាក់ទងនឹងស្ថានភាព។ នេះហៅថាការប្រព្រឹត្តអោយមានភាពប្រាជ្ញា។ នៅពេលយើងប្រាប់កម្មវិធីសំណុំនៃដំណើរការប្រព្រឹត្តប្រាជ្ញាទៅក្នុងម៉ាស៊ីន នោះហៅថាបញ្ញាសិប្បនិម្មិត (AI)។ --- -## ពាក្យបច្ចេកទេសខ្លះៗ +## ពាក្យក្រិតខ្លះៗ -ទោះពាក្យទាំងនោះអាចបង្កភាពច្របូកច្របល់ តែការរៀនម៉ាស៊ីន (ML) គឺជាផ្នែកសំខាន់មួយរបស់បញ្ញាសិប្បនិម្មិត។ **ML គឺផ្តោតលើការប្រើប្រាស់អាល់ហ្គោរីធម៍ឯកទេស ដើម្បីរកព័ត៌មានមានន័យ និងរកលំនាំលាក់ពីទិន្នន័យដែលបានយល់ឃើញ ដើម្បីពន្លឿនដំណើរការសម្រេចចិត្តយុត្តិធម៌**។ +ទោះបីជាពាក្យអាចបំភាន់ ក៏ ML គឺជាផ្នែកសំខាន់មួយនៃបញ្ញាសិប្បនិម្មិត។ **ML ពាក់ព័ន្ធនឹងការប្រើប្រាស់អាល់ហ្គរីធម៍ពិសេសក្នុងការរកឃើញព័ត៌មានមានន័យ និងស្វែងរកលំនាំលាក់ពីទិន្នន័យដែលបានយល់ដឹង ដើម្បីបញ្ជាក់ដល់ដំណើរការសម្រេចចិត្តត្រឹមត្រូវ។** --- -## AI, ML, ការរៀនជ្រៅ +## AI, ML, រៀនជ្រៅ ![AI, ML, deep learning, data science](../../../../translated_images/km/ai-ml-ds.537ea441b124ebf6.webp) -> ក្រាហ្វិកបង្ហាញទំនាក់ទំនងរវាង AI, ML, ការរៀនជ្រៅ និងវិទ្យាសាស្រ្តទិន្នន័យ។ ប្លង់បាប់ដោយ [Jen Looper](https://twitter.com/jenlooper) នាំមកពី [រូបនេះ](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> រូបភាពបង្ហាញទំនាក់ទំនងរវាង AI, ML, រៀនជ្រៅ និងវិទ្យាសាស្ត្រទិន្នន័យ។ រូបភាពអត្ថាធិប្បាយដោយ [Jen Looper](https://twitter.com/jenlooper) អាចប្រើប្រាស់ពីរូបភាពនេះ [this graphic](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## គន្លឹះដែលត្រូវរៀន +## គំនិតដែលត្រូវគ្របដណ្តប់ -នៅក្នុងវគ្គនេះ យើងនឹងគ្របដណ្តប់ត្រឹមតែគន្លឹះស្នូលនៃការរៀនម៉ាស៊ីនដែលអ្នកចាប់ផ្ដើមត្រូវបានគេរៀន។ យើងលើកឡើងអ្វីដែលហៅថា 'classical machine learning' ជាចម្បងប្រើ Scikit-learn ដែលជាបណ្ណាល័យល្អសម្រាប់សិស្សជាច្រើនក្នុងការរៀនមូលដ្ឋាន។ ដើម្បីយល់ពីគំនិតធំទូលាយនៃបញ្ញាសិប្បនិម្មិត ឬការរៀនជ្រៅ បានត្រូវកំលាំងចំណេះដឹងមូលដ្ឋានរឹងមាំមួយនៃការរៀនម៉ាស៊ីន ហើយយើងចង់ផ្តល់វា នៅទីនេះ។ +ក្នុងមេរៀននេះ យើងនឹងគ្របដណ្តប់តែគំនិតមូលដ្ឋាននៃការរៀនម៉ាស៊ីនដែលអ្នកចាប់ផ្តើមត្រូវតែដឹង។ យើងគ្របដណ្តប់អ្វីដែលយើងហៅថា "classical machine learning" ជាចម្បងដោយប្រើប្រាស់ Scikit-learn ជាបណ្ណាល័យល្អឥតខ្ចោះដែលសطلابជាច្រើនប្រើសម្រាប់រៀនមូលដ្ឋាន។ ដើម្បីយល់យ៉ាងទូលំទូលាយអំពីគំនិតបញ្ញាសិប្បនិម្មិត ឬរៀនជ្រៅ ចំណេះដឹងមូលដ្ឋានរឹងមាំអំពីការរៀនម៉ាស៊ីន គឺមានសារៈសំខាន់ ខណ:យើងចង់ផ្តល់វានៅទីនេះ។ --- -## ក្នុងវគ្គនេះ អ្នកនឹងរៀនពី៖ +## នៅក្នុងមុខវិជ្ជានេះ អ្នកនឹងរៀន៖ -- គន្លឹះស្នូលនៃការរៀនម៉ាស៊ីន -- ប្រវត្តិការរៀនម៉ាស៊ីន -- ការរៀនម៉ាស៊ីន និងភាពយុត្តិធម៌ -- ជំនាញ ML សម្រាប់បញ្ហាអនុគមន៍វិនិយោគ (regression) -- ជំនាញ ML សម្រាប់ចាត់ថ្នាក់ (classification) -- ជំនាញ ML សម្រាប់ក្រុមគ្នា (clustering) -- ជំនាញ ML សម្រាប់ដំណើរការភាសាត្រឹមត្រូវ (natural language processing) -- ជំនាញ ML សម្រាប់ការព្យាករណ៍ស៊េរីពេលវេលា (time series forecasting) -- ការរៀនតាមមូលដ្ឋានការបង្រៀន (reinforcement learning) -- ករណីប្រើប្រាស់ដែលមាននៅក្នុងពិភពជាក់ស្តែងសម្រាប់ ML +- គំនិតមូលដ្ឋាននៃការរៀនម៉ាស៊ីន +- ប្រវត្តិ ML +- ML និងភាពយុត្តិធម៌ +- បច្ចេកទេស regression ML +- បច្ចេកទេស classification ML +- បច្ចេកទេស clustering ML +- បច្ចេកទេស natural language processing ML +- បច្ចេកទេស time series forecasting ML +- reinforcement learning +- ការអនុវត្តពិតប្រាកដសម្រាប់ ML --- ## អ្វីដែលយើងមិនគ្របដណ្តប់ -- ការរៀនជ្រៅ (deep learning) -- បណ្តាញប្រព័ន្ធប្រតិបត្តិកម្មប្រសព្វ (neural networks) -- បញ្ញាសិប្បនិម្មិត (AI) +- រៀនជ្រៅ +- បណ្ដាញប្រសាទ +- AI -ដើម្បីធ្វើឱ្យមានបទពិសោធន៍សិក្សាជាងនេះ យើងនឹងបម្លែងការលំបាករបស់បណ្តាញប្រព័ន្ធប្រតិបត្តិកម្ម ប្រភេទ 'deep learning' ដែលជាការសាងសង់គំរូជាច្រើនជាន់ ដោយប្រើបណ្តាញប្រព័ន្ធប្រតិបត្តិកម្ម និង AI ដែលយើងនឹងពិភាក្សាវា នៅក្នុងវគ្គផ្សេងទៀត។ យើងនឹងផ្តល់ថ្នាក់សិក្សាវិទ្យាសាស្ត្រទិន្នន័យមួយមកក្រោយដើម្បីផ្តោតលើផ្នែកនោះ។ +ដើម្បីបង្កើតបទពិសោធន៍សិក្សាល្អ យើងនឹងចៀសវាងភាពស្មុគស្មាញនៃបណ្តាញប្រសាទ, "រៀនជ្រៅ" ដែលជាការប្រើបណ្តាញប្រសាទដើម្បីកសាងម៉ូឌែលមានជ្រៅច្រើនស្រទាប់ និង AI ដែលយើងនឹងពិភាក្សានៅមុខវិជ្ជាផ្សេង។ យើងក៏នឹងផ្តល់មុខវិជ្ជាថ្មីបន្ថែមស្តីពីវិទ្យាសាស្ត្រទិន្នន័យដើម្បីផ្ដោតអារម្មណ៍លើផ្នែកនេះ។ --- -## ហេតុអ្វីបានជាអាចរៀនការរៀនម៉ាស៊ីន? +## ប៉ុន្មានហេតុផលក្នុងការសិក្សាររៀនម៉ាស៊ីន? -ការរៀនម៉ាស៊ីន តាមទស្សនវិជ្ជាស៊ីស្តុំ កំណត់ថាជាការបង្កើតប្រព័ន្ធស្វ័យប្រវត្តិ ដែលអាចរៀនពីលំនាំលាក់ក្នុងទិន្នន័យ ដើម្បីជួយក្នុងការបង្កើតសេចក្តីសម្រេចយុត្តិធម៌យ៉ាងមានមហិច្ឆតា។ +ការរៀនម៉ាស៊ីន យ៉ាងទូលំទូលាយ ចែងកំណត់ជា ការបង្កើតប្រព័ន្ធស្វ័យប្រវត្តដែលអាចរៀនពីលំនាំលាក់ដែលមានក្នុងទិន្នន័យ ដើម្បីជួយសម្រេចចិត្តយ៉ាងប្រាជ្ញា។ -ជំនោគនេះគឺបានទទួលការប្រៀបធៀបយ៉ាងមិនតឹងរឹងទេពីរបៀបដែលខួរក្បាលមនុស្សរៀនអ្វីមួយវាលើទិន្នន័យដែលខួរក្បាលទទួលបានពីបរិយាកាសខាងក្រៅ។ +គំនិតនេះបានបញ្ចោញដោយរបៀបដែលខួរក្បាលមនុស្សរៀនអ្វីមួយចំនួនយោងទៅលើទិន្នន័យដែលវាយល់ដឹងពីពិភពក្រៅ។ -✅ សូមគិតរយៈពេលជាមួយអ្នកមួយនាទីថា ហេតុអ្វីបានជាអាជីវកម្មចង់ប្រើវិធីសាស្រ្តការរៀនម៉ាស៊ីន ផ្ទុយពីការបង្កើតម៉ោងកូដលក្ខខណ្ឌរឹងមាំ។ +✅ គិតមួយនាទីហេតុអ្វីបានជាក្រុមហ៊ុនចង់ប្រើយុទ្ធសាស្រ្ត machine learning ជ្រើសរើសជំនួសការបង្កើតប្រព័ន្ធច្បាប់ដ៏រឹងមាំមួយ។ --- -## ការប្រើប្រាស់ការរៀនម៉ាស៊ីន +## ហេតុអ្វីបានជា គុណភាពទិន្នន័យសំខាន់? -កម្មវិធីនៃការរៀនម៉ាស៊ីនឥឡូវនេះមានគ្រប់ទីកន្លែង ហើយពេញលេញដូចទិន្នន័យដែលហូរៀងជុំវិញសង្គមយើង ដែលបង្កើតដោយទូរស័ព្ទដៃឆ្លាតរបស់យើង ឧបករណ៍ភ្ជាប់ និងប្រព័ន្ធផ្សេងទៀត។ ក្នុងការប្រកួតប្រជែងនៃអាល់ហ្គោរីធម៍ការរៀនម៉ាស៊ីនដ៏ទំនើប បណ្ឌិតស្រាវជ្រាវបានស្វែងយល់ពីសមត្ថភាពរបស់ពួកគេនៅក្នុងដោះស្រាយបញ្ហាជាច្រើនdimensional និង multidisciplinary នៃជីវិតពិតជាមួយលទ្ធផលវិជ្ជមានជាច្រើន។ +ទិន្នន័យគុណភាពខ្ពស់បង្កើនប្រសិទ្ធភាពម៉ូឌែល។ ទិន្នន័យអន់ ឬពេញដោយសម្លេងរំខាន អាចនាំឱ្យទន់ភាគការទាយដែលមិនត្រឹមត្រូវ ទោះបីមានការប្រើប្រាស់អាល់ហ្គរីធម៍ machine learning កម្រិតខ្ពស់ក៏ដោយ។ --- -## ឧទាហរណ៍នៃ ML ដែលបានអនុវត្ត +## ការអនុវត្តន៍នៃ machine learning -**អ្នកអាចប្រើប្រាស់ការរៀនម៉ាស៊ីននៅក្នុងវិធីជាច្រើន**៖ +ការអនុវត្តន៍នៃ machine learning ឥឡូវមាននៅគ្រប់ទីកន្លែង ហើយពេញលេញដូចទិន្នន័យដែលរាលដាលនៅជុំវិញសង្គមយើង ដែលបង្កើតឡើងដោយទូរស័ព្ទឆ្លាត អេក្រង់ភ្ជាប់ ប៉ុន្តែប្រាប់ថាសកម្មភាពផ្សេងៗ។ គិតសម្រាប់សក្តានុពលដ៏ធំនៃអាល់ហ្គរីធម៍ machine learning កម្រិតខ្ពស់ អ្នកស្រាវជ្រាវបានស្វែងរកសមត្ថភាពរបស់ពួកវាជួយដោះស្រាយបញ្ហាជាច្រើនមុខ ពីជំហរផ្លូវការនិងចម្រុះដោយលទ្ធផលវិជ្ជមាន។ -- ដើម្បីព្យាករណ៍អត្រាឆាប់ជម្ងឺពីប្រវត្តិវេជ្ជសាស្ត្រឬរបាយការណ៍របស់អ្នកជំងឺម្នាក់។ -- ដើម្បីប្រើទិន្នន័យអាកាសធាតុក្នុងការព្យាករណ៍លទ្ធផលអាកាសធាតុ។ -- ដើម្បីយល់ពីអារម្មណ៍នៃអត្ថបទមួយ។ -- ដើម្បីរកឃើញព័ត៌មានមិនពិត ដើម្បីបិទបាំងការផ្សាយពាណិជ្ជកម្មមិនពិត។ +--- +## ឧទាហរណ៍នៃការអនុវត្ត ML + +**អ្នកអាចប្រើ machine learning ដោយរបៀបជាច្រើន**៖ + +- ដើម្បីទាយករណីជំងឺពីប្រវត្តិវេជ្ជសាស្ត្រឬរបាយការណ៍របស់អ្នកជំងឺម្នាក់។ +- ដើម្បីប្រើទិន្នន័យអាកាសធាតុទាយព្រឹត្តិការណ៍អាកាសធាតុ។ +- ដើម្បីយល់ចិត្តអារម្មណ៍របស់អត្ថបទមួយ។ +- ដើម្បីរកឃើញព័ត៌មានចេកចល ដែលគ្រប់គ្រាន់ក្នុងការបញ្ឈប់ការបញ្ចុះផ្សាយពត៌មានបច្ចុប្បន្ន។ -វិស័យហិរញ្ញវត្ថុ សេដ្ឋកិច្ច វិទ្យាសាស្ត្រផែនដី ការស្វែងរកអាកាស ការវិទ្យាសាស្ត្រពេទ្យ វិទ្យាសាស្ត្រស្មារតី និងសតិវិទ្យា និងជំនាញមួយចំនួននៅវិស័យមនុស្សវិទ្យា ក៏បានអភិវឌ្ឍការរៀនម៉ាស៊ីនដើម្បីដោះស្រាយបញ្ហាដ៏ញឹកញាប់ នៃការប្រមូលទិន្នន័យធុញទ្រាន់នូវដែនជួញដូរ។ +វិស័យហិរញ្ញវត្ថុ សេដ្ឋកិច្ច វិទ្យាសាស្ត្រប្រព័ន្ធសរីរាង្គ សិល្បៈនៃការស្វែងយល់ និងមុខវិជ្ជាមនុស្សវិទ្យា ត្រូវបានអប់រំដោយ machine learning ដើម្បីដោះស្រាយបញ្ហា ពេញនិយមមានទិន្នន័យធំ ដែលមានភាពពិបាក។ --- ## សេចក្តីសន្និដ្ឋាន -ការរៀនម៉ាស៊ីនបន្ទាន់សកម្មភាពស្វែងរកលំនាំដោយរកដំណោះស្រាយមានន័យពីទិន្នន័យពិតប្រាកដ ឬទិន្នន័យដែលបង្កើតឡើង។ វាបានបញ្ជាក់ថាមានតម្លៃខ្ពស់បំផុតក្នុងវិស័យអាជីវកម្ម សុខភាព និងហិរញ្ញវត្ថុ ជាដើម។ +ការរៀនម៉ាស៊ីន ជំនួយឱ្យដំណើរការរកឃើញលំនាំដោយស្វ័យប្រវត្តិ ដោយរកឃើញជំនាញមានន័យពីទិន្នន័យពិត ឬទិន្នន័យបង្កើតឡើង។ វាបានបង្ហាញភាពមានប្រយោជន៍ខ្ពស់នៅជំនួញ សុខភាព ហិរញ្ញវត្ថុ និងវិស័យផ្សេងទៀត។ -នៅពេលអនាគតជិតមក ការយល់ដឹងពីមូលដ្ឋាននៃការរៀនម៉ាស៊ីន នឹងក្លាយជាការដែលមនុស្សគ្រប់វិស័យតម្រូវការចង់យល់ ខ្លួនដោយសារតែកំណាត់ទោលបណ្ដាញរបស់វាត្រូវបានទទួលយកយ៉ាងទូលំទូលាយ។ +នៅពេលខាងមុខ ការយល់ដឹងពីមូលដ្ឋាននៃការរៀនម៉ាស៊ីននឹងក្លាយជាការចាំបាច់សម្រាប់មនុស្សពីគ្រប់វិស័យដោយសារតែការទទួលយកគ្រប់គ្រាន់របស់វា។ --- -# 🚀 ប défi +# 🚀 챌린지 -គូររូបរាង លើក្រដាស ឬប្រើកម្មវិធីផ្សេងទៀតដូចជា [Excalidraw](https://excalidraw.com/), ពិចារណាអំពីភាពខុសគ្នារវាង AI, ML, ការរៀនជ្រៅ និងវិទ្យាសាស្ត្រទិន្នន័យ។ បន្ថែមគំនិតអំពីបញ្ហាណាមួយដែលបច្ចេកទេសទាំងនេះល្អក្នុងការដោះស្រាយ។ +គូររូបភាពលើក្រដាស ឬប្រើកម្មវិធីអនឡាញដូចជា [Excalidraw](https://excalidraw.com/), សម្រាប់យល់ដឹងរបស់អ្នកអំពីភាពខុសគ្នារវាង AI, ML, រៀនជ្រៅ និងវិទ្យាសាស្ត្រទិន្នន័យ។ បន្ថែមគំនិតបញ្ហាមួយចំនួនដែលបច្ចេកទេសទាំងនេះឆាប់សម្រួលក្នុងការដោះស្រាយ។ -# [សំណួរតេស្តបន្ទាប់ថ្នាក់](https://ff-quizzes.netlify.app/en/ml/) +# [សំណួរបន្ទាប់វគ្គសិក្សា](https://ff-quizzes.netlify.app/en/ml/) --- -# ការពិនិត្យឡើងវិញ និងសិក្សាឯករាជ្យ +# ការត្រួតពិនិត្យ និងការសិក្សាឯកោ -ដើម្បីរៀនបន្ថែមអំពីរបៀបដែលអ្នកអាចធ្វើការជាមួយអាល់ហ្គោរីធម៍ ML នៅក្នុងពពក សូមអនុវត្តតាម [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) នេះ។ +ដើម្បីស្វែងយល់បន្ថែមអំពីរបៀបដែលអ្នកអាចធ្វើការជាមួយអាល់ហ្គរីធម៍ ML នៅក្នុងមេฆា ត្រូវតាមដាន [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) នេះ។ ចូលរួម [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) អំពីមូលដ្ឋាននៃ ML។ --- -# ផ្ដល់ការងារ +# ការចាត់តាំង -[ចាប់ផ្ដើមដំណើរការ](assignment.md) +[ចាប់ផ្តើមរត់](assignment.md) --- -**ការបញ្ជាក់**៖ -ឯកសារនេះត្រូវបានបកប្រែដោយប្រើសេវាកម្មបកប្រែ AI [Co-op Translator](https://github.com/Azure/co-op-translator)។ ទោះ​យើង​ព្យាយាម​ធ្វើ​ឲ្យ​មានភាពត្រឹមត្រូវ នោះទេ សូមយល់ដឹងថាការបកប្រែដោយស្វ័យប្រវត្តិអាចមានកំហុស ឬភាពមិនត្រឹមត្រូវខ្លះ។ ឯកសារដើមជាភាសាជាតិនៃឯកសារនោះគួរត្រូវបានទទួលស្គាល់ថាជាភស្តុតាង​ផ្លូវការជាចម្បង។ សម្រាប់ព័ត៌មានសំខាន់ៗ អនុញ្ញាតឲ្យមានការបកប្រែដោយអ្នកជំនាញមនុស្សជំនាញ។ យើងមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកប្រែច្រឡំណាមួយដែលកើតឡើងពីការប្រើប្រាស់ការបកប្រែនេះទេ។ +**ការបដិសេធ**: +ឯកសារនេះត្រូវបានបម្លែងភាសា ដោយប្រើសេវាបម្លែងភាសា AI [Co-op Translator](https://github.com/Azure/co-op-translator)។ ទោះយើងខ្ញុំមានក្តីប្រាថ្នាឱ្យបានច្បាស់លាស់ តែសូមយល់ដឹងថាការបម្លែងដោយស្វ័យប្រវត្តិក៏អាចមានកំហុសឬភាពមិនត្រឹមត្រូវ។ ឯកសារដើមជាភាសាទីតាំងគួរត្រូវបានគេប្រើជាប្រភពច្បាស់លាស់។ សម្រាប់ព័ត៌មានសំខាន់ៗ សូមណែនាំឱ្យប្រើប្រាស់ការប្រែដោយមនុស្សជំនាញ។ យើងខ្ញុំមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកស្រាយខុសបន្ទាប់ពីការប្រើប្រាស់ការបម្លែងនេះនោះទេ។ \ No newline at end of file diff --git a/translations/km/5-Clustering/1-Visualize/README.md b/translations/km/5-Clustering/1-Visualize/README.md index 77249b639..e22f5c1d7 100644 --- a/translations/km/5-Clustering/1-Visualize/README.md +++ b/translations/km/5-Clustering/1-Visualize/README.md @@ -1,115 +1,116 @@ -# សេចក្ដីផ្តើមអំពីការចែកទំព័រ +# ការណែនាំអំពីការបែងចែកក្រុម -ការចែកទំព័រជាប្រភេទ [ការសិក្សាឥតគ្រប់គ្រង](https://wikipedia.org/wiki/Unsupervised_learning) ដែលគិតថា អាសយដ្ឋានទិន្នន័យមួយគ្មានស្លាក ឬថា បញ្ចូលរបស់វាមិនបានផ្គូរផ្គងជាមួយលទ្ធផលដែលកំណត់រួចជាស្រេច។ វា​ប្រើប្រាស់​អាល់ហ្គរីធម៍ផ្សេងៗ ដើម្បីខ្វះខាតតាមទិន្នន័យគ្មានស្លាក និងផ្តល់ការបែងចែកតាមលំនាំដែលវាស្គាល់បានក្នុងទិន្នន័យ។ +ការបែងចែកក្រុមគឺជាប្រភេទនៃការសិក្សាដោយគ្មានការត្រួតពិនិត្យ ([Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning)) ដែលទាយថា ឯកសារទិន្នន័យមិនមានស្លាក ឬថា ទិន្នន័យបញ្ចូលរបស់វាមិនត្រូវបានតភ្ជាប់ជាមួយនឹងលទ្ធផលដែលបានកំណត់ជាមុន។ វា​ប្រើ​អាល់ហ្គோரី​ធម៍​ផ្សេងៗ​ដើម្បី​ចម្រោះតាមទិន្នន័យ​គ្មាន​ស្លាក និងផ្តល់​ការបែងចែកជាក្រុម​តទៅតាមលំនាំដែលវាសង្កេតឃើញក្នុងទិន្នន័យ។ [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ។ ខណៈពេលដែលអ្នកកំពុងសិក្សាអំពីការសិក្សាម៉ាស៊ីនជាមួយការចែកទំព័រ សូមរីករាយជាមួយបទចម្រៀង Dance Hall នៃប្រទេសណាយហ្សេរី - នេះជាបទដែលមានការវាយតម្លៃខ្ពស់បំផុតពីឆ្នាំ ២០១៤ ដោយ PSquare។ +> 🎥 ចុចរូបភាព​ខាងលើសម្រាប់វីដេអូ។ ខណៈពេលដែលអ្នកកំពុងរៀនម៉ាស៊ីនរៀនជាមួយការបែងចែកក្រុម សូមរីករាយជាមួយបទចម្រៀង Dance Hall នៃប្រទេស Nigeria – នេះគឺជាបទចម្រៀងដែលមានការវាយតម្លៃខ្ពស់ពីឆ្នាំ 2014 ដោយ PSquare។ -## [សំណួរលទ្ធផលមុនជំនอบ](https://ff-quizzes.netlify.app/en/ml/) +## [សំនួរតេស្តមុនអធិប្បាយ](https://ff-quizzes.netlify.app/en/ml/) -### សេចក្ដីផ្តើម +### ការណែនាំ -[ការចែកទំព័រ](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) មានប្រយោជន៍ខ្លាំងសម្រាប់ការស្វែងរកទិន្នន័យ។ មកមើលថាវាអាចជួយរកឃើញនិន្នាការនិងលំនាំក្នុងរបៀបដែលអ្នកទស្សនាណាយហ្សេរីប្រើប្រាស់តន្ត្រី។ +[ការបែងចែកក្រុម](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) មានប្រយោជន៍ខ្លាំងសម្រាប់ការស្វែងយល់ទិន្នន័យ។ យើងមកមើលថា តើវាអាចជួយរកឃើញនិន្នាការនិងលំនាំនៅវិធីដែលអ្នកស្តាប់ភ្លេងកម្ពុជាស៊ីវ៉េងហ្សិកប៍រមកបានយ៉ាងដូចម្តេច។ -✅ ចំណាយពេលមួយនាទី ដើម្បីគិតពីការប្រើប្រាស់ចែកទំព័រ។ ក្នុងជីវិតពិត ការចែកទំព័រកើតឡើងពេលដែលអ្នកមានសំលៀកបំពាក់មិនកខ្វះ និងត្រូវរុំសំលៀកបំពាក់របស់សមាជិកគ្រួសារ 🧦👕👖🩲។ ក្នុងវិទ្យាសាស្ត្រទិន្នន័យ ការចែកទំព័រកើតឡើងពេលកំពុងព្យាយាមវិភាគចំណូលចិត្តរបស់អ្នកប្រើ ឬកំណត់លក្ខណៈពិសេសនៃឯកសារទិន្នន័យគ្មានស្លាកមួយ។ ការចែកទំព័រជាទម្រង់មួយជួយធ្វើអោយមានការយល់ដឹងអំពីអ្វីដែលមិនប្រក្រតី ដូចជាប្រអប់ស្បែកជើង។ +✅ ចំណាយពេលមួយនាទីគិតអំពីប្រយោជន៍នៃការបែងចែកក្រុម។ ក្នុងជីវិតពិត ការបែងចែកក្រុមកើតឡើងខណៈដែលអ្នកមានចំណុចគ្រប់យ៉ាងនៃការកក់ស្បែក ហើយត្រូវតែចម្រោះសម្លៀកបំពាក់របស់សមាជិកគ្រួសាររបស់អ្នក 🧦👕👖🩲។ ក្នុងវិទ្យាសាស្ត្រទិន្នន័យ ការបែងចែកក្រុមកើតឡើងពេលខល្បងវិភាគចំណូលចិត្តរបស់អ្នកប្រើ ហើយកំណត់លក្ខណៈនៃឯកសារទិន្នន័យគ្មានស្លាក។ ការបែងចែកក្រុម ជួយបំភ្លឺន័យចម្រង់ដូចជាប្រអប់ស្រោមជើងស្បែក។ [![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ: John Guttag នៃ MIT ផ្តល់បង្ហាញអំពីការចែកទំព័រ +> 🎥 ចុចរូបភាពខាងលើសម្រាប់វីដេអូ៖ John Guttag របស់ MIT គឺណែនាំអំពីការបែងចែកក្រុម -នៅក្នុងបរិបទវិជ្ជាជីវៈ ការចែកទំព័រអាចប្រើសម្រាប់កំណត់របស់ដូចជា បំបែកទីផ្សារ កំណត់អាយុក្រុមដែលទិញទំនិញណាមួយ ជាដើម។ ការប្រើប្រាស់មួយផ្សេងទៀតគឺកំណត់ការរកឃើញករណីបញ្ហា ដូចជាការរកឃើញការលួចសារ ប្រសិនបើមានទិន្នន័យប្រតិបត្តិការកាតឥណទាន។ ឬអ្នកអាចប្រើការចែកទំព័រដើម្បីកំណត់ឆៅនៅក្នុងស្កេនវេជ្ជសាស្ត្រជាច្រើន។ +នៅក្នុងបរិដ្ឋានវិជ្ជាជីវៈ ការបែងចែកក្រុមអាចប្រើសម្រាប់កំណត់ចំណែកទីផ្សារ កំណត់ថា តើក្រុមអាយុណាដែលទិញមុខទំនិញណា ឧទាហរណ៍។ ប្រើសម្រាប់រកករណីប្លែកៗ ឧត្តមសម្រាប់រកការលួចបន្លំពីកម្រិតទិន្នន័យប្រតិបត្តិការកាតឥណទាន។ ឬអ្នកអាចប្រើការបែងចែកក្រុមដើម្បីច្បាស់លាស់ភាពមានមហារីកក្នុងឯកសារស្កែនវេជ្ជសាស្រ្តមួយ។ -✅ ចំណាយពេលមួយនាទីគិតពីរបៀបដែលអ្នកប្រហែលជាបានប្រទះមកការចែកទំព័រ 'ក្នុងធម្មជាតិ' នៅក្នុងបរិបទធនាគារ អ៊ី-ម៉ាស៊ីនបំពង់ ឬអាជីវកម្ម។ +✅ ចំណាយពេលមួយនាទីគិតពីវិធីដែលអ្នកបានជួបប្រទៈជាមួយការបែងចែកក្រុមក្នុងបរិដ្ឋានធម្មជាតិ ដូចជា ធនាគារ, ពាណិជ្ជកម្មអេឡិចត្រូនិក, ឬអាជីវកម្ម។ -> 🎓 វិជ្ជាជីវៈដែលគួរឲ្យចាប់អារម្មណ៍ ការវិភាគក្រុមត្រូវបានចាប់ផ្តើមនៅក្នុងដែនវិទ្យាសាស្ត្រអង់ត្រូប្យូឡូជី និង ហ្សីកូឡូជី ក្នុងឆ្នាំ ១៩៣០។ តើអ្នកអាចស្រមៃថាវាបានប្រើប្រាស់ដូចម្តេច? +> 🎓 ចំនុចគួរចាប់អារម្មណ៍ គឺការ​វិភាគ​ក្រុម​បានចាប់ផ្តើម​នៅ​ក្នុង វិស័យ Anthropology និង Psychology ក្នុងឆ្នាំ 1930។ តើអ្នកអាចស្រមៃថាវាត្រូវបានប្រើយ៉ាងដូចម្តេច? -ផ្សេងទៀត អ្នកអាចប្រើសម្រាប់ក្រុមលទ្ធផលស្វែងរក - តាមតំណភ្ជាប់ទំនិញ រូបភាព ឬ ការវាយតម្លៃ ជាដើម។ ការចែកទំព័រមានប្រយោជន៍ពេលអ្នកមានទិន្នន័យធំដែលអ្នកចង់បន្ថយ ហើយចង់អនុវត្តវិភាគលម្អិតជាងនេះ ដូច្នេះបច្ចេកវិទ្យានេះអាចប្រើសម្រាប់រៀនអំពីទិន្នន័យមុនពេលម៉ូដែលផ្សេងទៀតត្រូវបានបង្កើត។ +ក្នុងករណីផ្សេងទៀត អ្នកអាចប្រើវាសម្រាប់បែងចែកលទ្ធផលស្វែងរក - ជាដំណាក់កាលផ្ដោតតាមតំណភ្ជាប់ទំនិញ, រូបភាព, ឬការវាយតម្លៃ។ ការបែងចែកក្រុមមានប្រយោជន៍ខ្លាំងនៅពេលដែលអ្នកមានទិន្នន័យច្រើនដែលអ្នកចង់កាត់បន្ថយ ហើយធ្វើការវិភាគជាមុខងារជ្រាលជ្រៅបន្ថែម ដូច្នេះបច្ចេកទេសនេះអាចប្រើសម្រាប់រៀនអំពីទិន្នន័យ មុនពេលថតម៉ូដែលផ្សេងៗ។ -✅ ពេលទិន្នន័យរបស់អ្នកត្រូវរៀបចំជាក្រុម អ្នកផ្ដល់លេខសម្គាល់ក្រុម ហើយបច្ចេកទេសនេះអាចមានប្រយោជន៍ពេលរក្សាទុកឯកជនភាពនៃទិន្នន័យ; អ្នកអាចយោងទៅតាមចំណុចទិន្នន័យដោយលេខសម្គាល់ក្រុមជំនួស លេខសម្គាល់ដែលបង្ហាញអត្តសញ្ញាណខ្លះៗជាងនេះ។ តើអ្នកអាចគិតមូលហេតុផ្សេងទៀតដែលអ្នកនឹងយោងលេខសម្គាល់ក្រុមជំនួសធាតុផ្សេងៗក្នុងក្រុមដើម្បីកំណត់វា? +✅ បន្ទាប់ពីទិន្នន័យរបស់អ្នកត្រូវបានរៀបចំក្នុងក្រុម អ្នកបែងចែកវាជា ID ក្រុម ហើយបច្ចេកទេសនេះអាចមានប្រយោជន៍នៅពេលរក្សាអាហារូបត្ថម្ភនៃទិន្នន័យ; អ្នកអាចយោងទៅកាន់ចំណុចទិន្នន័យដោយ ID ក្រុម ជំនួសទៅនឹងប្រើទិន្នន័យដែលបង្ហាញអត្តសញ្ញាណ។ តើអ្នកអាចគិតអំពីមូលហេតុផ្សេងទៀតហើយហេតុអ្វីបានជាជ្រើសយោង ID ក្រុមជាជំនួសវត្ថុផ្សេងទៀតក្នុងក្រុមដើម្បីកំណត់វា? -ពង្រីកការយល់ដឹងរបស់អ្នកអំពីបច្ចេកទេសចែកទំព័រនៅក្នុង [មូឌុលរៀននេះ](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) -## ការចាប់ផ្តើមជាមួយការចែកទំព័រ +បន្ថែមការយល់ដឹងរបស់អ្នកអំពីបច្ចេកទេសបែងចែកក្រុមក្នុងមេឡឺន [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) -[Scikit-learn ផ្ដល់ជម្រើសធំទូលាយ](https://scikit-learn.org/stable/modules/clustering.html) នៃវិធីសាស្ត្រដើម្បីអនុវត្តការចែកទំព័រ។ ប្រភេទដែលអ្នកជ្រើសរើសនឹងអាស្រ័យលើការប្រើប្រាស់របស់អ្នក។ គោលបំណងផ្អែកលើឯកសារយោង នីតិវិធីមួយៗមានអត្ថប្រយោជន៍ជាច្រើន។ ទីនេះគឺជាតារាងសាមញ្ញនៃវិធីដែល Scikit-learn គាំទ្រ និងករណីប្រើប្រាស់សមរម្យ៖ +## ការចាប់ផ្តើមជាមួយការបែងចែកក្រុម -| ឈ្មោះវិធីសាស្ត្រ | ករណីប្រើប្រាស់ | -| :------------------------------ | :-------------------------------------------------------------------- | -| K-Means | ប្រើទូទៅ ជាវិធីចូលពីមុខ | -| Affinity propagation | ក្រុមច្រើន មិនស្មើរ ជាវិធីចូលពីមុខ | -| Mean-shift | ក្រុមច្រើន មិនស្មើរ ជាវិធីចូលពីមុខ | -| Spectral clustering | ក្រុមកាត់សរុប មួយចំនួន ស្មើរ ជាវិធីប្រើផ្ទាល់ | -| Ward hierarchical clustering | ក្រុមច្រើន មានកំណត់ ជាវិធីប្រើផ្ទាល់ | -| Agglomerative clustering | ក្រុមច្រើន មានកំណត់ ចម្ងាយមិនមែន Euclidean ជាវិធីប្រើផ្ទាល់ | -| DBSCAN | ជីមេត្រីមិនស្មើរ មិនស្មើរ ជាវិធីប្រើផ្ទាល់ | -| OPTICS | ជីមេត្រីមិនស្មើរ មិនស្មើរជាមួយដង់ស៊ីតេចម្រុះ ជាវិធីប្រើផ្ទាល់ | -| Gaussian mixtures | ជីមេត្រីស្មើរ ជាវិធីចូលពីមុខ | -| BIRCH | ទិន្នន័យធំពីរដុំជាមួយ outliers ជាវិធីចូលពីមុខ | +[Scikit-learn ផ្ដល់ជូននូវវីធីផ្សេងៗ](https://scikit-learn.org/stable/modules/clustering.html) សម្រាប់បំពេញការបែងចែកក្រុម។ ប្រភេទដែលអ្នកជ្រើសរើសនឹងអាស្រ័យលើការប្រើប្រាស់របស់អ្នក។ យោងតាមឯកសារ ចំណុចផ្សេងគ្នានៃមាគ៌ាមួយៗមានអត្ថប្រយោជន៍ខុសៗគ្នា។ នេះគឺជាបារាំងតារាងសាមញ្ញនៃវិធីសាស្ត្រ ដែលស្គីតឡើនគាំទ្រ និងករណីប្រើប្រាស់សមរម្យរបស់ពួកវា៖ -> 🎓 របៀបយើងបង្កើតក្រុមមានទំនាក់ទំនងយ៉ាងខ្លាំងជាមួយរបៀបយើងបម្លែងចំណុចទិន្នន័យទៅជាក្រុម។ មកពន្យល់ពាក្យមួយចំនួន៖ +| ឈ្មោះវិធីសាស្ត្រ | ករណីប្រើ | +| :--------------------------- | :----------------------------------------------------------------- | +| K-Means | គោលបំណងទូទៅ, inductive | +| Affinity propagation | ក្រុមច្រើន, មិនស្មើ, inductive | +| Mean-shift | ក្រុមច្រើន, មិនស្មើ, inductive | +| Spectral clustering | ក្រុមតិច, ស្មើ, transductive | +| Ward hierarchical clustering | ក្រុមច្រើន, ដាក់កំណត់, transductive | +| Agglomerative clustering | ក្រុមច្រើន, ដាក់កំណត់, បំបែកប្រភេទអេយូស៍ Euclidean, transductive | +| DBSCAN | គំនរផ្ទៃមិនស្មើ, ក្រុមមិនស្មើ, transductive | +| OPTICS | គំនរផ្ទៃមិនស្មើ, ក្រុមមិនស្មើជាមួយសំបុត្រផ្ទឹងខុសៗគ្នា, transductive | +| Gaussian mixtures | គំនរផ្ទៃស្មើ, inductive | +| BIRCH | ឯកសារទិន្នន័យធំជាមួយច្រេីន, inductive | + +> 🎓 របៀបដែលយើងបង្កើតក្រុមពាក់ព័ន្ធយ៉ាងខ្លាំងនឹងរបៀបយើងប្រមូលចំណុចទិន្នន័យទៅជាក្រុម។ យើងមកពន្យល់ពាក្យគន្លឹះ៖ > -> 🎓 ['ប្រភេទប្រើផ្ទាល់' ទល់នឹង 'ចូលពីមុខ'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['Transductive' ទល់នឹង 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> ការអនុវត្តប្រភេទប្រើផ្ទាល់ចេញមកពីករណីបណ្តុះបណ្តាលដែលត្រូវម៉េចទៅករណីតេស្តជាក់លាក់។ ការអនុវត្តចូលពីមុខចេញពីករណីបណ្តុះបណ្តាលដែលប្រើទៅលក្ខណៈទូទៅ ហើយបន្ទាប់មកអនុវត្ដទៅករណីតេស្ត។ +> ការសន្និដ្ឋានតាមការបញ្ជូន (transductive inference) នៅលើករណីបណ្តុះបណ្តាលដែលតភ្ជាប់ទៅករណីសាកល្បងជាក់លាក់។ ការសន្និដ្ឋានអនុគមន៍ (inductive inference) គឺចេញពីករណីបណ្តុះបណ្តាលដែលដាក់ចេញជាការតំលើងទង្វើទូទៅ ហើយបន្ទាប់មកអនុវត្តទៅករណីសាកល្បង។ > -> ឧទាហរណ៍៖ សូមស្រមៃថាអ្នកមានទិន្នន័យដែលមានស្លាកតិចតួច។ អ្វីខ្លះជារេកតិត (records), អ្វីខ្លះជាលីបស៊ីឌី (cds), ហើយអ្វីខ្លះទៀតទទេ។ ការងាររបស់អ្នកគឺផ្ដល់ស្លាកមកសម្រាប់អ្វីទទេ។ ប្រសិនបើអ្នកជ្រើសរើសវិធីចូលពីមុខ អ្នកនឹងបង្ហាត់ម៉ូដែលស្វែងរករេកតិត និងលីបស៊ីឌី ហើយអនុវត្តស្លាកទាំងនោះទៅលើទិន្នន័យគ្មានស្លាក។ វិធីនេះនឹងមានបញ្ហាក្នុងការបែងចែកវត្ថុដែលពិតជាជាស៊ីស៊ីត (cassettes)។ តាមផ្ទុយ, វិធីប្រើផ្ទាល់មានសមត្ថភាពច្រើនក្នុងការដោះស្រាយទិន្នន័យមិនស្គាល់ ដោយវាធ្វើការបែងចែកវត្ថុដូចគ្នាជាក្រុម ហើយបន្ទាប់មកផ្ដល់ស្លាកទៅក្រុម។ ក្នុងករណីនេះ ក្រុមអាចបង្ហាញថាអ្វីដែលជាវត្ថុនឹងទំនាក់ទំនងទៅនឹងតន្ត្រីធ្វើដូចជា 'រង្វង់តន្ត្រី' និង 'ការ៉េតន្ត្រី'។ +> ឧទាហរណ៍៖ សូមគំនិតថា អ្នកមានទិន្នន័យដែលមានស្លាកមួយផ្នែកប៉ុណ្ណោះ។ មានវត្ថុជារបាំង, ស៊ីឌី, និងខាំស្កិច។ ការងាររបស់អ្នកគឺផ្ដល់ស្លាកទៅវត្ថុខាំស្កិចទទេ។ ប្រសិនបើអ្នកជ្រើសរើសវិធីសាស្ត្រអនុគមន៍ អ្នកនឹងបណ្តុះម៉ូដែលស្វែងរក 'របាំង' និង 'ស៊ីឌី' ហើយផ្ដល់ស្លាកទៅទិន្នន័យគ្មានស្លាក។ វិធីសាស្ត្រនេះប្រឈមមុខនឹងការលំបាកក្នុងការបែងចែកវត្ថុពិតជាជាទម្រង់ 'កាសែត'។ វិធីសាស្ត្រតាមការបញ្ជូន ប្រញាប់ប្រញាល់ដោះស្រាយទិន្នន័យមិនស្គាល់វា ដោយវាធ្វើការបែងចែកវត្ថុដែលស្រដៀងគ្នាទៅក្នុងក្រុម ហើយបន្ទាប់មកផ្ដល់ស្លាកទៅក្រុម។ ក្នុងករណីនេះ ក្រុមអាចបង្ហាញ 'វត្ថុភ្លេងរង្វង់' និង 'វត្ថុកែង'។ > -> 🎓 ['ជីមេត្រីមិនស្មើ' ទល់នឹង 'ជីមេត្រីស្មើ'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['គំនរមិនស្មើ' ទល់នឹង 'គំនរស្មើ'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> ប្រភពលើកទឹកចិត្តពីពាក្យគណិតវិទ្យា ជីមេត្រមិនស្មើ និងជីមេត្រីស្មើ បង្ហាញពីវិធីវាស់ចម្ងាយរវាងចំណុច ដោយប្រើវិធីជីមេត្រស្មើ ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) ឬ មិនស្មើ (non-Euclidean)។ +> កាន់តាមគណិតវិទ្យា គំនរមិនស្មើ និង គំនរស្មើ បញ្ជាក់ពីវិធីវាស់ចម្ងាយរវាងចំណុចដោយវិធី គំនរស្មើ ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) ឬ គំនរមិនស្មើ (non-Euclidean)។ > ->'ជីមេត្រីស្មើ' មានន័យជាជីមេត្រយូក្លីដ (ដែលផ្នែកមួយត្រូវបានបង្រៀនជាជីមេត្រប្លែន), ខណៈដែលជីមេត្រមិនស្មើមានន័យជាជីមេត្រមិនយូឃ្លីដ។ តើជីមេត្រមានទំនាក់ទំនងយ៉ាងដូចម្តេចជាមួយការសិក្សាម៉ាស៊ីន? ជាផ្នែកមួយនៃវិស័យវិទ្យាសាស្ត្រគណិតវិទ្យា ត្រូវមានវិធីសម្រាប់វាស់ចម្ងាយរវាងចំណុចនៅក្នុងក្រុម និងវា អាចធ្វើបានក្នុងរបៀប 'ស្មើ' ឬ 'មិនស្មើ' ដោយហេតុផលពីធម្មជាតិនៃទិន្នន័យ។ [ចម្ងាយយូឃ្លីដ](https://wikipedia.org/wiki/Euclidean_distance) គឺវាស់ថា​វែងបន្ទាត់រវាងចំណុចពីរដុល។ [ចម្ងាយមិនយូឃ្លីដ](https://wikipedia.org/wiki/Non-Euclidean_geometry) គឺវាស់ជាប្រវែងតាមខ្សែវង់។ ប្រសិនបើទិន្នន័យរបស់អ្នក, ដែលបានបង្ហាញរូបមន្ត, មិនមានលំនាំស្មើផ្លែនទេ អ្នកប្រហែលជាត្រូវប្រើអាល់ហ្គរីធម៍ពិសេសមួយដើម្បីដោះស្រាយវា។ +> 'គំនរស្មើ' ក្នុងបរិបទនេះគឺ Euclidean (ផ្ទៃផែនទី), ហើយគំនរមិនស្មើគឺ non-Euclidean។ តើគំនរ និង ម៉ាស៊ីនរៀនមានចំនាក់ទំនងយ៉ាងដូចម្តេច? ដោយសារ​ទាំងពីរជាវិស័យដែលដើមកំណើតពីគណិតវិទ្យា នោះវាត្រូវមានវិធីវាស់ចម្ងាយរវាងចំណុចក្នុងក្រុម ដោយរបៀបគំនរស្មើ ឬ គំនរមិនស្មើ ប្រែក្លាយតាមលក្ខណៈទិន្នន័យ។ [ចម្ងាយ Euclidean](https://wikipedia.org/wiki/Euclidean_distance) វាស់ជាប្រវែងខ្សែរវាងចំណុចពីរដោយផ្ទាល់។ [ចម្ងាយ non-Euclidean](https://wikipedia.org/wiki/Non-Euclidean_geometry) វាស់តាមខ្សែរ曲។ ប្រសិនបើទិន្នន័យរបស់អ្នក មើលទៅមិនស្ថិតលើផែនទីផ្ទាល់ នោះ អ្នកប្រហែលជាត្រូវការប្រើអាល់ហ្គរីធម៍ពិសេសសម្រាប់ដោះស្រាយវា។ > ![Flat vs Nonflat Geometry Infographic](../../../../translated_images/km/flat-nonflat.d1c8c6e2a96110c1.webp) -> រូបភាពបង្ហាញដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded) -> +> រូបភាពដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded) +> > 🎓 ['ចម្ងាយ'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) +> +> ក្រុមត្រូវបានកំណត់ដោយម៉ាទ្រីចចម្ងាយរវាងចំណុច។ ចម្ងាយឈ្មោះ Euclidean គឺដោយជម្រាលតម្លៃមធ្យមនៃចំណុច និងមាន 'centroid' ឬចំណុចមួយកណ្តាល។ ចម្ងាយវាស់តាមចម្ងាយទៅកាន់ centroid នោះ។ ចម្ងាយ non-Euclidean មានការតំរៀបជាក្រុម 'clustroids' ដែលជាចំណុចអាចជិតច្រើនចំណុចផ្សេងទៀត។ Clustroids មានវិធីកំណត់ខុសៗគ្នា។ > -> ក្រុមត្រូវបានកំណត់ដោយ ម៉ាទ្រីចចម្ងាយរបស់ពួកវា ពិរុទ្ធជា ចម្ងាយរវាងចំណុច។ ចម្ងាយនេះអាចវាស់បានជាច្រើនវិធី។ ក្រុមយូឃ្លីដត្រូវបានកំណត់ដោយមធ្យមនៃតម្លៃចំណុច ហើយមាន 'ចំណុចកណ្តាល' ឬចំណុចមជ្ឈមណ្ឌល។ ចម្ងាយត្រូវវាស់ដោយចម្ងាយទៅរកចំណុចមជ្ឈមណ្ឌលនោះ។ ចម្ងាយមិនយូឃ្លីដត្រូវបានទាក់ទងទៅនឹង 'clustroids' ដែលជាចំណុចនៅជិតចំណុចផ្សេងទៀតបំផុត។ Clustroids អាចត្រូវបានកំណត់ដោយវិធីផ្សេងៗ។ -> -> 🎓 ['មានកំណត់'](https://wikipedia.org/wiki/Constrained_clustering) -> -> [Constrained Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) ណែនាំការសិក្សាជាដំណែកធ្វើយូរអចលន៍ទៅវិធីសាស្ត្រឥតគ្រប់គ្រងនេះ។ អត្ថិភាពរវាងចំណុចត្រូវបានពិនិត្យថា 'មិនអាចភ្ជាប់' ឬ 'ត្រូវភ្ជាប់' ដូច្នេះ ឬជាការបង្ខំច្បាប់លើទិន្នន័យ។ -> ->ឧទាហរណ៍៖ ប្រសិនបើអាល់ហ្គរីធម៍ត្រូវបានដាក់ឲ្យប្រើលើឈុតទិន្នន័យដែលគ្មានស្លាក ឬស្លាកប៉ុន្មានភាគ ក្រុមដែលវាបង្កើតឡើងអាចមានគុណភាពទាប។ ក្នុងឧទាហរណ៍ខាងលើ ក្រុមអាចបែងចែកជា 'រង្វង់តន្ត្រី', 'ការ៉េចតន្ត្រី', 'បីកោណ' និង 'ខូចខាត'។ ប្រសិនបើមានកំណត់ ឬច្បាប់ ("វត្ថុត្រូវបានផលិតពីប្លាស្ទិច", "វត្ថុត្រូវមានសមត្ថភាពបង្កើតតន្ត្រី") នេះជួយច្រោះអាល់ហ្គរីធម៍ឲ្យជ្រើសរើសល្អជាង។ +> 🎓 ['ដាក់កំណត់'](https://wikipedia.org/wiki/Constrained_clustering) > -> 🎓 'ដង់ស៊ីតេ' +> [ការបែងចែកក្រុមដាក់កំណត់](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) បញ្ចូលការសិក្សា 'semi-supervised' ទៅក្នុងវិធានការដោយគ្មានការត្រួតពិនិត្យនេះ។ ទំនាក់ទំនងរវាងចំណុចត្រូវបានមើលថាជា 'មិនអាចភ្ជាប់' ឬ 'ត្រូវភ្ជាប់' ដើម្បីដាក់កំណត់ច្បាស់លាស់លើទិន្នន័យ។ > -> ទិន្នន័យដែលមាន 'សំឡេងរំខាន' ត្រូវបានកំណត់ថា 'ដង់ស៊ីតេ'។ ចម្ងាយរវាងចំណុចក្នុងក្រុមមួយៗអាចបង្ហាញថា ដង់ស៊ីតេ ឬ 'ម៉ាស៊ីនជ្រៅ' ហើយទិន្នន័យនេះត្រូវបានវាយតម្លៃជាមួយវិធីចែកទំព័រដែលសមរម្យ។ [អត្ថបទនេះ](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) បង្ហាញខុសគ្នារវាងការប្រើប្រាស់ K-Means និងអាល់ហ្គរីធម៍ HDBSCAN ដើម្បីស្វែងរកទិន្នន័យដែលមានសំលេងរំខានជាមួយដង់ស៊ីតេចម្រុះ។ +> ឧទាហរណ៍៖ ប្រសិនបើអាល់ហ្គរីធម៍ត្រូវបញ្ចេញការងារនៅលើទិន្នន័យគ្មានស្លាក ឬជាក់ស្តែងខ្លះនៃស្លាក ក្រុមដែលបានបង្កើតអាចមានគុណភាពខ្សោយ។ ក្នុងឧទាហរណ៍ខាងលើ ក្រុមអាចបែងចែកជា 'វត្ថុភ្លេងរង្វង់', 'វត្ថុកែង', 'វត្ថុកោងត្រី', និង 'គុយគុយ'។ ប្រសិនប្រសើរបំពាន ន័យដូចជា ("វត្ថុត្រូវតែផលិតពីផ្លាស្ទិច", "វត្ថុខ្លះត្រូវតែផលិតសំលេង") វាអាចជួយ 'ដាក់កំណត់' អាល់ហ្គរីធម៍ឲ្យធ្វើជម្រើសល្អជាងមុន។ +> +> 🎓 'ភាពខ្លាញ់' +> +> ទិន្នន័យដែល 'រញ្លៀត' ត្រូវបានគេពិនិត្យថា 'ខ្លាញ់'។ ចម្ងាយរវាងចំណុចនៅក្នុងក្រុមមួយៗអាចបង្ហាញថាខ្លាញ់ឬច្របូកច្របល់ ហើយទិន្នន័យនេះត្រូវបានវិភាគជាមួយវិធីបែងចែកក្រុមសមរម្យ។ [អត្ថបទនេះ](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) បង្ហាញពីភាពខុសគ្នារវាងការប្រើ K-Means clustering និង HDBSCAN ដើម្បីស្វែងយល់ទិន្នន័យរញ្លៀតដែលមានភាពខ្លាញ់ខុសៗគ្នា។ -## អាល់ហ្គរីធម៍ចែកទំព័រ +## អាល់ហ្គរីធម៍បែងចែកក្រុម -មានអាល់ហ្គរីធម៍ចែកទំព័រលើស ១០០ គឺ ដោយប្រើប្រាស់គឺអាស្រ័យលើធម្មជាតិនៃទិន្នន័យ។ នេះជាការពិភាក្សាអំពីខ្លះៗនៃអាល់ហ្គរីធម៍សំខាន់ៗ៖ +មានអាល់ហ្គរីធម៍បែងចែកក្រុមជាង 100 និងការប្រើប្រាស់របស់ពួកវាអាស្រ័យលើលក្ខណៈទិន្នន័យ។ យើងមកពិភាក្សាពីអាល់ហ្គរីធម៍សំខាន់ៗ៖ -- **ការចែកទំព័រប្រភេទលំដាប់លំដោយ**។ ប្រសិនបើវត្ថុត្រូវបានចាត់ថ្នាក់ដោយភាពជិតស្និទ្ធទៅអ្វីដែលនៅជិតវា ជំនួសការជិតទៅវត្ថុចម្ងាយជាង ពួកក្រុមត្រូវបានបង្កើតឡើង ដោយផ្អែកលើចម្ងាយរវាងសមាជិកទៅនឹងវត្ថុផ្សេងៗ។ ការចែកទំព័រអាហ្គ្លូម៉ើត៊ីវរបស់ Scikit-learn គឺប្រភេទលំដាប់លំដោយ។ +- **ការបែងចែកក្រុមរាយត្រី**។ ប្រសិនបើវត្ថុត្រូវបានចាត់ថ្នាក់ដោយជិតស្និទ្ធទៅកាន់វត្ថុជិតខាង ជាងទៅវត្ថុឆ្ងាយ ក្រុមនឹងបង្កើតផ្អែកលើចម្ងាយរបស់សមាជិកទៅកាន់វត្ថុផ្សេងៗ។ Scikit-learn agglomerative clustering គឺជារឿងរាយត្រី។ ![Hierarchical clustering Infographic](../../../../translated_images/km/hierarchical.bf59403aa43c8c47.webp) - > រូបភាពបង្ហាញដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded) + > រូបភាពដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **ការចែកទំព័រចំណុចកណ្តាល**។ អាល់ហ្គរីធម៍ល្បីឈ្មោះនេះត្រូវការជ្រើសរើស 'k' រឺ ចំនួនក្រុមដែលត្រូវបង្កើត បន្ទាប់មកអាល់ហ្គរីធម៍កំណត់ចំណុចមជ្ឈមណ្ឌលរបស់ក្រុម និងប្រមូលទិន្នន័យនៅជុំវិញចំណុចនោះ។ [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) គឺជាប្រភេទពេញនិយមនៃការចែកទំព័រចំណុចកណ្តាល។ ចំណុចមជ្ឈមណ្ឌលត្រូវបានកំណត់ដោយមធ្យមជិតបំផុត ដូច្នេះឈ្មោះ។ ចម្ងាយកោណត្រូវបានបន្តិចបន្តួច។ +- **ការបែងចែកក្រុមមជ្ឈមណ្ឌល**។ អាល់ហ្គរីធម៍ពេញនិយមនេះត្រូវការជ្រើសរើស 'k' ឬចំនួនក្រុមចង់បង្កើត បន្ទាប់មកអាល់ហ្គរីធម៍កំណត់ចំណុចមជ្ឈមណ្ឌលនៃក្រុមមួយ ហើយប្រមូលទិន្នន័យជុំវិញចំណុចនោះ។ [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) គឺជារូបមន្តពេញនិយមនៃការបែងចែកមជ្ឈមណ្ឌល។ ចំណុចមជ្ឈមណ្ឌលកំណត់ដោយមធ្យមដល់ជិតមុខ និង​ហៅ​វា​ឈ្មោះ​ដូច្នេះ។ ចម្ងាយចតពីក្រុមត្រូវបានធ្វើអោយតិចបំផុត។ ![Centroid clustering Infographic](../../../../translated_images/km/centroid.097fde836cf6c918.webp) - > រូបភាពបង្ហាញដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded) + > រូបភាពដោយ [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **ការចែកទំព័រដែលផ្អែកលើចែកចាយ**។ មានមូលដ្ឋានលើគំរូស្ថិតិ ការចែកទំព័រដែលផ្អែកលើចែកចាយផ្តោតលើការកំណត់ពិតភាពថាចំណុចទិន្នន័យទាក់ទងទៅក្រុមណាមួយ ហើយផ្ដាច់ផ្តាច់ទៅតាមរបៀប។ វិធី Gaussian mixture ស្ថិតនៅក្នុងប្រភេទនេះ។ +- **ការបែងចែកក្រុមដោយផ្អែកលើចែកចាយ**។ អាស្រ័យលើគំរូស្ថិតិ, ការបែងចែកក្រុមដោយផ្អែកលើចែកចាយផ្តោតលើការកំណត់ប្រហែលថាចំណុចទិន្នន័យជាក្រុមណាមួយ ហើយផ្តល់អោយយ៉ាងសមរម្យ។ វិធី Gaussian mixture ស្ថិតក្នុងប្រភេទនេះ។ -- **ការចែកទំព័រលើមូលដ្ឋានដង់ស៊ីតេ**។ ចំណុចទិន្នន័យត្រូវបានតែងតាំងទៅក្រុម ដោយផ្អែកលើដង់ស៊ីតេរបស់ពួកវា ឬការប្រមូលផ្តុំគ្នា។ ចំណុចទិន្នន័យដែលឆ្ងាយពីក្រុម ត្រូវបានគេចាត់ទុកថាជាផលប៉ះពាល់ខាងក្រៅ ឬសំឡេងរំខាន។ DBSCAN, Mean-shift និង OPTICS ស្ថិតក្នុងប្រភេទនេះ។ +- **ការបែងចែកក្រុមដោយផ្អែកលើភាពខ្លាញ់**។ ចំណុចទិន្នន័យត្រូវបានផ្ដាច់ក្នុងក្រុមដោយផ្អែកលើភាពខ្លាញ់ ឬ ការប្រមូលគ្នាព័ន្ធព័ន្ធ។ ចំណុចដែលឆ្ងាយពីក្រុមត្រូវបានគេចាត់ទុកជាចំណុចលំបាក ឬសំឡេងរំខាន។ DBSCAN, Mean-shift, និង OPTICS ស្ថិតក្នុងប្រភេទនេះ។ -- **ការចែកទំព័រលើមូលដ្ឋានក្រឡា**។ សម្រាប់ទិន្នន័យពហុវិមាត្រ ក្រឡាត្រូវបានបង្កើត ហើយទិន្នន័យត្រូវបានចែកចាយទៅក្នុងវាលនៃក្រឡា បង្កើតក្រុមឡើង។ +- **ការបែងចែកក្រុមបែបក្រឡា**។ សម្រាប់ឯកសារទិន្នន័យច្រើនវិមាត្រ ក្រឡាបង្កើតឡើង ហើយទិន្នន័យត្រូវបានបែងចែកទៅក្នុងក្រឡានីមួយៗ ដូច្នេះបង្កើតក្រុម។ -## លំហាត់ - ចែកទិន្នន័យរបស់អ្នកជាក្រុម +## លំហាត់ - បែងចែកក្រុមទិន្នន័យរបស់អ្នក -ការចែកទំព័រជាបច្ចេកទេស ត្រូវបានជួយស្រាលដូចខុសគ្នា ដោយការពិពណ៌នារូបភាពដូចត្រឹមត្រូវ ដូច្នេះសូមចាប់ផ្តើមដោយបង្ហាញទិន្នន័យតន្ត្រីរបស់យើង។ លំហាត់នេះនឹងជួយយើងសម្រេចចិត្តថាតើយ៉ាងដូចម្តេចក្នុងចំណោមវិធីចែកទំព័រដែលគួរប្រើសម្រាប់ធម្មជាតិនៃទិន្នន័យនេះ។ +ការបែងចែកក្រុមជាបច្ចេកទេសមានអត្ថប្រយោជន៍ខ្លាំងដោយរូបភាពភាពបញ្ជាក់យ៉ាងត្រឹមត្រូវ ដូច្នេះតោះចាប់ផ្តើមដោយរូបភាពទិន្នន័យភ្លេងរបស់យើង។ លំហាត់នេះនឹងជួយយើងសម្រេចថាវិធីណាមួយនៃការបែងចែកក្រុមដែលយើងគួរប្រើប្រាស់យ៉ាងមានប្រសិទ្ធភាពសម្រាប់ប្រភេទទិន្នន័យនេះ។ 1. បើកឯកសារ [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) ក្នុងថតនេះ។ -1. នាំចូលកញ្ចប់ `Seaborn` សម្រាប់ការពិពណ៌នាទិន្នន័យល្អ។ +1. នាំចូលកញ្ចប់ `Seaborn` សម្រាប់ការតាំងរូបភាពទិន្នន័យល្អ។ ```python !pip install seaborn ``` -1. បន្ថែមទិន្នន័យបទចម្រៀងពី [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv)។ បង្ហាញ data frame មានទិន្នន័យពីបទចម្រៀង។ រៀបចំខ្លួនដើម្បីស្វែងរកទិន្នន័យនេះដោយនាំចូលបណ្ណាល័យ និងបង្ហាញទិន្នន័យ៖ +1. បន្ថែមទិន្នន័យបទចម្រៀងពី [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv)។ បើក data frame ជាមួយទិន្នន័យពីបទចម្រៀងខ្លះៗ។ រៀបចំសម្រាប់ការស្វែងយល់ទិន្នន័យនេះដោយនាំចូលបណ្ណាល័យ និងបង្ហាញទិន្នន័យ៖ ```python import matplotlib.pyplot as plt @@ -119,7 +120,7 @@ df.head() ``` - ពិនិត្យមើលខ្សែដំបូងៗនៃទិន្នន័យ: + ពិនិត្យមើលបន្ទាត់ដើមទិន្នន័យប៉ុន្មានបន្ទាត់៖ | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | @@ -129,13 +130,13 @@ | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. សូមទទួលបានព័ត៌មានមួយចំនួនអំពី DataFrame ដោយអំពាវនាវ `info()`៖ +1. ទទួលបានព័ត៌មានអំពី dataframe ដោយហៅ `info()`៖ ```python df.info() ``` - លទ្ធផលបង្ហាញដូចជា៖ + លទ្ធផលបង្ហាញដូចខាងក្រោម៖ ```output @@ -163,7 +164,7 @@ memory usage: 66.4+ KB ``` -1. ពិនិត្យម្តងទៀតសម្រាប់តម្លៃ null ដោយហៅ `isnull()` ហើយធានាថារួមបញ្ចូលត្រឹម 0៖ +1. ពិនិត្យមើលមួយទៀតសម្រាប់តម្លៃ null ដោយហៅ `isnull()` និងបញ្ជាក់ថា សរុបមានតម្លៃ 0៖ ```python df.isnull().sum() @@ -191,7 +192,7 @@ dtype: int64 ``` -1. ពិពណ៌នាអំពីទិន្នន័យ៖ +1. ពិពណ៍នាអំពីទិន្នន័យ៖ ```python df.describe() @@ -208,11 +209,11 @@ | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 ប្រសិនបើយើងកំពុងធ្វើការជាមួយ clustering ដែលជា វិធីសាស្ត្រ unsupervised មួយដែលមិនត្រូវការទិន្នន័យមានស្លាក ហេតុអ្វីបានយើងចង្អុលបង្ហាញទិន្នន័យនេះជាមួយស្លាក? ក្នុងដំណាក់កាលចាប់ផ្តើមស្វែងរកទិន្នន័យ ស្លាកទាំងនេះមានប្រយោជន៍ ប៉ុន្តែវាមិនចាំបាច់សម្រាប់អាល់គ័រីធម clustering ដើម្បីដំណើរការ។ អ្នកអាចយកចេញក្បាលជួរឈរនៅតែមិនប៉ះពាល់ ដើម្បីយោងទិន្នន័យតាមលេខជួរឈរ។ +> 🤔 ប្រសិនបើយើងកំពុងធ្វើការជាមួយ clustering ដែលជាវិធីសាស្រ្តមិនត្រូវការទិន្នន័យមានស្លាកហើយ (unsupervised method) នោះហេតុអ្វីបានជាយើងបង្ហាញទិន្នន័យនេះជាមួយស្លាក? ក្នុងដំណាក់កាលស្វែងយល់ទិន្នន័យ វាគឺមានប្រយោជន៍ ប៉ុន្តែវាមិនចាំបាច់សម្រាប់ algorithm clustering ដើម្បីដំណើរការ។ អ្នកអាចដកក្បាលជួរឈរចេញហើយយោងទៅតាមលេខជួរឈរបាន។ -មើលតម្លៃទូទៅនៃទិន្នន័យ។ សូមចំណាំថា popularity អាចមានតម្លៃជា '0' ដែលបង្ហាញពីចម្រៀងដែលមិនមានចំណាត់ថ្នាក់។ យើងនឹងដកចេញចម្រៀងទាំងនោះក្នុងពេលឆាប់ៗនេះ។ +មើលតម្លៃទូទៅរបស់ទិន្នន័យ។ សូមចំណាំថា popularity អាចមានតម្លៃ '0' ដែលបង្ហាញពីបទចម្រៀងដែលគ្មានចំណាត់ថ្នាក់។ យើងនឹងដកវាចេញក្នុងរយៈពេលខ្លី។ -1. ប្រើប្លង់បារដើម្បីស្វែងរកប្រភេទចម្រៀងដែលពេញនិយមបំផុត៖ +1. ប្រើ barplot ដើម្បីរក genres ដែលពេញនិយមបំផុត៖ ```python import seaborn as sns @@ -226,11 +227,11 @@ ![most popular](../../../../translated_images/km/popular.9c48d84b3386705f.webp) -✅ ប្រសិនបើអ្នកចង់មើលតម្លៃកំពូលច្រើនជាងនេះ សូមប្តូរ top `[:5]` ទៅជាតម្លៃធំជាងនេះ ឬដកវាចេញដើម្បីមើលទាំងអស់។ +✅ ប្រសិនបើអ្នកចង់មើលតម្លៃលំដាប់ខ្ពស់បន្ថែមទៀត គ្រាន់តែរំលាស់ `[:5]` ទៅតម្លៃធំជាងនេះ ឬយកវាចេញដើម្បីមើលទាំងអស់។ -សូមចំណាំ ពេលដែលប្រភេទចម្រៀងកំពូលត្រូវបានពិពណ៌នាជា 'Missing' មានន័យថា Spotify មិនបានចាត់ថ្នាក់វា ដូចនេះយើងត្រូវដកវាចេញ។ +សូមចំណាំ ថា នៅពេល genre ខ្ពស់គឺពណ៌នាថា 'Missing' មានន័យថា Spotify មិនបានចាត់ថ្នាក់វា ទេ ដូចនេះយើងត្រូវដកវាចេញ។ -1. ដកចេញទិន្នន័យដែលខ្វះដោយការត្រងវាចេញ +1. ដកទិន្នន័យ missing ដោយផ.Filterវាចេញ ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -241,11 +242,11 @@ plt.title('Top genres',color = 'blue') ``` - ឥឡូវនេះសូមពិនិត្យមើលប្រភេទចម្រៀងម្ដងទៀត៖ + ឥឡូវនេះពិនិត្យមើល genres ម្តងទៀត៖ ![most popular](../../../../translated_images/km/all-genres.1d56ef06cefbfcd6.webp) -1. ប្រភេទចម្រៀងកំពូលបី មានអំណាចលើទិន្នន័យនេះ។ យើងសូមផ្តោតទៅលើ `afro dancehall`, `afropop`, និង `nigerian pop` ហើយត្រងទិន្នន័យដើម្បីដកចេញវត្ថុដែលមានតម្លៃ popularity ដែលស្មើ 0 (មានន័យថាវាមិនត្រូវបានចាត់ថ្នាក់ដោយ popularity ក្នុងទិន្នន័យ ហើយអាចត្រូវបានចាត់ទុកជាសំលេងរំខានសម្រាប់គោលបំណងរបស់យើង)៖ +1. នៅទូទៅ genre បីចុងក្រោយបំផុតគ្រប់គ្រង dataset នេះ។ យើងសូមផ្តោតទៅលើ `afro dancehall`, `afropop`, និង `nigerian pop` ហើយបន្ថែមការលាងសំអាត dataset ដើម្បីដកវត្ថុដែលមានតម្លៃ popularity បាន 0 (មានន័យថាវាមិនបានចាត់ថ្នាក់ជាមួយ popularity ក្នុង dataset ហើយអាចត្រូវបានគេយល់ថាជាសំឡេងរំខានសម្រាប់គោលបំណងរបស់យើង)៖ ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -257,7 +258,7 @@ plt.title('Top genres',color = 'blue') ``` -1. ប្រត្ដិបត្ដិមួយជាបន្ទាន់ដើម្បីមើលថាទិន្នន័យមានការពាក់ព័ន្ធយ៉ាងខ្លាំងវិញឬអត់៖ +1. ប្រើតេស្តមួយឆាប់រហ័សដើម្បីមើលថាតើយោងរវាងទិន្នន័យមានទំនាក់ទំនងខ្លះទេ៖ ```python corrmat = df.corr(numeric_only=True) @@ -267,19 +268,19 @@ ![correlations](../../../../translated_images/km/correlation.a9356bb798f5eea5.webp) - ការពាក់ព័ន្ធតែមួយដែលខ្លាំងគឺរវាង `energy` និង `loudness` ដែលមិនមែនជារឿងភ្ញាក់ផ្អើលទេ ព្រោះតែលំនៅសំឡេងខ្ពស់ជារឿយៗដូចជាអ្នកមានថាមពលខ្លាំង។ អ្នកលំដាប់ប្រសើរពីរវាងផ្សេងទៀតគួរជារបាយការណ៍ខ្សោយ។ វានឹងគួរអោយចាប់អារម្មណ៍មើលពីអាល់គ័រីធម clustering អាចយល់ដឹងអ្វីខ្លះពីទិន្នន័យនេះបាន។ + ទំនាក់ទំនងត្រឹមតែខ្លាំងតែរវាង `energy` និង `loudness` ប៉ុណ្ណោះ ដែលមិនចម្លែកទេ ព្រោះតន្ត្រីដែលមានសំឡេងខ្លាំងសាកសមនឹងមានថាមពលខ្លាំង។ ផ្សេងទៀត ទំនាក់ទំនងគឺខ្សោយ។ វានឹងគួរឱ្យចាប់អារម្មណ៍មើលថា algorithm clustering អាចធ្វើអ្វីបានពីទិន្នន័យនេះ។ - > 🎓 សូមចំណាំថាការពាក់ព័ន្ធមិនមានន័យថាការកើតមាន! យើងមានភស្តុតាងនៃការពាក់ព័ន្ធ ប៉ុន្តែមិនមានភស្តុតាងនៃការកើតមាន។ គេហទំព័រមួយដែលគួរឱ្យចាប់អារម្មណ៍ [amusing web site](https://tylervigen.com/spurious-correlations) ផ្តល់នូវរូបភាពសម្រាប់ពិចារណារឿងនេះ។ + > 🎓 សូមចំណាំថា ទំនាក់ទំនងមិនមានន័យថាមានមូលហេតុទេ! យើងមានភស្តុតាងនៃទំនាក់ទំនង ប៉ុន្តែមិនមានភស្តុតាងនៃមូលហេតុ។ គេហទំព័រស្រែកសើចមួយបានបង្ហាញរូបភាពដែលផ្តោតលើចំណុចនេះ។ -តើមានការប្រមូលផ្តុំគ្នានៅក្នុងទិន្នន័យនេះអំពីការមើលឃើញនូវពន្លឺនិង danceability របស់ចម្រៀងមួយទេ? FacetGrid បង្ហាញថាមានរង្វង់ច្រវ៉ាក់អាចផ្គូរផ្គងគ្នា បើទោះបីជាមានបែបបទផ្សេងៗគ្នាក៏ដោយ។ តើអាចមានការចូលចិត្តនៃនាយាជននៅជាមួយមួយកម្រិតបំណងចិត្តលើលំនាំនេះ? +តើមានការប្រមូលផ្តុំក្នុង dataset នេះជុំវិញការសង្កេតថាល្បីរបស់បទចម្រៀង និង danceability ទេ? FacetGrid បង្ហាញថាមានវង់រាងមូល ដែលដាក់បន្ទាប់គ្នា បើមិនគិតពី genre។ តើអាចជាការចូលរួមរបស់​អ្នកស្តាប់ចម្រៀងនីហ្សេរីយ៉ា នៅលើកម្រិតខ្លះនៃ danceability សម្រាប់ genre នេះទេ? -✅ សាកល្បងបច្ចេកទិន្នន័យផ្សេងទៀត (energy, loudness, speechiness) និងប្រភេទតន្ត្រីផ្សេងៗ ឬច្រើនជាងនេះ។ តើអ្នកអាចរកឃើញអ្វីខ្លះ? សូមមើលតារាង `df.describe()` ដើម្បីមើលការវេចខ្ចប់ទូទៅនៃចំណុចទិន្នន័យ។ +✅ សូមព្យាយាមប្រើ datapoint ផ្សេងទៀត (energy, loudness, speechiness) និង genre តន្ត្រីផ្សេងៗ មើលថាតើអ្នកអាចរកឃើញអ្វីបានខ្លះ? សូមមើលតារាង `df.describe()` ដើម្បីមើលចំនួនទូទៅនៃចំណុចទិន្នន័យ។ -### វាយតម្លៃ - ការបែងចែកទិន្នន័យ +### អនុវត្តន៍ - ការបែងចែកទិន្នន័យ -តើប្រភេទចម្រៀងបីនេះមានភាពខុសគ្នាយ៉ាងច្បាស់ក្នុងការមើលឃើញ danceability របស់ពួកគេ ដោយផ្អែកលើកម្រិត popularity? +តើតួរនៃ genre ទាំងបីនេះខុសគ្នាយ៉ាងសំខាន់ទេក្នុងការសង្កេតឱ្យឃើញការលេងភ្លេងរបស់ពួកវា ដោយផ្អែកលើ popularity? -1. ពិនិត្យមើលការបែងចែកទិន្នន័យរបស់បីប្រភេទកំពូលសម្រាប់ popularity និង danceability នៅលើអ័ក្ស x និង y ដែលមានការបញ្ជាក់។ +1. ពិនិត្យការបែងចែកទិន្នន័យនៃ genre ទីបីក្នុងចំណោម popularity និង danceability តាមអ័ក្ស x និង y មួយ៖ ```python sns.set_theme(style="ticks") @@ -291,15 +292,15 @@ ) ``` - អ្នកអាចរកឃើញរង្វង់ច្រវ៉ាក់នៅជុំវិញចំណុចមួយបាន កំណត់បង្ហាញពីបែងចែកចំណុច។ + អ្នកអាចស្គាល់ភាពជាវង់រាងមូលនៅជុំវិញចំណុចទូទៅមួយ នូវការបែងចែកចំណុចទិន្នន័យ។ - > 🎓 សូមចំណាំឧទាហរណ៍នេះប្រើក្រាហ្វ KDE (Kernel Density Estimate) ដែលតំណាងឱ្យទិន្នន័យដោយ curve មានប្រហែលភាពគុណភាពជាបន្ត។ នេះអាចអោយយើងផ្ដល់អត្ថន័យទិន្នន័យនៅពេលធ្វើការជាមួយការបែងចែកច្រើន។ + > 🎓 សូមចំណាំថា ឧទាហរណ៍នេះប្រើក្រាហ្វ KDE (Kernel Density Estimate) ដែលតំណាងឲ្យទិន្នន័យតាមរយៈវង់ភាពប្រភេទប្រសាទបន្តរបន្ត។ វាអនុញ្ញាតឲ្យយើងពិវោធន៍ទិន្នន័យនៅពេលធ្វើការជាមួយការបែងចែកច្រើន។ - ជាទូទៅ ប្រភេទចម្រៀងបីភាគបន្តិចឆ្លុះបញ្ចាំងគ្នានៅក្នុងចំណោម popularity និង danceability។ ការទាញយកក្រុមនៅក្នុងទិន្នន័យដែលមានការបង្ហាញខាងលើនេះគឺជាភាពលំបាកជា​មួយ៖ + ទូទៅ genre ទាំងបីស្របគ្នាខ្ពស់លើការលេងភ្លេង និង popularity។ ការកំណត់ cluster ក្នុងទិន្នន័យដែលស្របគ្នាខ្សោយនេះ នឹងជាការប្រឈមមួយ៖ ![distribution](../../../../translated_images/km/distribution.9be11df42356ca95.webp) -1. បង្កើតប្លង់ scatter៖ +1. បង្កើត scatter plot៖ ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -307,33 +308,33 @@ .add_legend() ``` - ប្លង់ scatter នៃអ័ក្សដូចគ្នាបង្ហាញលំនាំស្រដៀងគ្នារបស់ការប្រមូលផ្តុំ + scatterplot របស់អ័ក្សដូចគ្នាបង្ហាញលំនាំស្រដៀងគ្នានៃការប្រមូលផ្តុំ ![Facetgrid](../../../../translated_images/km/facetgrid.9b2e65ce707eba1f.webp) -ជាទូទៅ សម្រាប់ clustering អ្នកអាចប្រើប្លង់ scatter ដើម្បីបង្ហាញក្រុមទិន្នន័យ ដូច្នេះការបង្កប់ចំណេះដឹងនៅលើការបង្ហាញទូរគមនាគមន៍នេះគឺមានប្រយោជន៍ខ្លាំង។ នៅមេរៀនបន្ទាប់ យើងនឹងយកទិន្នន័យដែលបានត្រងនេះ ដើម្បីប្រើ k-means clustering ដើម្បីស្វែងរកក្រុមក្នុងទិន្នន័យដែលពាក់ព័ន្ធគ្នាជាបែបគួរឱ្យចាប់អារម្មណ៍។ +ទូទៅសម្រាប់ clustering អ្នកអាចប្រើ scatterplot ដើម្បីបង្ហាញក្រុមទិន្នន័យ ដូច្នេះការទទួលបានជំនាញកែច្នៃ visualization ប្រភេទនេះគឺមានប្រយោជន៍ខ្ពស់។ ក្នុងមេរៀនបន្ទាប់ យើងនឹងយកទិន្នន័យដែលបានត្រៀមនេះ ហើយប្រើ k-means clustering ដើម្បីរកក្រុមទិន្នន័យដែលមានការប្រាប់គ្នានៅវិធីគួរឱ្យចាប់អារម្មណ៍។ --- -## 🚀បញ្ចាំង +## 🚀បញ្ហាប្រឈម -ក្នុងការរៀបចំសម្រាប់មេរៀនបន្ទាប់ សូមបង្កើតតារាងអំពីអាល់គ័រីធម clustering ផ្សេងៗដែលអ្នកអាចស្វែងរក និងប្រើក្នុងបរិដ្ឋានផលិតកម្ម។ តើបញ្ហាប្រភេទអ្វីដែល clustering ព្យាយាមដោះស្រាយ? +ក្នុងការរៀបចំសម្រាប់មេរៀនក្រោយ សូមបង្កើតតារាងអំពី algorithm clustering ផ្សេងៗដែលអ្នកអាចស្វែងរក និងប្រើនៅក្នុងបរិបទផលិតកម្ម។ តើបញ្ហាប្រឈមណាដែល clustering ព្យាយាមដោះស្រាយ? -## [ប្រលងក្រោយមេរៀន](https://ff-quizzes.netlify.app/en/ml/) +## [សំណួរពិសោធន៍បន្ទាប់មេរៀន](https://ff-quizzes.netlify.app/en/ml/) -## សេចក្តីពិនិត្យ និងសិក្សាផ្ទាល់ខ្លួន +## ការត្រួតពិនិត្យ និងអប់រំផ្ទាល់ខ្លួន -មុនពេលអ្នកអនុវត្តអាល់គ័រីធម clustering ដូចដែលយើងបានរៀន វាគួរឱ្យចាប់អារម្មណ៍ក្នុងការយល់ដឹងពីធម្មជាតិទិន្នន័យរបស់អ្នក។ ចំណាយពេលអានបន្ថែមស្តីពីប្រធានបទនេះ [ទីនេះ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +មុនពេលអ្នកអនុវត្ត algorithm clustering ដូចដែលយើងបានរៀន វាជាគំនិតល្អក្នុងការយល់ដឹងពីសារធាតុនៃ dataset របស់អ្នក។ អានបន្ថែមពីប្រធានបទនេះ [នៅទីនេះ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[អត្ថបទជួយដល់នេះ](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) នឹងដឹកនាំអ្នក តាមរយៈវិធីផ្សេងៗដែលអាល់គ័រីធម clustering ប្រតិបត្តិការពិតដោយផ្អែកលើរូបរាងទិន្នន័យផ្សេងៗ។ +[អត្ថបទមានប្រយោជន៍នេះ](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) នាំអ្នកឆ្ពោះទៅកាន់វិធីផ្សេងៗនៃ algorithm clustering ដែលប្រើប្រាស់ បើយោងតាមរាងទិន្នន័យផ្សេងៗ។ -## ការងារ +## ភារកិច្ច -[ស្វែងយល់អំពីការបង្ហាញទិន្នន័យផ្សេងទៀតសម្រាប់ clustering](assignment.md) +[ស្រាវជ្រាវអំពីការបង្ហាញឬបង្ហាញទិន្នន័យផ្សេងៗសម្រាប់ clustering](assignment.md) --- -**ការបដិសេធ**៖ -ឯកសារនេះត្រូវបានបកប្រែដោយប្រើសេវាកម្មបកប្រែ AI [Co-op Translator](https://github.com/Azure/co-op-translator)។ ទោះបីយើងខិតខំរក្សាការត្រឹមត្រូវ ក៏សូមយកចិត្តទុកដាក់ថាការបកប្រែដោយស្វ័យប្រវត្តិអាចមានកំហុស ឬភាពមិនត្រឹមត្រូវលើកកន្លែងណាមួយ។ ឯកសារដើមនៅក្នុងភាសាមូលដ្ឋានរបស់វាគួរត្រូវបានចាត់ទុកជាដើមខ្យល់សម្រាប់ព័ត៌មាន។ សម្រាប់ព័ត៌មានសំខាន់ៗ ការបកប្រែដោយមនុស្សជំនាញត្រូវបានណែនាំ។ យើងមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកប្រែខុសធីងអ្វីៗដែលកើតឡើងពីការប្រើប្រាស់ការបកប្រែនេះទេទេ។ +**ការបដិសេធ**: +ឯកសារនេះត្រូវបានបម្លែងភាសា ដោយប្រើសេវាបម្លែងភាសា AI [Co-op Translator](https://github.com/Azure/co-op-translator)។ ទោះយើងខ្ញុំមានក្តីប្រាថ្នាឱ្យបានច្បាស់លាស់ តែសូមយល់ដឹងថាការបម្លែងដោយស្វ័យប្រវត្តិក៏អាចមានកំហុសឬភាពមិនត្រឹមត្រូវ។ ឯកសារដើមជាភាសាទីតាំងគួរត្រូវបានគេប្រើជាប្រភពច្បាស់លាស់។ សម្រាប់ព័ត៌មានសំខាន់ៗ សូមណែនាំឱ្យប្រើប្រាស់ការប្រែដោយមនុស្សជំនាញ។ យើងខ្ញុំមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកស្រាយខុសបន្ទាប់ពីការប្រើប្រាស់ការបម្លែងនេះនោះទេ។ \ No newline at end of file