From 5f990de5b23181d577b58aac7e9b02473e6ebdba Mon Sep 17 00:00:00 2001 From: "localizeflow[bot]" Date: Tue, 26 May 2026 21:47:44 +0000 Subject: [PATCH] chore(i18n): sync translations with latest source changes (chunk 1/1, 9 changes) --- translations/ar/.co-op-translator.json | 8 +- .../ar/1-Introduction/1-intro-to-ML/README.md | 101 +++++---- .../ar/5-Clustering/1-Visualize/README.md | 206 +++++++++--------- translations/de/.co-op-translator.json | 8 +- .../de/1-Introduction/1-intro-to-ML/README.md | 129 +++++------ .../de/5-Clustering/1-Visualize/README.md | 185 ++++++++-------- translations/ru/.co-op-translator.json | 8 +- .../ru/1-Introduction/1-intro-to-ML/README.md | 113 +++++----- .../ru/5-Clustering/1-Visualize/README.md | 188 ++++++++-------- 9 files changed, 489 insertions(+), 457 deletions(-) diff --git a/translations/ar/.co-op-translator.json b/translations/ar/.co-op-translator.json index 03563bc71..6292c1d6c 100644 --- a/translations/ar/.co-op-translator.json +++ b/translations/ar/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-04T20:47:38+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T21:47:33+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "ar" }, @@ -240,8 +240,8 @@ "language_code": "ar" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-04T20:43:28+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T21:46:50+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "ar" }, diff --git a/translations/ar/1-Introduction/1-intro-to-ML/README.md b/translations/ar/1-Introduction/1-intro-to-ML/README.md index 5b30f5153..16f220c44 100644 --- a/translations/ar/1-Introduction/1-intro-to-ML/README.md +++ b/translations/ar/1-Introduction/1-intro-to-ML/README.md @@ -1,87 +1,87 @@ # مقدمة في تعلم الآلة -## [اختبار ما قبل المحاضرة](https://ff-quizzes.netlify.app/en/ml/) +## [اختبار قبل المحاضرة](https://ff-quizzes.netlify.app/en/ml/) --- -[![تعلم الآلة للمبتدئين - مقدمة في تعلم الآلة للمبتدئين](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "تعلم الآلة للمبتدئين - مقدمة في تعلم الآلة للمبتدئين") +[![ML للمبتدئين - مقدمة في تعلم الآلة للمبتدئين](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML للمبتدئين - مقدمة في تعلم الآلة للمبتدئين") -> 🎥 اضغط على الصورة أعلاه لمشاهدة فيديو قصير يشرح هذه الدرس. +> 🎥 انقر على الصورة أعلاه لمشاهدة فيديو قصير يعرض هذا الدرس. -مرحبًا بكم في هذه الدورة حول تعلم الآلة الكلاسيكي للمبتدئين! سواء كنت جديدًا تمامًا على هذا الموضوع، أو ممارسًا لتعلم الآلة يبحث عن تحسين معرفته في مجال معين، نحن سعداء بانضمامك إلينا! نهدف إلى إنشاء نقطة انطلاق ودية لدراستك في تعلم الآلة، ويسعدنا تقييم ملاحظاتك [وتلقيها](https://github.com/microsoft/ML-For-Beginners/discussions) ودمجها. +مرحبًا بك في هذه الدورة حول تعلم الآلة الكلاسيكي للمبتدئين! سواء كنت جديدًا تمامًا على هذا الموضوع أو ممارسًا ذا خبرة في تعلم الآلة تسعى لتحديث معلوماتك في مجال معين، يسعدنا أن تكون معنا! نرغب في إنشاء نقطة انطلاق ودودة لدراستك في تعلم الآلة، وسنسعد بتقييم [ملاحظاتك](https://github.com/microsoft/ML-For-Beginners/discussions) والاستجابة لها ودمجها. [![مقدمة في تعلم الآلة](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "مقدمة في تعلم الآلة") -> 🎥 اضغط على الصورة أعلاه لمشاهدة فيديو: جون غوتاغ من MIT يقدم تعلم الآلة +> 🎥 انقر على الصورة أعلاه لفيديو: يقدم جون جوتاج من MIT مقدمة في تعلم الآلة --- -## البدء مع تعلم الآلة +## البدء بتعلم الآلة -قبل البدء في هذه المنهجية، تحتاج إلى إعداد جهاز الكمبيوتر الخاص بك ليكون جاهزًا لتشغيل الدفاتر محليًا. +قبل البدء بهذا المنهج، تحتاج إلى إعداد جهاز الكمبيوتر الخاص بك وجعله جاهزًا لتشغيل دفاتر الملاحظات محليًا. -- **قم بإعداد جهازك باستخدام هذه الفيديوهات**. استخدم الروابط التالية لتتعلم [كيفية تثبيت بايثون](https://youtu.be/CXZYvNRIAKM) على نظامك و[إعداد محرر نصوص](https://youtu.be/EU8eayHWoZg) للتطوير. -- **تعلم بايثون**. يُوصى أيضًا بأن يكون لديك فهم أساسي لـ [بايثون](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott)، وهي لغة برمجة مفيدة لعلماء البيانات التي نستخدمها في هذه الدورة. -- **تعلم Node.js وجافا سكريبت**. نستخدم أيضًا جافا سكريبت عدة مرات في هذه الدورة عند بناء تطبيقات ويب، لذا ستحتاج إلى تثبيت [node](https://nodejs.org) و[npm](https://www.npmjs.com/) بالإضافة إلى [Visual Studio Code](https://code.visualstudio.com/) لتطوير بايثون وجافا سكريبت. -- **إنشاء حساب GitHub**. بما أنك وجدتنا هنا على [GitHub](https://github.com)، قد يكون لديك حساب بالفعل، ولكن إذا لم يكن لديك، قم بإنشاء حساب ثم قم بعمل fork لهذه المنهجية لاستخدامها بنفسك. (لا تنسَ أن تعطينا نجمة أيضًا 😊) -- **استكشاف Scikit-learn**. تعرف على [Scikit-learn](https://scikit-learn.org/stable/user_guide.html)، وهي مجموعة من مكتبات تعلم الآلة التي نستخدمها في هذه الدروس. +- **قم بإعداد جهازك مع هذه الفيديوهات**. استخدم الروابط التالية لتعلم [كيفية تثبيت بايثون](https://youtu.be/CXZYvNRIAKM) في نظامك و[إعداد محرر نصوص](https://youtu.be/EU8eayHWoZg) للتطوير. +- **تعلم بايثون**. من المستحسن أيضاً أن تمتلك فهمًا أساسيًا لـ [بايثون](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott)، وهي لغة برمجة مفيدة لعلماء البيانات التي نستخدمها في هذه الدورة. +- **تعلم Node.js وجافاسكريبت**. نستخدم جافاسكريبت عدة مرات في هذه الدورة عند بناء تطبيقات الويب، لذا ستحتاج إلى تثبيت [node](https://nodejs.org) و [npm](https://www.npmjs.com/) بالإضافة إلى توفر [Visual Studio Code](https://code.visualstudio.com/) لتطوير كل من بايثون وجافاسكريبت. +- **أنشئ حساب GitHub**. بما أنك وجدتنا هنا على [GitHub](https://github.com)، قد يكون لديك حساب بالفعل، وإذا لم يكن لديك، قم بإنشاء واحد ثم قم بتفريع هذا المنهج لاستخدامه على حدة. (ولا تتردد في إعطائنا نجمة 😊) +- **استكشف Scikit-learn**. تعرف على [Scikit-learn](https://scikit-learn.org/stable/user_guide.html)، وهي مجموعة من مكتبات تعلم الآلة التي نرجع إليها في هذه الدروس. --- ## ما هو تعلم الآلة؟ -مصطلح "تعلم الآلة" هو واحد من أكثر المصطلحات شيوعًا واستخدامًا في الوقت الحالي. هناك احتمال كبير أنك سمعت هذا المصطلح على الأقل مرة واحدة إذا كنت على دراية بالتكنولوجيا، بغض النظر عن المجال الذي تعمل فيه. ومع ذلك، فإن آليات تعلم الآلة تظل غامضة بالنسبة لمعظم الناس. بالنسبة للمبتدئين في تعلم الآلة، قد يبدو الموضوع أحيانًا مربكًا. لذلك، من المهم فهم ما هو تعلم الآلة فعليًا، والتعرف عليه خطوة بخطوة من خلال أمثلة عملية. +مصطلح "تعلم الآلة" هو واحد من أكثر المصطلحات شهرة واستخدامًا اليوم. هناك احتمال كبير أنك سمعت هذا المصطلح مرة واحدة على الأقل إذا كان لديك بعض الإلمام بالتكنولوجيا، بغض النظر عن المجال الذي تعمل فيه. ومع ذلك، فإن آليات تعلم الآلة تظل لغزًا لمعظم الناس. بالنسبة للمبتدئين في تعلم الآلة، قد يبدو الموضوع مرهقًا أحيانًا. لذلك، من المهم فهم ماهية تعلم الآلة فعليًا، والتعلم عنه خطوة بخطوة من خلال أمثلة عملية. --- ## منحنى الضجة -![منحنى الضجة لتعلم الآلة](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![منحنى الضجة في تعلم الآلة](../../../../translated_images/ar/hype.07183d711a17aafe.webp) -> يظهر Google Trends منحنى الضجة الأخير لمصطلح "تعلم الآلة" +> تظهر Google Trends منحنى "الضجة" الأخير لمصطلح "تعلم الآلة" --- ## كون غامض -نعيش في كون مليء بالألغاز المثيرة. علماء عظماء مثل ستيفن هوكينغ، ألبرت أينشتاين، وغيرهم كرسوا حياتهم للبحث عن معلومات ذات معنى تكشف عن أسرار العالم من حولنا. هذه هي طبيعة الإنسان في التعلم: يتعلم الطفل البشري أشياء جديدة ويكتشف هيكل عالمه عامًا بعد عام أثناء نموه ليصبح بالغًا. +نعيش في كون مليء بالألغاز المثيرة. كرس علماء كبار مثل ستيفن هوكينغ، ألبرت أينشتاين، وغيرهم حياتهم للبحث عن معلومات ذات مغزى تكشف أسرار العالم من حولنا. هذا هو حال الإنسان في التعلم: الطفل يتعلم أشياء جديدة ويكشف هيكل عالمه سنة بعد سنة مع نموه إلى مرحلة البلوغ. --- ## دماغ الطفل -يدرك دماغ الطفل وحواسه حقائق محيطه ويتعلم تدريجيًا الأنماط المخفية للحياة التي تساعد الطفل على صياغة قواعد منطقية لتحديد الأنماط المكتسبة. عملية التعلم في الدماغ البشري تجعل البشر أكثر الكائنات الحية تطورًا في هذا العالم. التعلم المستمر من خلال اكتشاف الأنماط المخفية ثم الابتكار بناءً عليها يمكننا من تحسين أنفسنا باستمرار طوال حياتنا. هذه القدرة على التعلم والتطور ترتبط بمفهوم يسمى [لدونة الدماغ](https://www.simplypsychology.org/brain-plasticity.html). بشكل سطحي، يمكننا رسم بعض التشابهات التحفيزية بين عملية التعلم في الدماغ البشري ومفاهيم تعلم الآلة. +يدرك دماغ الطفل وحواسه حقائق محيطه ويتعلم تدريجيًا الأنماط المخفية في الحياة التي تساعده على صياغة قواعد منطقية لتحديد الأنماط المكتسبة. تجعل عملية التعلم في دماغ الإنسان البشر أكثر الكائنات تعقيدًا على هذا العالم. التعلم المستمر من خلال اكتشاف الأنماط المخفية ثم الابتكار عليها يمكننا من تحسين أنفسنا باستمرار طوال حياتنا. هذه القدرة على التعلم والتطور مرتبطة بمفهوم يسمى [لدونة الدماغ](https://www.simplypsychology.org/brain-plasticity.html). سطحيًا، يمكننا رسم بعض التشابهات التحفيزية بين عملية تعلم دماغ الإنسان ومفاهيم تعلم الآلة. --- -## الدماغ البشري +## دماغ الإنسان -[الدماغ البشري](https://www.livescience.com/29365-human-brain.html) يدرك الأشياء من العالم الحقيقي، يعالج المعلومات المدركة، يتخذ قرارات عقلانية، ويقوم بأفعال معينة بناءً على الظروف. هذا ما نسميه التصرف بذكاء. عندما نبرمج عملية سلوك ذكي مشابهة في آلة، يُطلق عليها الذكاء الاصطناعي (AI). +يدرك [دماغ الإنسان](https://www.livescience.com/29365-human-brain.html) الأشياء في العالم الحقيقي، ويعالج المعلومات المدركة، ويتخذ قرارات عقلانية، وينفذ إجراءات معينة بناءً على الظروف. هذا ما نطلق عليه السلوك الذكي. عندما نبرمج نسخة مصغرة من عملية السلوك الذكي لآلة، يسمى ذلك الذكاء الاصطناعي (AI). --- ## بعض المصطلحات -على الرغم من أن المصطلحات قد تكون مربكة، فإن تعلم الآلة (ML) هو جزء مهم من الذكاء الاصطناعي. **تعلم الآلة يهتم باستخدام خوارزميات متخصصة لاستخراج معلومات ذات معنى واكتشاف الأنماط المخفية من البيانات المدركة لدعم عملية اتخاذ القرارات العقلانية**. +على الرغم من أن المصطلحات قد تُخلط أحيانًا، إلا أن تعلم الآلة (ML) هو جزء مهم من الذكاء الاصطناعي. **يتعلق تعلم الآلة باستخدام خوارزميات متخصصة لاكتشاف معلومات ذات مغزى وإيجاد أنماط مخفية من البيانات المدركة لدعم عملية اتخاذ القرار العقلاني**. --- ## الذكاء الاصطناعي، تعلم الآلة، التعلم العميق -![الذكاء الاصطناعي، تعلم الآلة، التعلم العميق، علم البيانات](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, التعلم العميق، علوم البيانات](../../../../translated_images/ar/ai-ml-ds.537ea441b124ebf6.webp) -> رسم بياني يوضح العلاقات بين الذكاء الاصطناعي، تعلم الآلة، التعلم العميق، وعلم البيانات. إنفوجرافيك بواسطة [جين لوبر](https://twitter.com/jenlooper) مستوحى من [هذا الرسم](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> رسم بياني يظهر العلاقات بين الذكاء الاصطناعي، تعلم الآلة، التعلم العميق، وعلوم البيانات. الإنفوغرافيك من تصميم [جين لوبر](https://twitter.com/jenlooper) مستوحى من [هذا الرسم](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- ## المفاهيم التي سنغطيها -في هذه المنهجية، سنغطي فقط المفاهيم الأساسية لتعلم الآلة التي يجب أن يعرفها المبتدئ. نغطي ما نسميه "تعلم الآلة الكلاسيكي" باستخدام Scikit-learn بشكل أساسي، وهي مكتبة ممتازة يستخدمها العديد من الطلاب لتعلم الأساسيات. لفهم المفاهيم الأوسع للذكاء الاصطناعي أو التعلم العميق، فإن المعرفة الأساسية القوية لتعلم الآلة لا غنى عنها، ونود تقديمها هنا. +في هذا المنهج، سنتناول فقط المفاهيم الأساسية لتعلم الآلة التي يجب أن يعرفها المبتدئ. نغطي ما نسميه "تعلم الآلة الكلاسيكي" بشكل رئيسي باستخدام Scikit-learn، وهي مكتبة ممتازة يستخدمها العديد من الطلاب لتعلم الأساسيات. لفهم مفاهيم أوسع للذكاء الاصطناعي أو التعلم العميق، فإن معرفة قوية بأساسيات تعلم الآلة أمر لا غنى عنه، ولذلك نرغب في تقديمها هنا. --- -## في هذه الدورة ستتعلم: +## في هذه الدورة سوف تتعلم: - المفاهيم الأساسية لتعلم الآلة - تاريخ تعلم الآلة -- تعلم الآلة والإنصاف +- تعلم الآلة والعدالة - تقنيات الانحدار في تعلم الآلة - تقنيات التصنيف في تعلم الآلة - تقنيات التجميع في تعلم الآلة - تقنيات معالجة اللغة الطبيعية في تعلم الآلة - تقنيات التنبؤ بالسلاسل الزمنية في تعلم الآلة - التعلم المعزز -- تطبيقات تعلم الآلة في العالم الحقيقي +- التطبيقات الحقيقية لتعلم الآلة --- ## ما لن نغطيه @@ -90,61 +90,68 @@ - الشبكات العصبية - الذكاء الاصطناعي -لتحقيق تجربة تعلم أفضل، سنتجنب تعقيدات الشبكات العصبية، "التعلم العميق" - بناء نماذج متعددة الطبقات باستخدام الشبكات العصبية - والذكاء الاصطناعي، الذي سنناقشه في منهجية مختلفة. سنقدم أيضًا منهجية قادمة لعلم البيانات للتركيز على هذا الجانب من هذا المجال الأوسع. +للحصول على تجربة تعليمية أفضل، سنتجنب التعقيدات المتعلقة بالشبكات العصبية، و"التعلم العميق" - بناء النماذج متعددة الطبقات باستخدام الشبكات العصبية - والذكاء الاصطناعي، والتي سنناقشها في منهج مختلف. كما سنقدم منهجًا مستقبليًا لعلوم البيانات للتركيز على هذا الجانب من هذا المجال الأوسع. --- -## لماذا دراسة تعلم الآلة؟ +## لماذا ندرس تعلم الآلة؟ -من منظور الأنظمة، يُعرف تعلم الآلة بأنه إنشاء أنظمة مؤتمتة يمكنها تعلم الأنماط المخفية من البيانات للمساعدة في اتخاذ قرارات ذكية. +تعرف تعلم الآلة، من منظور الأنظمة، على أنه إنشاء أنظمة آلية يمكنها تعلم الأنماط المخفية من البيانات للمساعدة في اتخاذ قرارات ذكية. -هذا الدافع مستوحى بشكل فضفاض من كيفية تعلم الدماغ البشري أشياء معينة بناءً على البيانات التي يدركها من العالم الخارجي. +هذا الدافع مستلهم بشكل فضفاض من طريقة تعلم دماغ الإنسان بعض الأشياء بناءً على البيانات التي يدركها من العالم الخارجي. -✅ فكر لدقيقة لماذا قد ترغب شركة في استخدام استراتيجيات تعلم الآلة بدلاً من إنشاء محرك يعتمد على قواعد مبرمجة. +✅ فكر للحظة لماذا قد ترغب شركة في محاولة استخدام استراتيجيات تعلم الآلة بدلاً من إنشاء محرك يعتمد على قواعد مشفرة ثابتة. + +--- +## لماذا جودة البيانات مهمة + +تحسن البيانات عالية الجودة أداء النموذج. يمكن للبيانات الرديئة أو المشوشة أن تؤدي إلى تنبؤات غير دقيقة، حتى عند استخدام خوارزميات تعلم آلة متقدمة. --- ## تطبيقات تعلم الآلة -تطبيقات تعلم الآلة موجودة الآن في كل مكان، وهي منتشرة مثل البيانات التي تتدفق حول مجتمعاتنا، والتي يتم إنشاؤها بواسطة هواتفنا الذكية، الأجهزة المتصلة، وأنظمة أخرى. بالنظر إلى الإمكانات الهائلة لخوارزميات تعلم الآلة الحديثة، استكشف الباحثون قدرتها على حل مشاكل متعددة الأبعاد ومتعددة التخصصات في الحياة الواقعية بنتائج إيجابية كبيرة. +تطبيقات تعلم الآلة موجودة الآن في كل مكان تقريبًا، وهي منتشرة تمامًا مثل البيانات التي تتدفق حول مجتمعاتنا، التي يتم توليدها بواسطة هواتفنا الذكية والأجهزة المتصلة والأنظمة الأخرى. نظرًا للإمكانات الهائلة لخوارزميات تعلم الآلة الحديثة، فقد كان الباحثون يستكشفون قدرتها على حل المشكلات الحياتية متعددة الأبعاد ومتعددة التخصصات بتحقيق نتائج إيجابية كبيرة. --- -## أمثلة على تعلم الآلة المطبق +## أمثلة على تعلم الآلة المطبّق **يمكنك استخدام تعلم الآلة بطرق عديدة**: -- للتنبؤ باحتمالية الإصابة بمرض بناءً على التاريخ الطبي أو التقارير. +- للتنبؤ باحتمالية حدوث مرض بناءً على التاريخ الطبي للمريض أو التقارير. - للاستفادة من بيانات الطقس للتنبؤ بالأحداث الجوية. -- لفهم مشاعر النصوص. +- لفهم مشاعر النص. - لاكتشاف الأخبار المزيفة لوقف انتشار الدعاية. -التمويل، الاقتصاد، علوم الأرض، استكشاف الفضاء، الهندسة الطبية الحيوية، العلوم الإدراكية، وحتى المجالات الإنسانية قد تبنت تعلم الآلة لحل المشاكل الصعبة التي تعتمد على معالجة البيانات في مجالاتها. +لقد تبنت مجالات المال والاقتصاد وعلوم الأرض واستكشاف الفضاء والهندسة الطبية الحيوية وعلوم الإدراك، وحتى مجالات في العلوم الإنسانية تعلم الآلة لحل المشكلات الصعبة الثقيلة على المعالجة البيانات في تخصصاتهم. --- ## الخاتمة -يعمل تعلم الآلة على أتمتة عملية اكتشاف الأنماط من خلال استخراج رؤى ذات معنى من البيانات الحقيقية أو المولدة. وقد أثبت نفسه كأداة قيمة للغاية في الأعمال التجارية، الصحة، والتطبيقات المالية، وغيرها. +يعتمد تعلم الآلة على أتمتة عملية اكتشاف الأنماط من خلال إيجاد رؤى ذات معنى من البيانات الواقعية أو المولدة. لقد أثبت نفسه قيمًا للغاية في الأعمال الصحية والمالية، من بين مجالات أخرى. -في المستقبل القريب، سيكون فهم أساسيات تعلم الآلة ضرورة للأشخاص من أي مجال بسبب اعتماده الواسع. +في المستقبل القريب، سيكون فهم أساسيات تعلم الآلة ضرورة للناس من أي مجال بسبب اعتماده الواسع. --- -# 🚀 التحدي +# 🚀 تحدي -قم برسم، على الورق أو باستخدام تطبيق عبر الإنترنت مثل [Excalidraw](https://excalidraw.com/)، فهمك للاختلافات بين الذكاء الاصطناعي، تعلم الآلة، التعلم العميق، وعلم البيانات. أضف بعض الأفكار حول المشاكل التي يمكن لكل من هذه التقنيات حلها. +ارسم، على ورق أو باستخدام تطبيق على الإنترنت مثل [Excalidraw](https://excalidraw.com/)، فهمك للفروق بين الذكاء الاصطناعي، تعلم الآلة، التعلم العميق، وعلوم البيانات. أضف بعض الأفكار عن المشكلات التي تجيد كل من هذه التقنيات حلها. -# [اختبار ما بعد المحاضرة](https://ff-quizzes.netlify.app/en/ml/) +# [اختبار بعد المحاضرة](https://ff-quizzes.netlify.app/en/ml/) --- -# المراجعة والدراسة الذاتية +# مراجعة والدراسة الذاتية -لتعلم المزيد حول كيفية العمل مع خوارزميات تعلم الآلة في السحابة، اتبع [مسار التعلم](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +لتعلم المزيد عن كيفية العمل مع خوارزميات تعلم الآلة في السحابة، اتبع هذا [مسار التعلم](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -خذ [مسار التعلم](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) حول أساسيات تعلم الآلة. +اتخذ [مسار تعلم](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) عن أساسيات تعلم الآلة. --- # الواجب -[ابدأ العمل](assignment.md) +[ابدأ وانطلق](assignment.md) --- -**إخلاء المسؤولية**: -تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة. \ No newline at end of file + +**تنويه**: +تمت ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى للدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي والمعتمد. للمعلومات الهامة، يُنصح بالاستعانة بترجمة بشرية محترفة. نحن غير مسؤولين عن أي سوء فهم أو تفسير ناتج عن استخدام هذه الترجمة. + \ No newline at end of file diff --git a/translations/ar/5-Clustering/1-Visualize/README.md b/translations/ar/5-Clustering/1-Visualize/README.md index 5603cfe12..c5ec49018 100644 --- a/translations/ar/5-Clustering/1-Visualize/README.md +++ b/translations/ar/5-Clustering/1-Visualize/README.md @@ -1,110 +1,116 @@ -# مقدمة إلى التجميع +# مقدمة في التجميع -التجميع هو نوع من [التعلم غير الموجه](https://wikipedia.org/wiki/Unsupervised_learning) الذي يفترض أن مجموعة البيانات غير معنونة أو أن مدخلاتها غير مرتبطة بمخرجات محددة مسبقًا. يستخدم التجميع خوارزميات مختلفة لفرز البيانات غير المعنونة وتوفير مجموعات بناءً على الأنماط التي يكتشفها في البيانات. +التجميع هو نوع من أنواع [التعلم بدون إشراف](https://wikipedia.org/wiki/Unsupervised_learning) الذي يفترض أن مجموعة البيانات غير معنونة أو أن مدخلاتها غير مطابقة لمخرجات محددة مسبقًا. يستخدم خوارزميات مختلفة للفرز عبر البيانات غير المعنونة وتوفير مجموعات وفقًا للأنماط التي يكتشفها في البيانات. -[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") +[![لا أحد مثلك بواسطة PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "لا أحد مثلك بواسطة PSquare") -> 🎥 انقر على الصورة أعلاه لمشاهدة الفيديو. أثناء دراستك لتعلم الآلة باستخدام التجميع، استمتع ببعض أغاني الرقص النيجيرية - هذه أغنية مشهورة من عام 2014 لفرقة PSquare. +> 🎥 انقر على الصورة أعلاه لمشاهدة فيديو. أثناء دراستك لتعلم الآلة مع التجميع، استمتع ببعض مسارات رقص هول النيجيري - هذه أغنية عالية التقييم من عام 2014 بواسطة PSquare. -## [اختبار ما قبل المحاضرة](https://ff-quizzes.netlify.app/en/ml/) +## [اختبار قبل المحاضرة](https://ff-quizzes.netlify.app/en/ml/) ### مقدمة -[التجميع](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) مفيد جدًا لاستكشاف البيانات. دعونا نرى ما إذا كان يمكنه المساعدة في اكتشاف الاتجاهات والأنماط في طريقة استهلاك الجمهور النيجيري للموسيقى. +[التجميع](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) مفيد جدًا لاستكشاف البيانات. دعنا نرى إذا كان يمكنه المساعدة في اكتشاف الاتجاهات والأنماط في طريقة استهلاك الجمهور النيجيري للموسيقى. -✅ خذ دقيقة للتفكير في استخدامات التجميع. في الحياة الواقعية، يحدث التجميع عندما يكون لديك كومة من الغسيل وتحتاج إلى فرز ملابس أفراد عائلتك 🧦👕👖🩲. في علم البيانات، يحدث التجميع عند محاولة تحليل تفضيلات المستخدم أو تحديد خصائص أي مجموعة بيانات غير معنونة. يساعد التجميع، بطريقة ما، في فهم الفوضى، مثل درج الجوارب. +✅ خذ دقيقة للتفكير في استخدامات التجميع. في الحياة الواقعية، يحدث التجميع كلما كان لديك كومة من الغسيل وتحتاج إلى فرز ملابس أفراد عائلتك 🧦👕👖🩲. في علم البيانات، يحدث التجميع عند محاولة تحليل تفضيلات المستخدم، أو تحديد خصائص أي مجموعة بيانات غير معنونة. التجميع، بطريقة ما، يساعد على فهم الفوضى، مثل درج الجوارب. -[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") +[![مقدمة في تعلم الآلة](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "مقدمة في التجميع") -> 🎥 انقر على الصورة أعلاه لمشاهدة الفيديو: جون غوتاغ من MIT يقدم التجميع. +> 🎥 انقر على الصورة أعلاه لمشاهدة فيديو: يقدّم جون جوتاغ من MIT التجميع -في بيئة مهنية، يمكن استخدام التجميع لتحديد أشياء مثل تقسيم السوق، أو تحديد الفئات العمرية التي تشتري منتجات معينة، على سبيل المثال. استخدام آخر يمكن أن يكون اكتشاف الشذوذ، ربما لاكتشاف الاحتيال من مجموعة بيانات معاملات بطاقات الائتمان. أو قد تستخدم التجميع لتحديد الأورام في مجموعة من الفحوصات الطبية. +في بيئة مهنية، يمكن استخدام التجميع لتحديد أشياء مثل تجزئة السوق، وتحديد الفئات العمرية التي تشتري عناصر معينة، على سبيل المثال. استخدام آخر يمكن أن يكون الكشف عن الشذوذ، ربما لاكتشاف الاحتيال من مجموعة بيانات لمعاملات بطاقات الائتمان. أو قد تستخدم التجميع لتحديد الأورام في مجموعة من الصور الطبية. -✅ فكر لدقيقة في كيفية مواجهتك للتجميع "في الحياة الواقعية"، سواء في البنوك أو التجارة الإلكترونية أو بيئة الأعمال. +✅ فكر لدقيقة في كيفية مواجهتك للتجميع 'في الواقع'، في مجال الخدمات المصرفية، التجارة الإلكترونية، أو الأعمال التجارية. -> 🎓 من المثير للاهتمام أن تحليل التجميع نشأ في مجالات الأنثروبولوجيا وعلم النفس في ثلاثينيات القرن الماضي. هل يمكنك تخيل كيف كان يمكن استخدامه؟ +> 🎓 من المثير للاهتمام، أن تحليل التجمع نشأ في مجالات الأنثروبولوجيا وعلم النفس في ثلاثينيات القرن العشرين. هل يمكنك تخيل كيفية استخدامه؟ -بدلاً من ذلك، يمكنك استخدامه لتجميع نتائج البحث - مثل الروابط التسويقية أو الصور أو المراجعات، على سبيل المثال. يكون التجميع مفيدًا عندما يكون لديك مجموعة بيانات كبيرة تريد تقليلها وتريد إجراء تحليل أكثر تفصيلاً عليها، لذا يمكن استخدام هذه التقنية لفهم البيانات قبل بناء نماذج أخرى. +بدلاً من ذلك، يمكنك استخدامه لتجميع نتائج البحث - حسب روابط التسوق، الصور، أو المراجعات، على سبيل المثال. التجميع مفيد عندما يكون لديك مجموعة بيانات كبيرة تريد تقليلها والتي تريد إجراء تحليل أكثر تفصيلاً عليها، لذا يمكن استخدام التقنية للتعرف على البيانات قبل بناء نماذج أخرى. -✅ بمجرد تنظيم بياناتك في مجموعات، يمكنك تعيين معرف مجموعة لها، ويمكن أن تكون هذه التقنية مفيدة عند الحفاظ على خصوصية مجموعة البيانات؛ يمكنك بدلاً من ذلك الإشارة إلى نقطة بيانات بمعرف المجموعة الخاص بها، بدلاً من بيانات تعريفية أكثر كشفًا. هل يمكنك التفكير في أسباب أخرى قد تجعلك تشير إلى معرف مجموعة بدلاً من عناصر أخرى من المجموعة لتحديدها؟ +✅ بمجرد تنظيم بياناتك في مجموعات، تعطيها رقم تعريف مجموعة، ويمكن أن تكون هذه التقنية مفيدة عند الحفاظ على خصوصية مجموعة البيانات؛ يمكنك بدلاً من ذلك الإشارة إلى نقطة بيانات عبر رقم تعريف المجموعة، وليس عبر بيانات تعريفية أكثر كشفًا. هل يمكنك التفكير في أسباب أخرى تجعلك تشير إلى رقم تعريف المجموعة بدلاً من عناصر أخرى في المجموعة لتحديدها؟ -تعرف على المزيد حول تقنيات التجميع في هذا [الوحدة التعليمية](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +عمّق فهمك لتقنيات التجميع في هذا [وحدة التعلم](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) -## البدء مع التجميع +## البدء بالتجميع -[يوفر Scikit-learn مجموعة كبيرة](https://scikit-learn.org/stable/modules/clustering.html) من الطرق لتنفيذ التجميع. يعتمد النوع الذي تختاره على حالتك. وفقًا للتوثيق، لكل طريقة فوائد مختلفة. إليك جدول مبسط للطرق المدعومة من Scikit-learn وحالات الاستخدام المناسبة لها: +[تقدم مكتبة Scikit-learn مجموعة كبيرة](https://scikit-learn.org/stable/modules/clustering.html) من الطرق لأداء التجميع. النوع الذي تختاره يعتمد على حالة الاستخدام الخاصة بك. وفقًا للتوثيق، كل طريقة لها فوائد مختلفة. هذه جدول مبسط للطرق التي تدعمها Scikit-learn وحالات استخدامها المناسبة: -| اسم الطريقة | حالة الاستخدام | +| اسم الطريقة | حالة الاستخدام | | :--------------------------- | :--------------------------------------------------------------------- | -| K-Means | غرض عام، استقرائي | -| Affinity propagation | العديد من المجموعات غير المتساوية، استقرائي | -| Mean-shift | العديد من المجموعات غير المتساوية، استقرائي | -| Spectral clustering | مجموعات قليلة ومتساوية، استنتاجي | -| Ward hierarchical clustering | العديد من المجموعات المقيدة، استنتاجي | -| Agglomerative clustering | العديد من المجموعات المقيدة، مسافات غير إقليدية، استنتاجي | -| DBSCAN | هندسة غير مسطحة، مجموعات غير متساوية، استنتاجي | -| OPTICS | هندسة غير مسطحة، مجموعات غير متساوية بكثافة متغيرة، استنتاجي | -| Gaussian mixtures | هندسة مسطحة، استقرائي | -| BIRCH | مجموعة بيانات كبيرة مع نقاط شاذة، استقرائي | - -> 🎓 كيف ننشئ المجموعات يعتمد بشكل كبير على كيفية جمع نقاط البيانات في مجموعات. دعونا نوضح بعض المصطلحات: +| K-Means | غرض عام، استقرائي | +| افينيتي بروجاشن (Affinity propagation) | متعدد، مجموعات غير متساوية، استقرائي | +| مين-شيفت (Mean-shift) | متعدد، مجموعات غير متساوية، استقرائي | +| التجميع الطيفي (Spectral clustering) | قليل، مجموعات متساوية، انتقالي | +| التجميع الهرمي لـ Ward | متعدد، مجموعات مقيدة، انتقالي | +| التجميع التجميعي (Agglomerative clustering) | متعدد، مقيد، مسافات غير إقليدية، انتقالي | +| دي بي سكان (DBSCAN) | هندسة غير مسطحة، مجموعات غير متساوية، انتقالي | +| أوبتيكس (OPTICS) | هندسة غير مسطحة، مجموعات غير متساوية بكثافة متغيرة، انتقالي | +| مزيج جاوسي (Gaussian mixtures) | هندسة مسطحة، استقرائي | +| بيرش (BIRCH) | مجموعة بيانات كبيرة بها قيم شاذة، استقرائي | + +> 🎓 كيفية إنشاء المجموعات لها علاقة كبيرة بكيفية جمع نقاط البيانات إلى مجموعات. لنفكّر في بعض المصطلحات: > -> 🎓 ['استنتاجي' مقابل 'استقرائي'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['انتقالي' مقابل 'استقرائي'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> الاستنتاج الاستقرائي يعتمد على حالات تدريب ملاحظة تُطبق على قواعد عامة، بينما الاستنتاج الاستنتاجي يعتمد على حالات تدريب ملاحظة تُطبق على حالات اختبار محددة. +> الاستدلال الانتقالي مشتق من حالات تدريب ملاحظة تتطابق مع حالات اختبار محددة. الاستدلال الاستقرائي مشتق من حالات تدريب تتطابق مع قواعد عامة تُطبق فقط بعد ذلك على حالات الاختبار. > -> مثال: تخيل أن لديك مجموعة بيانات معنونة جزئيًا. بعض العناصر "أسطوانات"، وبعضها "أقراص مدمجة"، وبعضها فارغ. إذا اخترت نهجًا استقرائيًا، ستدرب نموذجًا يبحث عن "أسطوانات" و"أقراص مدمجة"، وتطبق هذه التصنيفات على البيانات غير المعنونة. هذا النهج سيواجه صعوبة في تصنيف الأشياء التي هي في الواقع "كاسيتات". أما النهج الاستنتاجي، فيتعامل مع هذه البيانات غير المعروفة بشكل أكثر فعالية حيث يعمل على تجميع العناصر المتشابهة معًا ثم يطبق تصنيفًا على المجموعة. +> مثال: تخيل أن لديك مجموعة بيانات معنونة جزئيًا. بعض الأشياء هي 'أسطوانات،' بعضها 'أقراص مدمجة،' وبعضها فارغ. مهمتك هي إعطاء تسميات للفارغات. إذا اخترت نهجًا استقرائيًا، ستدرّب نموذجًا للبحث عن 'أسطوانات' و'أقراص مدمجة'، وتطبق هذه التسميات على بياناتك غير المعنونة. هذا النهج سيواجه صعوبة في تصنيف الأشياء التي هي فعليًا 'أشرطة كاسيت'. أما النهج الانتقالي، من ناحية أخرى، فيتعامل مع هذه البيانات المجهولة بشكل أكثر فاعلية حيث يعمل على تجميع العناصر المتشابهة معًا ثم يطبق تسمية على المجموعة. في هذه الحالة، قد تعكس المجموعات 'أشياء موسيقية دائرية' و'أشياء موسيقية مربعة'. > -> 🎓 ['هندسة غير مسطحة' مقابل 'مسطحة'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['الهندسة غير المسطحة' مقابل 'المسطحة'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> مشتقة من المصطلحات الرياضية، تشير الهندسة المسطحة إلى قياس المسافات بين النقاط باستخدام الطرق الإقليدية، بينما تشير الهندسة غير المسطحة إلى استخدام الطرق غير الإقليدية. +> مأخوذة من المصطلحات الرياضية، الهندسة غير المسطحة مقابل المسطحة تشير إلى قياس المسافات بين النقاط إما بطريقة 'مستوية' ([إقليدية](https://wikipedia.org/wiki/Euclidean_geometry)) أو بطريقة 'غير مستوية' (غير إقليدية). +> +> 'المسطحة' في هذا السياق تعني الهندسة الإقليدية (الأجزاء منها تُدرّس كالهندسة 'المستوية')، و'غير المسطحة' تشير إلى الهندسة غير الإقليدية. ما علاقة الهندسة بتعلم الآلة؟ بما أن كلا المجالين متجذران في الرياضيات، يجب أن يكون هناك طريقة مشتركة لقياس المسافات بين نقاط المجموعات، ويمكن القيام بذلك بطريقة 'مستوية' أو 'غير مستوية' حسب طبيعة البيانات. تُقاس [المسافات الإقليدية](https://wikipedia.org/wiki/Euclidean_distance) بطول قطعة خط بين نقطتين. تُقاس [المسافات غير الإقليدية](https://wikipedia.org/wiki/Non-Euclidean_geometry) على طول منحنى. إذا بدت بياناتك، عند تصورها، وكأنها لا توجد على مستوى، قد تحتاج إلى استخدام خوارزمية متخصصة للتعامل معها. +> +>![مخطط معلوماتي للهندسة المسطحة مقابل غير المسطحة](../../../../translated_images/ar/flat-nonflat.d1c8c6e2a96110c1.webp) +>مخطط معلوماتي بواسطة [Dasani Madipalli](https://twitter.com/dasani_decoded) > -![Flat vs Nonflat Geometry Infographic](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> إنفوجرافيك بواسطة [Dasani Madipalli](https://twitter.com/dasani_decoded) -> > 🎓 ['المسافات'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) -> -> تُعرف المجموعات بمصفوفة المسافات الخاصة بها، أي المسافات بين النقاط. يمكن قياس هذه المسافة بطرق مختلفة. المجموعات الإقليدية تُعرف بمتوسط قيم النقاط، وتحتوي على "مركز" أو نقطة مركزية. تُقاس المسافات بناءً على المسافة إلى هذا المركز. المسافات غير الإقليدية تشير إلى "clustroids"، النقطة الأقرب إلى النقاط الأخرى. -> +> +> تُعرّف المجموعات بواسطة مصفوفة المسافات الخاصة بها، أي المسافات بين النقاط. يمكن قياس هذه المسافة بعدة طرق. تُعرف المجموعات الإقليدية بمتوسط قيم النقاط، وتحتوي على 'مركز' أو نقطة مركزية. المسافات تُقاس إذًا عن طريق المسافة إلى ذلك المركز. تشير المسافات غير الإقليدية إلى 'نقاط مركزية' (clustroids)، وهي النقطة الأقرب إلى النقاط الأخرى. ويمكن تعريفها بطرق مختلفة. +> > 🎓 ['مقيدة'](https://wikipedia.org/wiki/Constrained_clustering) > -> [التجميع المقيد](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) يقدم التعلم "شبه الموجه" إلى هذه الطريقة غير الموجهة. يتم وضع قواعد على العلاقات بين النقاط مثل "لا يمكن الربط" أو "يجب الربط". +> [التجميع المقيد](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) يُدخل التعلم "شبه المراقب" في هذه الطريقة غير المراقبة. تُعلم العلاقات بين النقاط كـ 'لا يمكن ربطها' أو 'يجب ربطها' بحيث تُفرض بعض القواعد على مجموعة البيانات. > -> مثال: إذا تُركت خوارزمية حرة على مجموعة بيانات غير معنونة أو معنونة جزئيًا، قد تكون المجموعات الناتجة ذات جودة ضعيفة. إذا أُعطيت بعض القيود، مثل "يجب أن يكون العنصر مصنوعًا من البلاستيك"، يمكن أن يساعد ذلك في تحسين جودة المجموعات. +> مثال: إذا أُطلقت خوارزمية على دفعة من البيانات غير المعنونة أو ذات التسمية الجزئية، قد تكون المجموعات التي تنتجها ذات جودة منخفضة. في المثال أعلاه، قد تجمع المجموعات 'أشياء موسيقية دائرية' و'أشياء موسيقية مربعة' و'أشياء مثلثة' و'كوكيز'. إذا أعطيت بعض القيود، أو القواعد التي يجب اتباعها ("يجب أن يكون العنصر مصنوعًا من البلاستيك"، "يجب أن يكون العنصر قادرًا على إنتاج موسيقى") يمكن أن يساعد ذلك في 'تقييد' الخوارزمية لاتخاذ خيارات أفضل. +> +> 🎓 'الكثافة' +> +> يُعتبر البيانات التي تحتوي على 'ضجيج' بأنها 'كثيفة'. قد تثبت المسافات بين النقاط في كل من مجموعاتها، عند التحقق، أنها أكثر أو أقل كثافة، أو 'مزدحمة' وبالتالي تحتاج هذه البيانات إلى تحليل بطريقة التجميع المناسبة. [تُظهر هذه المقالة](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) الفرق بين استخدام خوارزمية K-Means مقابل HDBSCAN لاستكشاف مجموعة بيانات مضطربة بكثافة مجموعات غير متساوية. ## خوارزميات التجميع -هناك أكثر من 100 خوارزمية للتجميع، ويعتمد استخدامها على طبيعة البيانات المتاحة. دعونا نناقش بعض الخوارزميات الرئيسية: +هناك أكثر من 100 خوارزمية تجميع، ويعتمد استخدامها على طبيعة البيانات الموجودة. دعونا نناقش بعض الخوارزميات الرئيسية: -- **التجميع الهرمي**. إذا تم تصنيف كائن بناءً على قربه من كائن قريب بدلاً من كائن بعيد، يتم تشكيل المجموعات بناءً على المسافات بين أعضائها. التجميع التكتلي في Scikit-learn هو تجميع هرمي. +- **التجميع الهرمي**. إذا تم تصنيف كائن بمقارنة قربه من كائن مجاور بدلاً من كائن بعيد، تُشكل المجموعات بناءً على مسافة أعضائها من وإلى الأجسام الأخرى. التجميع التجميعي في Scikit-learn هو هرمي. - ![Hierarchical clustering Infographic](../../../../5-Clustering/1-Visualize/images/hierarchical.png) - > إنفوجرافيك بواسطة [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![مخطط معلوماتي للتجميع الهرمي](../../../../translated_images/ar/hierarchical.bf59403aa43c8c47.webp) + > مخطط معلوماتي بواسطة [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **التجميع المركزي**. يتطلب هذا الخوارزمية الشائعة اختيار "k"، أو عدد المجموعات المراد تشكيلها، وبعد ذلك تحدد الخوارزمية النقطة المركزية للمجموعة وتجمع البيانات حول تلك النقطة. [التجميع باستخدام K-means](https://wikipedia.org/wiki/K-means_clustering) هو نسخة شائعة من هذا النوع. +- **التجميع المركزي**. هذه الخوارزمية الشهيرة تتطلب اختيار 'k'، أو عدد المجموعات المراد تشكيلها، وبعدها تحدد الخوارزمية نقطة مركز المجموعة وتجمع البيانات حول تلك النقطة. [تجميع K-means](https://wikipedia.org/wiki/K-means_clustering) هو نسخة شهيرة من هذا النوع. يتم تحديد المركز بواسطة المتوسط الأقرب، ومن هنا جاء الاسم. يتم تقليل مربع المسافة من المجموعة. - ![Centroid clustering Infographic](../../../../5-Clustering/1-Visualize/images/centroid.png) - > إنفوجرافيك بواسطة [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![مخطط معلوماتي للتجميع المركزي](../../../../translated_images/ar/centroid.097fde836cf6c918.webp) + > مخطط معلوماتي بواسطة [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **التجميع القائم على التوزيع**. يعتمد على النمذجة الإحصائية، حيث يركز على تحديد احتمال انتماء نقطة بيانات إلى مجموعة معينة. +- **التجميع القائم على التوزيع**. يعتمد على النمذجة الإحصائية، ويركز على تحديد احتمال انتماء نقطة بيانات إلى مجموعة، وتعيينها وفقًا لذلك. طرق المزيج الغاوسي تنتمي إلى هذا النوع. -- **التجميع القائم على الكثافة**. يتم تعيين نقاط البيانات إلى مجموعات بناءً على كثافتها، أو تجمعها حول بعضها البعض. النقاط البعيدة عن المجموعة تُعتبر شذوذًا أو ضوضاء. +- **التجميع القائم على الكثافة**. تُخصص نقاط البيانات إلى المجموعات بناءً على كثافتها، أو تجمّعها حول بعضها البعض. تُعتبر النقاط البعيدة عن المجموعة شذوذات أو ضجيج. تنتمي DBSCAN وMean-shift وOPTICS إلى هذا النوع من التجميع. -- **التجميع القائم على الشبكة**. بالنسبة لمجموعات البيانات متعددة الأبعاد، يتم إنشاء شبكة وتقسيم البيانات بين خلايا الشبكة، مما يؤدي إلى إنشاء مجموعات. +- **التجميع القائم على الشبكة**. لمجموعات البيانات متعددة الأبعاد، يتم إنشاء شبكة ثم تُقسم البيانات بين خلايا الشبكة، مما يخلق مجموعات. -## تمرين - تجميع بياناتك +## التمرين - قم بتجميع بياناتك -التجميع كطريقة يعتمد بشكل كبير على التصور الصحيح، لذا دعونا نبدأ بتصور بيانات الموسيقى الخاصة بنا. سيساعدنا هذا التمرين في تحديد الطريقة الأكثر فعالية للتجميع التي يمكننا استخدامها لطبيعة هذه البيانات. +يُساعد التجميع كطريقة بشكل كبير من خلال التصور المناسب، فلنبدأ بتصور بيانات الموسيقى الخاصة بنا. سيساعدنا هذا التمرين في تحديد أي من طرق التجميع يجب أن نستخدمها بأكثر فعالية لطبيعة هذه البيانات. 1. افتح ملف [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) في هذا المجلد. -1. استورد حزمة `Seaborn` للحصول على تصور جيد للبيانات. +1. استورد حزمة `Seaborn` لتصور جيد للبيانات. ```python !pip install seaborn ``` -1. أضف بيانات الأغاني من [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). قم بتحميل إطار بيانات يحتوي على بعض البيانات حول الأغاني. استعد لاستكشاف هذه البيانات عن طريق استيراد المكتبات وعرض البيانات: +1. أضف بيانات الأغاني من [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). قم بتحميل إطار بيانات يحتوي على بعض المعلومات عن الأغاني. استعد لاستكشاف هذه البيانات عن طريق استيراد المكتبات وإظهار البيانات: ```python import matplotlib.pyplot as plt @@ -114,23 +120,23 @@ df.head() ``` - تحقق من الأسطر القليلة الأولى من البيانات: + تحقق من أول بضعة أسطر من البيانات: - | | الاسم | الألبوم | الفنان | النوع الموسيقي الرئيسي | تاريخ الإصدار | الطول | الشعبية | القابلية للرقص | الصوتية | الطاقة | الآلية | الحيوية | الصوت | الكلامية | الإيقاع | توقيع الوقت | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. احصل على بعض المعلومات حول إطار البيانات باستخدام الأمر `info()`: +1. احصل على بعض المعلومات حول إطار البيانات، من خلال استدعاء `info()`: ```python df.info() ``` - الناتج يبدو كالتالي: + المخرجات تظهر كالتالي: ```output @@ -158,13 +164,13 @@ memory usage: 66.4+ KB ``` -1. تحقق مرة أخرى من القيم الفارغة باستخدام الأمر `isnull()` وتأكد من أن المجموع يساوي 0: +1. تحقق مرة أخرى من القيم الخالية، عن طريق استدعاء `isnull()` والتحقق من أن المجموع يساوي 0: ```python df.isnull().sum() ``` - يبدو جيدًا: + يبدو جيداً: ```output name 0 @@ -203,11 +209,11 @@ | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 إذا كنا نعمل مع التجميع، وهي طريقة غير خاضعة للإشراف لا تتطلب بيانات مصنفة، فلماذا نعرض هذه البيانات مع تسميات؟ في مرحلة استكشاف البيانات، تكون مفيدة، لكنها ليست ضرورية لعمل خوارزميات التجميع. يمكنك ببساطة إزالة رؤوس الأعمدة والإشارة إلى البيانات برقم العمود. +> 🤔 إذا كنا نعمل على التكتل، وهي طريقة غير خاضعة للمراقبة لا تتطلب بيانات معنونة، لماذا نعرض هذه البيانات مع التسميات؟ في مرحلة استكشاف البيانات، تكون هذه التسميات مفيدة، لكنها غير ضرورية لعمل خوارزميات التكتل. يمكنك أيضًا إزالة رؤوس الأعمدة والإشارة إلى البيانات بواسطة رقم العمود. -انظر إلى القيم العامة للبيانات. لاحظ أن الشعبية يمكن أن تكون "0"، مما يظهر الأغاني التي ليس لها تصنيف. دعنا نزيل هذه القيم قريبًا. +انظر إلى القيم العامة للبيانات. لاحظ أن الشعبية يمكن أن تكون '0'، وهذا يظهر الأغاني التي لا تمتلك تصنيفًا. دعونا نزيلها قريبًا. -1. استخدم مخطط الأعمدة لمعرفة الأنواع الموسيقية الأكثر شعبية: +1. استخدم مخطط أعمدة لمعرفة أكثر الأنواع شعبية: ```python import seaborn as sns @@ -219,13 +225,13 @@ plt.title('Top genres',color = 'blue') ``` - ![الأكثر شعبية](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/ar/popular.9c48d84b3386705f.webp) -✅ إذا كنت ترغب في رؤية المزيد من القيم العليا، قم بتغيير `[:5]` إلى قيمة أكبر، أو قم بإزالتها لرؤية الكل. +✅ إذا أردت رؤية مزيد من القيم العليا، قم بتغيير `[:5]` إلى قيمة أكبر، أو قم بإزالتها لرؤية الكل. -لاحظ أنه عندما يتم وصف النوع الموسيقي الأعلى بأنه "Missing"، فهذا يعني أن Spotify لم يصنفه، لذا دعنا نتخلص منه. +لاحظ، عندما يوصف النوع الأعلى بأنه 'مفقود'، فهذا يعني أن سبوتيفاي لم يصنفه، فلنتخلص منه. -1. تخلص من البيانات المفقودة عن طريق تصفيتها: +1. تخلص من البيانات المفقودة عن طريق تصفيتها ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -236,11 +242,11 @@ plt.title('Top genres',color = 'blue') ``` - الآن تحقق مرة أخرى من الأنواع الموسيقية: + أعد التحقق الآن من الأنواع: - ![الأكثر شعبية](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/ar/all-genres.1d56ef06cefbfcd6.webp) -1. بشكل عام، الأنواع الموسيقية الثلاثة الأولى تهيمن على هذا الإطار. دعنا نركز على `afro dancehall`، `afropop`، و `nigerian pop`، بالإضافة إلى تصفية الإطار لإزالة أي قيمة شعبية تساوي 0 (مما يعني أنها لم تصنف بشعبية في الإطار ويمكن اعتبارها ضوضاء لأغراضنا): +1. حتى الآن، تهيمن الأنواع الثلاثة الأولى على مجموعة البيانات هذه. دعونا نركز على `afro dancehall`، `afropop`، و`nigerian pop`، بالإضافة إلى تصفية مجموعة البيانات لإزالة أي شيء بقيمة شعبية 0 (مما يعني أنه لم يُصنف بشعبية في مجموعة البيانات ويمكن اعتباره ضوضاء لأغراضنا): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -252,7 +258,7 @@ plt.title('Top genres',color = 'blue') ``` -1. قم باختبار سريع لمعرفة ما إذا كانت البيانات ترتبط بطريقة قوية بشكل خاص: +1. قم بإجراء اختبار سريع لمعرفة ما إذا كانت البيانات تتوافق بطريقة قوية بشكل خاص: ```python corrmat = df.corr(numeric_only=True) @@ -260,21 +266,21 @@ sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![الارتباطات](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/ar/correlation.a9356bb798f5eea5.webp) - الارتباط القوي الوحيد هو بين `energy` و `loudness`، وهو ليس مفاجئًا جدًا، نظرًا لأن الموسيقى الصاخبة عادة ما تكون مليئة بالطاقة. بخلاف ذلك، الارتباطات ضعيفة نسبيًا. سيكون من المثير للاهتمام معرفة ما يمكن أن تفعله خوارزمية التجميع بهذه البيانات. + الترابط القوي الوحيد هو بين `energy` و`loudness`، وهذا ليس مفاجئًا جدًا، نظرًا لأن الموسيقى الصاخبة عادةً ما تكون نشيطة جدًا. بخلاف ذلك، الترابطات ضعيفة نسبيًا. سيكون من المثير للاهتمام رؤية ما يمكن أن تصنعه خوارزمية التكتل من هذه البيانات. - > 🎓 لاحظ أن الارتباط لا يعني السببية! لدينا دليل على الارتباط ولكن ليس لدينا دليل على السببية. [موقع ويب ممتع](https://tylervigen.com/spurious-correlations) يحتوي على بعض الرسوم التي تؤكد هذه النقطة. + > 🎓 لاحظ أن الترابط لا يعني السببية! لدينا دليل على الترابط ولكن لا دليل على السببية. يوجد [موقع ويب ممتع](https://tylervigen.com/spurious-correlations) يحتوي على بعض الصور التي تؤكد هذه النقطة. -هل هناك أي تقارب في هذه البيانات حول شعبية الأغنية المتصورة وقابليتها للرقص؟ يظهر مخطط FacetGrid أن هناك دوائر متحدة المركز تتماشى، بغض النظر عن النوع الموسيقي. هل يمكن أن تكون الأذواق النيجيرية تتقارب عند مستوى معين من القابلية للرقص لهذا النوع الموسيقي؟ +هل هناك تقارب في هذه المجموعة من البيانات حول الشعبية المتصورة للأغنية وقابليتها للرقص؟ يُظهر FacetGrid وجود دوائر متحدة المركز تصطف، بغض النظر عن النوع. هل يمكن أن تكون الأذواق النيجيرية تتقارب عند مستوى معين من القابلية للرقص لهذا النوع؟ -✅ جرب نقاط بيانات مختلفة (مثل الطاقة، الصخب، الكلامية) والمزيد من الأنواع الموسيقية أو أنواع مختلفة. ماذا يمكنك أن تكتشف؟ ألق نظرة على جدول `df.describe()` لرؤية الانتشار العام لنقاط البيانات. +✅ جرب نقاط بيانات مختلفة (الطاقة، الصوت العالي، الكلامية) وأنواع موسيقية أكثر أو مختلفة. ماذا يمكنك اكتشافه؟ ألق نظرة على جدول `df.describe()` لرؤية الانتشار العام لنقاط البيانات. ### تمرين - توزيع البيانات -هل هذه الأنواع الثلاثة مختلفة بشكل كبير في تصور قابليتها للرقص بناءً على شعبيتها؟ +هل تختلف هذه الأنواع الثلاثة اختلافًا كبيرًا في الإدراك لقابلية الرقص الخاصة بهم، بناءً على شعبيتهم؟ -1. قم بفحص توزيع بيانات الأنواع الثلاثة العليا للشعبية وقابليتها للرقص على محور x و y معين. +1. افحص توزيع بيانات الأنواع الثلاثة الأولى لدينا للشعبية وقابلية الرقص بمحور x و y معين. ```python sns.set_theme(style="ticks") @@ -290,11 +296,11 @@ > 🎓 لاحظ أن هذا المثال يستخدم مخطط KDE (تقدير كثافة النواة) الذي يمثل البيانات باستخدام منحنى كثافة احتمالية مستمر. هذا يسمح لنا بتفسير البيانات عند العمل مع توزيعات متعددة. - بشكل عام، الأنواع الثلاثة تتماشى بشكل فضفاض من حيث شعبيتها وقابليتها للرقص. تحديد التجمعات في هذه البيانات المتراصة سيكون تحديًا: + بشكل عام، تصطف الأنواع الثلاثة بشكل فضفاض من حيث شعبيتها وقابلية رقصها. سيكون تحديد الكتل في هذه البيانات الفضفاضة تحديًا: - ![التوزيع](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/ar/distribution.9be11df42356ca95.webp) -1. قم بإنشاء مخطط مبعثر: +1. أنشئ مخطط تشتت: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -302,31 +308,33 @@ .add_legend() ``` - يظهر مخطط مبعثر لنفس المحاور نمطًا مشابهًا للتقارب. + يُظهر مخطط التشتت لنفس المحاور نمط تقارب مشابه - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/ar/facetgrid.9b2e65ce707eba1f.webp) -بشكل عام، للتجميع، يمكنك استخدام المخططات المبعثرة لإظهار تجمعات البيانات، لذا فإن إتقان هذا النوع من التصور مفيد جدًا. في الدرس التالي، سنأخذ هذه البيانات المصفاة ونستخدم التجميع باستخدام k-means لاكتشاف مجموعات في هذه البيانات التي تبدو متداخلة بطرق مثيرة للاهتمام. +بشكل عام، بالنسبة للتكتل، يمكنك استخدام مخططات التشتت لإظهار مجموعات البيانات، لذا فإن إتقان هذا النوع من التصوير مفيد جدًا. في الدرس القادم، سنأخذ هذه البيانات المفلترة ونستخدم تكتل k-means لاكتشاف مجموعات في هذه البيانات تبدو متداخلة بطرق مثيرة للاهتمام. --- -## 🚀تحدي +## 🚀التحدي -استعدادًا للدرس التالي، قم بإنشاء مخطط حول خوارزميات التجميع المختلفة التي قد تكتشفها وتستخدمها في بيئة الإنتاج. ما هي أنواع المشاكل التي تحاول خوارزميات التجميع معالجتها؟ +كتحضير للدرس القادم، قم بعمل مخطط عن خوارزميات التكتل المختلفة التي قد تكتشفها وتستخدمها في بيئة الإنتاج. ما أنواع المشاكل التي تحاول خوارزميات التكتل معالجتها؟ ## [اختبار ما بعد المحاضرة](https://ff-quizzes.netlify.app/en/ml/) -## المراجعة والدراسة الذاتية +## مراجعة ودراسة ذاتية -قبل تطبيق خوارزميات التجميع، كما تعلمنا، من الجيد فهم طبيعة إطار البيانات الخاص بك. اقرأ المزيد عن هذا الموضوع [هنا](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +قبل تطبيق خوارزميات التكتل، كما تعلمنا، من الجيد فهم طبيعة مجموعة بياناتك. اقرأ المزيد عن هذا الموضوع [هنا](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[هذه المقالة المفيدة](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) تشرح لك الطرق المختلفة التي تتصرف بها خوارزميات التجميع المختلفة، بالنظر إلى أشكال البيانات المختلفة. +[هذه المقالة المفيدة](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) ترشدك خلال الطرق المختلفة التي تتصرف بها خوارزميات التكتل المختلفة، اعتمادًا على أشكال البيانات المختلفة. -## الواجب +## التكليف -[ابحث عن تصورات أخرى للتجميع](assignment.md) +[ابحث عن تصورات أخرى للتكتل](assignment.md) --- -**إخلاء المسؤولية**: -تم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة ناتجة عن استخدام هذه الترجمة. \ No newline at end of file + +**تنويه**: +تمت ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى للدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي والمعتمد. للمعلومات الهامة، يُنصح بالاستعانة بترجمة بشرية محترفة. نحن غير مسؤولين عن أي سوء فهم أو تفسير ناتج عن استخدام هذه الترجمة. + \ No newline at end of file diff --git a/translations/de/.co-op-translator.json b/translations/de/.co-op-translator.json index c21104e40..dd3b6256a 100644 --- a/translations/de/.co-op-translator.json +++ b/translations/de/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-04T22:00:01+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T21:44:05+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "de" }, @@ -240,8 +240,8 @@ "language_code": "de" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-04T21:55:35+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T21:43:37+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "de" }, diff --git a/translations/de/1-Introduction/1-intro-to-ML/README.md b/translations/de/1-Introduction/1-intro-to-ML/README.md index 4602b59ad..a31e7fcd2 100644 --- a/translations/de/1-Introduction/1-intro-to-ML/README.md +++ b/translations/de/1-Introduction/1-intro-to-ML/README.md @@ -1,150 +1,157 @@ -# Einführung in Machine Learning +# Einführung in maschinelles Lernen -## [Quiz vor der Vorlesung](https://ff-quizzes.netlify.app/en/ml/) +## [Pre-Vorlesungsquiz](https://ff-quizzes.netlify.app/en/ml/) --- -[![ML für Anfänger - Einführung in Machine Learning für Anfänger](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML für Anfänger - Einführung in Machine Learning für Anfänger") +[![ML für Anfänger - Einführung in maschinelles Lernen für Anfänger](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML für Anfänger - Einführung in maschinelles Lernen für Anfänger") -> 🎥 Klicken Sie auf das Bild oben, um ein kurzes Video zu dieser Lektion anzusehen. +> 🎥 Klicke auf das Bild oben für ein kurzes Video, das diese Lektion durchgeht. -Willkommen zu diesem Kurs über klassisches Machine Learning für Anfänger! Egal, ob Sie völlig neu in diesem Thema sind oder ein erfahrener ML-Praktiker, der sein Wissen auffrischen möchte – wir freuen uns, dass Sie dabei sind! Wir möchten einen freundlichen Ausgangspunkt für Ihr ML-Studium schaffen und freuen uns über Ihr [Feedback](https://github.com/microsoft/ML-For-Beginners/discussions), das wir gerne bewerten, beantworten und einarbeiten. +Willkommen zu diesem Kurs über klassisches maschinelles Lernen für Anfänger! Egal, ob du völlig neu auf diesem Gebiet bist oder ein erfahrener ML-Praktiker, der sein Wissen in einem Bereich auffrischen möchte – wir freuen uns, dass du dabei bist! Wir möchten einen freundlichen Ausgangspunkt für dein ML-Studium schaffen und sind gerne bereit, dein [Feedback](https://github.com/microsoft/ML-For-Beginners/discussions) zu bewerten, zu beantworten und einzubeziehen. [![Einführung in ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Einführung in ML") -> 🎥 Klicken Sie auf das Bild oben, um ein Video anzusehen: John Guttag vom MIT stellt Machine Learning vor. +> 🎥 Klicke auf das Bild oben für ein Video: John Guttag vom MIT stellt maschinelles Lernen vor --- -## Einstieg in Machine Learning +## Einstieg in maschinelles Lernen -Bevor Sie mit diesem Lehrplan beginnen, sollten Sie Ihren Computer so einrichten, dass Sie Notebooks lokal ausführen können. +Bevor du mit diesem Lehrplan beginnst, musst du deinen Computer einrichten und bereit machen, um Notebooks lokal auszuführen. -- **Richten Sie Ihren Computer mit diesen Videos ein**. Nutzen Sie die folgenden Links, um zu erfahren, [wie Sie Python installieren](https://youtu.be/CXZYvNRIAKM) und [einen Texteditor einrichten](https://youtu.be/EU8eayHWoZg) können. -- **Lernen Sie Python**. Es wird empfohlen, ein grundlegendes Verständnis von [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) zu haben, einer Programmiersprache, die für Datenwissenschaftler nützlich ist und die wir in diesem Kurs verwenden. -- **Lernen Sie Node.js und JavaScript**. Wir verwenden JavaScript in diesem Kurs gelegentlich beim Erstellen von Webanwendungen. Daher sollten Sie [Node](https://nodejs.org) und [npm](https://www.npmjs.com/) installiert haben sowie [Visual Studio Code](https://code.visualstudio.com/) für die Entwicklung mit Python und JavaScript. -- **Erstellen Sie ein GitHub-Konto**. Da Sie uns hier auf [GitHub](https://github.com) gefunden haben, haben Sie möglicherweise bereits ein Konto. Falls nicht, erstellen Sie eines und forken Sie diesen Lehrplan, um ihn selbst zu nutzen. (Geben Sie uns gerne auch einen Stern 😊) -- **Entdecken Sie Scikit-learn**. Machen Sie sich mit [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) vertraut, einer Sammlung von ML-Bibliotheken, die wir in diesen Lektionen verwenden. +- **Konfiguriere deine Maschine mit diesen Videos**. Nutze die folgenden Links, um zu lernen, [wie man Python installiert](https://youtu.be/CXZYvNRIAKM) und einen [Texteditor einrichtet](https://youtu.be/EU8eayHWoZg) für die Entwicklung. +- **Lerne Python**. Es wird außerdem empfohlen, grundlegende Kenntnisse in [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) zu haben, einer Programmiersprache, die für Datenwissenschaftler nützlich ist und die wir in diesem Kurs verwenden. +- **Lerne Node.js und JavaScript**. Wir verwenden JavaScript auch einige Male in diesem Kurs beim Erstellen von Web-Apps, daher benötigst du [node](https://nodejs.org) und [npm](https://www.npmjs.com/) installiert sowie [Visual Studio Code](https://code.visualstudio.com/) für die Python- und JavaScript-Entwicklung. +- **Erstelle ein GitHub-Konto**. Da du uns hier auf [GitHub](https://github.com) gefunden hast, hast du vielleicht schon eins, aber falls nicht, erstelle eins und forke diesen Lehrplan, um ihn selbst zu verwenden. (Gib uns gerne auch einen Stern 😊) +- **Erkunde Scikit-learn**. Mache dich mit [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) vertraut, einem Satz von ML-Bibliotheken, die wir in diesen Lektionen referenzieren. --- -## Was ist Machine Learning? +## Was ist maschinelles Lernen? -Der Begriff 'Machine Learning' gehört zu den beliebtesten und am häufigsten verwendeten Begriffen unserer Zeit. Es ist sehr wahrscheinlich, dass Sie diesen Begriff mindestens einmal gehört haben, wenn Sie irgendeine Art von Berührungspunkten mit Technologie haben, unabhängig von Ihrem Arbeitsbereich. Die Mechanismen des Machine Learning sind jedoch für die meisten Menschen ein Rätsel. Für einen Anfänger kann das Thema manchmal überwältigend wirken. Daher ist es wichtig, zu verstehen, was Machine Learning tatsächlich ist, und es Schritt für Schritt anhand praktischer Beispiele zu erlernen. +Der Begriff „maschinelles Lernen“ ist einer der populärsten und am häufigsten verwendeten Begriffe heute. Es ist sehr wahrscheinlich, dass du diesen Begriff zumindest einmal gehört hast, wenn du irgendeine Vertrautheit mit Technologie hast, unabhängig davon, in welchem Bereich du arbeitest. Die Mechanik des maschinellen Lernens ist jedoch für die meisten Menschen ein Rätsel. Für einen ML-Anfänger kann das Thema manchmal überwältigend wirken. Daher ist es wichtig, zu verstehen, was maschinelles Lernen tatsächlich ist, und es Schritt für Schritt durch praktische Beispiele kennenzulernen. --- -## Der Hype-Zyklus +## Die Hype-Kurve -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/de/hype.07183d711a17aafe.webp) -> Google Trends zeigt den aktuellen 'Hype-Zyklus' des Begriffs 'Machine Learning' +> Google Trends zeigt die aktuelle „Hype-Kurve“ des Begriffs „machine learning“ --- ## Ein geheimnisvolles Universum -Wir leben in einem Universum voller faszinierender Geheimnisse. Große Wissenschaftler wie Stephen Hawking, Albert Einstein und viele andere haben ihr Leben der Suche nach bedeutungsvollen Informationen gewidmet, die die Geheimnisse der Welt um uns herum entschlüsseln. Dies ist die menschliche Bedingung des Lernens: Ein Kind lernt Jahr für Jahr neue Dinge und entdeckt die Struktur seiner Welt, während es erwachsen wird. +Wir leben in einem Universum voller faszinierender Geheimnisse. Große Wissenschaftler wie Stephen Hawking, Albert Einstein und viele weitere haben ihr Leben der Suche nach bedeutungsvollen Informationen gewidmet, die die Geheimnisse der Welt um uns herum enthüllen. Das ist der menschliche Zustand des Lernens: Ein Kind lernt Jahr für Jahr neue Dinge und entdeckt die Struktur seiner Welt, während es zum Erwachsenen heranwächst. --- -## Das Gehirn eines Kindes +## Das Gehirn des Kindes -Das Gehirn eines Kindes und seine Sinne nehmen die Fakten seiner Umgebung wahr und lernen nach und nach die verborgenen Muster des Lebens, die dem Kind helfen, logische Regeln zu entwickeln, um diese Muster zu erkennen. Der Lernprozess des menschlichen Gehirns macht den Menschen zum komplexesten Lebewesen dieser Welt. Indem wir kontinuierlich lernen, verborgene Muster entdecken und auf diesen Mustern aufbauen, können wir uns im Laufe unseres Lebens immer weiter verbessern. Diese Lernfähigkeit und Weiterentwicklungsmöglichkeit steht im Zusammenhang mit einem Konzept namens [Gehirnplastizität](https://www.simplypsychology.org/brain-plasticity.html). Oberflächlich betrachtet können wir einige motivierende Ähnlichkeiten zwischen dem Lernprozess des menschlichen Gehirns und den Konzepten des Machine Learning ziehen. +Das Gehirn und die Sinne eines Kindes nehmen die Fakten seiner Umgebung wahr und lernen allmählich die verborgenen Muster des Lebens, die dem Kind helfen, logische Regeln zu erstellen, um gelernte Muster zu erkennen. Der Lernprozess des menschlichen Gehirns macht den Menschen zum anspruchsvollsten Lebewesen auf dieser Welt. Indem wir kontinuierlich lernen, versteckte Muster entdecken und diese dann innovativ weiterentwickeln, können wir uns im Laufe unseres Lebens immer weiter verbessern. Diese Lernfähigkeit und sich entwickelnde Kapazität steht im Zusammenhang mit einem Konzept namens [Gehirnplastizität](https://www.simplypsychology.org/brain-plasticity.html). Oberflächlich betrachtet kann man einige motivierende Ähnlichkeiten zwischen dem Lernprozess des menschlichen Gehirns und den Konzepten des maschinellen Lernens ziehen. --- ## Das menschliche Gehirn -Das [menschliche Gehirn](https://www.livescience.com/29365-human-brain.html) nimmt Dinge aus der realen Welt wahr, verarbeitet die wahrgenommenen Informationen, trifft rationale Entscheidungen und führt bestimmte Handlungen basierend auf den Umständen aus. Dies nennen wir intelligentes Verhalten. Wenn wir einen Nachbau dieses intelligenten Verhaltensprozesses in eine Maschine programmieren, nennen wir das künstliche Intelligenz (KI). +Das [menschliche Gehirn](https://www.livescience.com/29365-human-brain.html) nimmt Dinge aus der realen Welt wahr, verarbeitet die wahrgenommenen Informationen, trifft rationale Entscheidungen und führt je nach Situation bestimmte Handlungen aus. Dies nennen wir intelligentes Verhalten. Wenn wir einen Nachbau dieses intelligenten Verhaltensprozesses in eine Maschine programmieren, nennt man das künstliche Intelligenz (KI). --- -## Einige Begriffe +## Einige Begriffserklärungen -Obwohl die Begriffe oft verwechselt werden, ist Machine Learning (ML) ein wichtiger Teilbereich der künstlichen Intelligenz. **ML beschäftigt sich mit der Verwendung spezialisierter Algorithmen, um bedeutungsvolle Informationen zu entdecken und verborgene Muster aus wahrgenommenen Daten zu finden, um den rationalen Entscheidungsprozess zu unterstützen**. +Obwohl die Begriffe verwechselt werden können, ist maschinelles Lernen (ML) ein wichtiger Teilbereich der künstlichen Intelligenz. **ML beschäftigt sich damit, spezialisierte Algorithmen zu verwenden, um bedeutungsvolle Informationen zu entdecken und verborgene Muster aus wahrgenommenen Daten zu finden, um den rationalen Entscheidungsprozess zu unterstützen**. --- ## KI, ML, Deep Learning -![KI, ML, Deep Learning, Data Science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/de/ai-ml-ds.537ea441b124ebf6.webp) -> Ein Diagramm, das die Beziehungen zwischen KI, ML, Deep Learning und Data Science zeigt. Infografik von [Jen Looper](https://twitter.com/jenlooper), inspiriert von [dieser Grafik](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Ein Diagramm, das die Beziehungen zwischen KI, ML, Deep Learning und Data Science zeigt. Infografik von [Jen Looper](https://twitter.com/jenlooper) inspiriert von [dieser Grafik](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- ## Zu behandelnde Konzepte -In diesem Lehrplan behandeln wir nur die grundlegenden Konzepte des Machine Learning, die ein Anfänger kennen muss. Wir konzentrieren uns auf das sogenannte 'klassische Machine Learning', hauptsächlich unter Verwendung von Scikit-learn, einer hervorragenden Bibliothek, die viele Studenten nutzen, um die Grundlagen zu erlernen. Um breitere Konzepte der künstlichen Intelligenz oder des Deep Learning zu verstehen, ist ein solides Grundwissen im Machine Learning unverzichtbar, und genau das möchten wir hier vermitteln. +In diesem Lehrplan behandeln wir nur die Kernkonzepte des maschinellen Lernens, die ein Anfänger kennen muss. Wir decken das an, was wir als „klassisches maschinelles Lernen“ bezeichnen, hauptsächlich mit Scikit-learn, einer ausgezeichneten Bibliothek, die viele Studenten verwenden, um die Grundlagen zu lernen. Um breitere Konzepte der künstlichen Intelligenz oder des Deep Learnings zu verstehen, ist ein starkes Grundwissen im maschinellen Lernen unverzichtbar, und daher möchten wir es hier anbieten. --- -## In diesem Kurs lernen Sie: +## In diesem Kurs lernst du: -- grundlegende Konzepte des Machine Learning -- die Geschichte des ML +- Kernkonzepte des maschinellen Lernens +- Die Geschichte des ML - ML und Fairness -- Regressionstechniken im ML -- Klassifikationstechniken im ML -- Clustering-Techniken im ML -- Techniken zur Verarbeitung natürlicher Sprache im ML -- Zeitreihenprognosen im ML -- Reinforcement Learning -- reale Anwendungen für ML +- Regressions-ML-Techniken +- Klassifikations-ML-Techniken +- Clustering-ML-Techniken +- Natürliche Sprachverarbeitung-ML-Techniken +- Zeitreihen-Prognose-ML-Techniken +- Verstärkendes Lernen +- Anwendungen von ML in der Praxis --- ## Was wir nicht behandeln - Deep Learning -- Neuronale Netze +- Neuronale Netzwerke - KI -Um das Lernen zu erleichtern, vermeiden wir die Komplexität neuronaler Netze, des 'Deep Learning' – des Modellbaus mit vielen Schichten unter Verwendung neuronaler Netze – und der KI, die wir in einem anderen Lehrplan behandeln werden. Wir werden auch einen bevorstehenden Lehrplan zur Datenwissenschaft anbieten, um diesen Aspekt dieses größeren Feldes zu vertiefen. +Um ein besseres Lernerlebnis zu ermöglichen, vermeiden wir die Komplexität von neuronalen Netzwerken, „Deep Learning“ – vielschichtige Modellbildung mittels neuronalen Netzwerken – und KI, die wir in einem anderen Lehrplan besprechen werden. Wir werden außerdem einen zukünftigen Lehrplan zu Data Science anbieten, der sich auf diesen Aspekt dieses größeren Fachgebiets konzentriert. --- -## Warum Machine Learning studieren? +## Warum maschinelles Lernen studieren? -Machine Learning wird aus einer Systemperspektive als die Erstellung automatisierter Systeme definiert, die verborgene Muster aus Daten lernen können, um intelligente Entscheidungen zu unterstützen. +Maschinelles Lernen wird aus Systemsicht als die Erstellung automatisierter Systeme definiert, die verborgene Muster aus Daten lernen können, um intelligente Entscheidungen zu unterstützen. -Diese Motivation ist lose inspiriert von der Art und Weise, wie das menschliche Gehirn bestimmte Dinge basierend auf den Daten lernt, die es aus der Außenwelt wahrnimmt. +Diese Motivation ist lose inspiriert davon, wie das menschliche Gehirn bestimmte Dinge basierend auf Daten lernt, die es aus der Außenwelt wahrnimmt. -✅ Überlegen Sie einen Moment, warum ein Unternehmen Machine Learning-Strategien einsetzen möchte, anstatt eine fest codierte regelbasierte Engine zu erstellen. +✅ Überlege einen Moment, warum ein Unternehmen versuchen würde, maschinelle Lernstrategien zu verwenden, anstatt eine regelbasierte Hard-Coded-Engine zu erstellen. --- -## Anwendungen von Machine Learning +## Warum Datenqualität wichtig ist -Anwendungen von Machine Learning sind mittlerweile fast überall und so allgegenwärtig wie die Daten, die in unseren Gesellschaften durch Smartphones, vernetzte Geräte und andere Systeme generiert werden. Angesichts des enormen Potenzials moderner Machine Learning-Algorithmen erforschen Forscher ihre Fähigkeit, multidimensionale und multidisziplinäre reale Probleme mit großartigen positiven Ergebnissen zu lösen. +Hochwertige Daten verbessern die Modellleistung. Schlechte oder verrauschte Daten können zu ungenauen Vorhersagen führen, selbst bei der Verwendung fortschrittlicher maschineller Lernalgorithmen. --- -## Beispiele für angewandtes ML +## Anwendungen des maschinellen Lernens -**Machine Learning kann auf viele Arten genutzt werden**: +Anwendungen des maschinellen Lernens sind inzwischen fast überall zu finden und ebenso allgegenwärtig wie die Daten, die unsere Gesellschaften durchströmen, erzeugt von unseren Smartphones, vernetzten Geräten und anderen Systemen. Angesichts des enormen Potenzials moderner maschineller Lernalgorithmen erforschen Forscher deren Fähigkeit, multidimensionale und multidisziplinäre reale Probleme mit großartigen positiven Ergebnissen zu lösen. -- Um die Wahrscheinlichkeit einer Krankheit anhand der Krankengeschichte oder Berichte eines Patienten vorherzusagen. +--- +## Beispiele angewandten ML + +**Maschinelles Lernen kann auf viele Arten genutzt werden**: + +- Um die Wahrscheinlichkeit einer Krankheit aus der medizinischen Vorgeschichte oder Berichten eines Patienten vorherzusagen. - Um Wetterdaten zu nutzen, um Wetterereignisse vorherzusagen. -- Um die Stimmung eines Textes zu verstehen. -- Um Fake News zu erkennen und die Verbreitung von Propaganda zu stoppen. +- Um die Stimmung eines Texts zu verstehen. +- Um Fake-News zu erkennen, um die Verbreitung von Propaganda zu stoppen. -Finanzen, Wirtschaft, Erdwissenschaften, Weltraumforschung, biomedizinische Technik, Kognitionswissenschaften und sogar Geisteswissenschaften haben Machine Learning adaptiert, um die mühsamen, datenintensiven Probleme ihrer Domänen zu lösen. +Finanzen, Wirtschaft, Geowissenschaften, Raumfahrt, Biomedizintechnik, Kognitionswissenschaft und sogar Fachgebiete der Geisteswissenschaften haben maschinelles Lernen adaptiert, um die schwierigen, datenverarbeitungsintensiven Probleme ihres Bereichs zu lösen. --- ## Fazit -Machine Learning automatisiert den Prozess der Mustererkennung, indem es bedeutungsvolle Einblicke aus realen oder generierten Daten gewinnt. Es hat sich in Bereichen wie Wirtschaft, Gesundheit und Finanzen als äußerst wertvoll erwiesen. +Maschinelles Lernen automatisiert den Prozess der Mustererkennung, indem es bedeutungsvolle Erkenntnisse aus realen oder generierten Daten findet. Es hat sich im Geschäfts-, Gesundheits- und Finanzwesen als äußerst wertvoll erwiesen, unter anderem. -In naher Zukunft wird das Verständnis der Grundlagen des Machine Learning für Menschen aus allen Bereichen aufgrund seiner weit verbreiteten Anwendung unverzichtbar sein. +In naher Zukunft wird das Verstehen der Grundlagen des maschinellen Lernens für Menschen aus allen Bereichen ein Muss sein, wegen seiner weit verbreiteten Anwendung. --- # 🚀 Herausforderung -Skizzieren Sie auf Papier oder mit einer Online-App wie [Excalidraw](https://excalidraw.com/) Ihr Verständnis der Unterschiede zwischen KI, ML, Deep Learning und Data Science. Fügen Sie einige Ideen hinzu, welche Probleme mit diesen Techniken gut gelöst werden können. +Skizziere auf Papier oder mit einer Online-App wie [Excalidraw](https://excalidraw.com/) dein Verständnis der Unterschiede zwischen KI, ML, Deep Learning und Data Science. Füge einige Ideen über Probleme hinzu, die jede dieser Techniken gut lösen kann. -# [Quiz nach der Vorlesung](https://ff-quizzes.netlify.app/en/ml/) +# [Post-Vorlesungsquiz](https://ff-quizzes.netlify.app/en/ml/) --- -# Überprüfung & Selbststudium +# Rückblick & Selbststudium -Um mehr darüber zu erfahren, wie Sie mit ML-Algorithmen in der Cloud arbeiten können, folgen Sie diesem [Lernpfad](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Um mehr darüber zu lernen, wie du mit ML-Algorithmen in der Cloud arbeiten kannst, folge diesem [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Machen Sie einen [Lernpfad](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) über die Grundlagen des ML. +Mache einen [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) zu den Grundlagen des ML. --- # Aufgabe -[Starten Sie durch](assignment.md) +[Starte und loslegen](assignment.md) --- -**Haftungsausschluss**: -Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, weisen wir darauf hin, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben. \ No newline at end of file + +**Haftungsausschluss**: +Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner Ursprungssprache gilt als maßgebliche Quelle. Bei kritischen Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die aus der Verwendung dieser Übersetzung entstehen. + \ No newline at end of file diff --git a/translations/de/5-Clustering/1-Visualize/README.md b/translations/de/5-Clustering/1-Visualize/README.md index ae784ec01..2d72da085 100644 --- a/translations/de/5-Clustering/1-Visualize/README.md +++ b/translations/de/5-Clustering/1-Visualize/README.md @@ -1,116 +1,115 @@ # Einführung in Clustering -Clustering ist eine Art des [Unüberwachten Lernens](https://wikipedia.org/wiki/Unsupervised_learning), das davon ausgeht, dass ein Datensatz nicht beschriftet ist oder dass seine Eingaben nicht mit vordefinierten Ausgaben verknüpft sind. Es verwendet verschiedene Algorithmen, um unbeschriftete Daten zu sortieren und Gruppierungen basierend auf Mustern zu erstellen, die es in den Daten erkennt. +Clustering ist eine Art des [Unüberwachten Lernens](https://wikipedia.org/wiki/Unsupervised_learning), die davon ausgeht, dass ein Datensatz unbeschriftet ist oder seine Eingaben nicht mit vordefinierten Ausgaben abgeglichen werden. Es verwendet verschiedene Algorithmen, um unbeschriftete Daten zu sortieren und Gruppen gemäß den Mustern bereitzustellen, die es in den Daten erkennt. -[![No One Like You von PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You von PSquare") +[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Klicken Sie auf das Bild oben für ein Video. Während Sie maschinelles Lernen mit Clustering studieren, genießen Sie einige nigerianische Dancehall-Tracks – dies ist ein hoch bewertetes Lied von 2014 von PSquare. +> 🎥 Klicke auf das obige Bild für ein Video. Während du dich mit maschinellem Lernen und Clustering beschäftigst, genieße einige Nigerian Dance Hall Tracks – dies ist ein hoch bewertetes Lied von 2014 von PSquare. -## [Quiz vor der Vorlesung](https://ff-quizzes.netlify.app/en/ml/) +## [Vorlesungsquiz](https://ff-quizzes.netlify.app/en/ml/) ### Einführung -[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ist sehr nützlich für die Datenexploration. Schauen wir, ob es helfen kann, Trends und Muster in der Art und Weise zu entdecken, wie nigerianische Zuhörer Musik konsumieren. +[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ist sehr nützlich zur Datenexploration. Schauen wir, ob es helfen kann, Trends und Muster in der Art und Weise zu entdecken, wie nigerianische Zuhörer Musik konsumieren. -✅ Nehmen Sie sich eine Minute Zeit, um über die Einsatzmöglichkeiten von Clustering nachzudenken. Im Alltag passiert Clustering immer dann, wenn Sie einen Wäschehaufen haben und die Kleidung Ihrer Familienmitglieder sortieren müssen 🧦👕👖🩲. In der Datenwissenschaft passiert Clustering, wenn versucht wird, die Vorlieben eines Nutzers zu analysieren oder die Merkmale eines unbeschrifteten Datensatzes zu bestimmen. Clustering hilft gewissermaßen, Chaos zu ordnen, wie eine Sockenschublade. +✅ Nimm dir eine Minute Zeit, um über die Verwendungsmöglichkeiten von Clustering nachzudenken. Im wirklichen Leben findet Clustering statt, wenn du einen Wäscheberg hast und die Kleidung deiner Familienmitglieder sortieren musst 🧦👕👖🩲. In der Datenwissenschaft findet Clustering statt, wenn versucht wird, die Vorlieben eines Nutzers zu analysieren oder die Eigenschaften eines unbeschrifteten Datensatzes zu bestimmen. Clustering hilft gewissermaßen dabei, Chaos zu verstehen, wie eine Sockenschublade. -[![Einführung in ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Einführung in Clustering") +[![Einführung in ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Einführung ins Clustering") -> 🎥 Klicken Sie auf das Bild oben für ein Video: John Guttag von MIT führt in Clustering ein. +> 🎥 Klicke auf das obige Bild für ein Video: John Guttag vom MIT stellt Clustering vor. -In einem professionellen Umfeld kann Clustering verwendet werden, um Dinge wie Marktsegmentierung zu bestimmen, beispielsweise welche Altersgruppen welche Artikel kaufen. Eine weitere Anwendung wäre die Anomalieerkennung, möglicherweise zur Betrugserkennung in einem Datensatz von Kreditkartentransaktionen. Oder Sie könnten Clustering verwenden, um Tumore in einer Reihe von medizinischen Scans zu identifizieren. +In einem professionellen Umfeld kann Clustering verwendet werden, um Dinge wie Marktsegmentierung zu bestimmen, zum Beispiel welche Altersgruppen welche Artikel kaufen. Eine weitere Anwendung wäre die Anomalieerkennung, z.B. um Betrug anhand eines Datensatzes von Kreditkartentransaktionen zu erkennen. Oder du könntest Clustering verwenden, um Tumore in einer Reihe medizinischer Scans zu bestimmen. -✅ Denken Sie eine Minute darüber nach, wie Sie Clustering „in freier Wildbahn“ erlebt haben, sei es im Bankwesen, E-Commerce oder Geschäftsumfeld. +✅ Überlege eine Minute, wie du Clusterings „in freier Wildbahn“ in einem Bank-, E-Commerce- oder Geschäftsumfeld begegnet bist. -> 🎓 Interessanterweise stammt die Clusteranalyse aus den Bereichen Anthropologie und Psychologie der 1930er Jahre. Können Sie sich vorstellen, wie sie damals verwendet wurde? +> 🎓 Interessanterweise stammt die Clusteranalyse aus den Bereichen Anthropologie und Psychologie in den 1930ern. Kannst du dir vorstellen, wie sie damals verwendet worden sein könnte? -Alternativ könnten Sie es für die Gruppierung von Suchergebnissen verwenden – beispielsweise nach Einkaufslinks, Bildern oder Bewertungen. Clustering ist nützlich, wenn Sie einen großen Datensatz haben, den Sie reduzieren möchten, und auf dem Sie eine detailliertere Analyse durchführen möchten. Die Technik kann verwendet werden, um Daten zu verstehen, bevor andere Modelle erstellt werden. +Alternativ kannst du es zur Gruppierung von Suchergebnissen verwenden – zum Beispiel nach Einkaufslinks, Bildern oder Rezensionen. Clustering ist nützlich, wenn du einen großen Datensatz hast, den du reduzieren und auf dem du eine detailliertere Analyse durchführen möchtest. So kann die Technik verwendet werden, um Daten kennenzulernen, bevor andere Modelle erstellt werden. -✅ Sobald Ihre Daten in Clustern organisiert sind, weisen Sie ihnen eine Cluster-ID zu. Diese Technik kann nützlich sein, um die Privatsphäre eines Datensatzes zu wahren; Sie können stattdessen auf einen Datenpunkt anhand seiner Cluster-ID verweisen, anstatt auf offenere identifizierbare Daten. Können Sie sich andere Gründe vorstellen, warum Sie eine Cluster-ID anstelle anderer Elemente des Clusters verwenden würden, um ihn zu identifizieren? - -Vertiefen Sie Ihr Verständnis von Clustering-Techniken in diesem [Learn-Modul](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +✅ Sobald deine Daten in Clustern organisiert sind, weist du ihnen eine Cluster-ID zu, und diese Technik kann nützlich sein, um die Privatsphäre eines Datensatzes zu wahren; du kannst stattdessen auf einen Datenpunkt durch seine Cluster-ID verweisen, anstatt durch offenlegende identifizierende Daten. Fallen dir weitere Gründe ein, warum du zur Identifikation eines Clusters lieber die Cluster-ID statt anderer Cluster-Elemente verwenden würdest? +Vertiefe dein Verständnis von Clustering-Techniken in diesem [Learn-Modul](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ## Einstieg in Clustering -[Scikit-learn bietet eine große Auswahl](https://scikit-learn.org/stable/modules/clustering.html) an Methoden zur Durchführung von Clustering. Die Wahl der Methode hängt von Ihrem Anwendungsfall ab. Laut Dokumentation hat jede Methode verschiedene Vorteile. Hier ist eine vereinfachte Tabelle der von Scikit-learn unterstützten Methoden und ihrer geeigneten Anwendungsfälle: +[Scikit-learn bietet eine große Auswahl](https://scikit-learn.org/stable/modules/clustering.html) an Methoden zur Durchführung von Clustering. Die Wahl hängt von deinem Anwendungsfall ab. Laut Dokumentation hat jede Methode verschiedene Vorteile. Hier ist eine vereinfachte Tabelle der von Scikit-learn unterstützten Methoden und ihrer geeigneten Anwendungsfälle: -| Methodenname | Anwendungsfall | -| :--------------------------- | :-------------------------------------------------------------------- | -| K-Means | allgemeiner Zweck, induktiv | -| Affinity Propagation | viele, ungleichmäßige Cluster, induktiv | +| Methodenname | Anwendungsfall | +| :--------------------------- | :------------------------------------------------------------------ | +| K-Means | Allgemeiner Zweck, induktiv | +| Affinity propagation | viele, ungleichmäßige Cluster, induktiv | | Mean-shift | viele, ungleichmäßige Cluster, induktiv | -| Spectral Clustering | wenige, gleichmäßige Cluster, transduktiv | -| Ward Hierarchical Clustering | viele, eingeschränkte Cluster, transduktiv | -| Agglomerative Clustering | viele, eingeschränkte, nicht-euklidische Distanzen, transduktiv | -| DBSCAN | nicht-flache Geometrie, ungleichmäßige Cluster, transduktiv | +| Spectral clustering | wenige, gleichmäßige Cluster, transduktiv | +| Ward hierarchisches Clustering | viele, eingeschränkte Cluster, transduktiv | +| Agglomeratives Clustering | viele, eingeschränkt, nicht-euklidische Distanzen, transduktiv | +| DBSCAN | nicht-flache Geometrie, ungleichmäßige Cluster, transduktiv | | OPTICS | nicht-flache Geometrie, ungleichmäßige Cluster mit variabler Dichte, transduktiv | -| Gaussian Mixtures | flache Geometrie, induktiv | -| BIRCH | großer Datensatz mit Ausreißern, induktiv | +| Gaussian mixtures | flache Geometrie, induktiv | +| BIRCH | großer Datensatz mit Ausreißern, induktiv | -> 🎓 Wie wir Cluster erstellen, hängt stark davon ab, wie wir die Datenpunkte zu Gruppen zusammenfassen. Lassen Sie uns einige Begriffe klären: +> 🎓 Wie wir Cluster erstellen, hat viel damit zu tun, wie wir die Datenpunkte in Gruppen zusammenfassen. Lass uns etwas Vokabular aufschlüsseln: > -> 🎓 ['Transduktiv' vs. 'Induktiv'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['Transduktiv' vs. 'induktiv'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Transduktive Inferenz wird aus beobachteten Trainingsfällen abgeleitet, die auf spezifische Testfälle abgebildet werden. Induktive Inferenz wird aus Trainingsfällen abgeleitet, die allgemeine Regeln ableiten, die dann auf Testfälle angewendet werden. +> Transduktive Inferenz wird von beobachteten Trainingsfällen abgeleitet, die spezifische Testfälle abbilden. Induktive Inferenz wird von Trainingsfällen abgeleitet, die allgemeine Regeln bilden, die dann erst auf Testfälle angewendet werden. > -> Ein Beispiel: Stellen Sie sich vor, Sie haben einen Datensatz, der nur teilweise beschriftet ist. Einige Dinge sind „Schallplatten“, einige „CDs“ und einige sind leer. Ihre Aufgabe ist es, die leeren Felder zu beschriften. Wenn Sie einen induktiven Ansatz wählen, würden Sie ein Modell trainieren, das nach „Schallplatten“ und „CDs“ sucht, und diese Labels auf Ihre unbeschrifteten Daten anwenden. Dieser Ansatz hätte Schwierigkeiten, Dinge zu klassifizieren, die tatsächlich „Kassetten“ sind. Ein transduktiver Ansatz hingegen geht mit diesen unbekannten Daten effektiver um, da er ähnliche Elemente gruppiert und dann einer Gruppe ein Label zuweist. In diesem Fall könnten Cluster „runde Musiksachen“ und „quadratische Musiksachen“ widerspiegeln. +> Ein Beispiel: Stell dir vor, du hast einen Datensatz, der nur teilweise beschriftet ist. Manche Dinge sind „Schallplatten“, manche „CDs“ und manche sind leer. Deine Aufgabe ist es, die leeren Elemente zu beschriften. Wenn du einen induktiven Ansatz wählst, trainierst du ein Modell, das nach „Schallplatten“ und „CDs“ sucht, und wendest diese Beschriftungen auf deine unbeschrifteten Daten an. Dieser Ansatz wird Schwierigkeiten haben, Dinge zu klassifizieren, die tatsächlich „Kassetten“ sind. Ein transduktiver Ansatz hingegen behandelt unbekannte Daten effektiver, weil er ähnliche Elemente zusammenführt und dann einer Gruppe eine Bezeichnung zuweist. In diesem Fall könnten Cluster „runde Musiksachen“ und „quadratische Musiksachen“ reflektieren. > > 🎓 ['Nicht-flache' vs. 'flache' Geometrie](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Abgeleitet aus mathematischer Terminologie, bezieht sich nicht-flache vs. flache Geometrie auf die Messung von Distanzen zwischen Punkten entweder durch „flache“ ([Euklidische](https://wikipedia.org/wiki/Euclidean_geometry)) oder „nicht-flache“ (nicht-euklidische) geometrische Methoden. +> Abgeleitet aus der mathematischen Terminologie bezieht sich „nicht-flache“ vs. „flache“ Geometrie auf die Maßnahme der Abstände zwischen Punkten durch entweder „flache“ ([euklidische](https://wikipedia.org/wiki/Euclidean_geometry)) oder „nicht-flache“ (nicht-euklidische) geometrische Methoden. > ->'Flach' in diesem Kontext bezieht sich auf euklidische Geometrie (Teile davon werden als 'Ebene' Geometrie gelehrt), und nicht-flach bezieht sich auf nicht-euklidische Geometrie. Was hat Geometrie mit maschinellem Lernen zu tun? Nun, als zwei Felder, die in der Mathematik verwurzelt sind, muss es eine gemeinsame Methode geben, um Distanzen zwischen Punkten in Clustern zu messen, und das kann auf eine 'flache' oder 'nicht-flache' Weise erfolgen, abhängig von der Natur der Daten. [Euklidische Distanzen](https://wikipedia.org/wiki/Euclidean_distance) werden als die Länge eines Liniensegments zwischen zwei Punkten gemessen. [Nicht-euklidische Distanzen](https://wikipedia.org/wiki/Non-Euclidean_geometry) werden entlang einer Kurve gemessen. Wenn Ihre Daten, visualisiert, nicht auf einer Ebene zu existieren scheinen, könnten Sie einen spezialisierten Algorithmus benötigen, um sie zu verarbeiten. +> „Flach“ bezieht sich in diesem Kontext auf die euklidische Geometrie (Teile davon werden als „ebene“ Geometrie gelehrt) und „nicht-flach“ auf nicht-euklidische Geometrie. Was hat Geometrie mit maschinellem Lernen zu tun? Nun, da beide Bereiche in der Mathematik verankert sind, muss es eine gemeinsame Möglichkeit geben, Abstände zwischen Punkten in Clustern zu messen, und dies kann „flach“ oder „nicht-flach“ erfolgen, abhängig von der Natur der Daten. [Euklidische Abstände](https://wikipedia.org/wiki/Euclidean_distance) werden als Länge eines Liniensegments zwischen zwei Punkten gemessen. [Nicht-euklidische Abstände](https://wikipedia.org/wiki/Non-Euclidean_geometry) werden entlang einer Kurve gemessen. Wenn deine Daten visualisiert zu sein scheinen, als existierten sie nicht auf einer Ebene, brauchst du möglicherweise einen spezialisierten Algorithmus, um sie zu handhaben. > -![Flache vs. Nicht-flache Geometrie Infografik](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) +![Flache vs. nicht-flache Geometrie Infografik](../../../../translated_images/de/flat-nonflat.d1c8c6e2a96110c1.webp) > Infografik von [Dasani Madipalli](https://twitter.com/dasani_decoded) > -> 🎓 ['Distanzen'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) +> 🎓 ['Abstände'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Cluster werden durch ihre Distanzmatrix definiert, z. B. die Distanzen zwischen Punkten. Diese Distanz kann auf verschiedene Weise gemessen werden. Euklidische Cluster werden durch den Durchschnitt der Punktwerte definiert und enthalten einen 'Zentroid' oder Mittelpunkt. Distanzen werden somit durch die Entfernung zu diesem Zentroid gemessen. Nicht-euklidische Distanzen beziehen sich auf 'Clustroids', den Punkt, der anderen Punkten am nächsten ist. Clustroids können wiederum auf verschiedene Arten definiert werden. +> Cluster werden durch ihre Distanzmatrix definiert, z.B. die Abstände zwischen Punkten. Dieser Abstand kann auf verschiedene Weise gemessen werden. Euklidische Cluster werden durch den Durchschnitt der Punktwerte definiert und enthalten einen „Zentrumspunkt“ oder Zentroid. Entsprechend werden Abstände durch die Distanz zu diesem Zentroid gemessen. Nicht-euklidische Abstände beziehen sich auf „Clustroide“, den Punkt, der anderen Punkten am nächsten ist. Clustroide können wiederum auf verschiedene Weise definiert werden. > > 🎓 ['Eingeschränkt'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Eingeschränktes Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) führt 'semi-überwachtes' Lernen in diese unüberwachte Methode ein. Die Beziehungen zwischen Punkten werden als 'kann nicht verknüpfen' oder 'muss verknüpfen' markiert, sodass einige Regeln auf den Datensatz angewendet werden. +> [Constrained Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) führt „semi-supervised“ Lernen in diese unüberwachte Methode ein. Die Beziehungen zwischen Punkten werden als „darf nicht verbunden“ oder „muss verbunden sein“ markiert, sodass einige Regeln für den Datensatz erzwungen werden. > ->Ein Beispiel: Wenn ein Algorithmus auf einen Stapel unbeschrifteter oder halb-beschrifteter Daten losgelassen wird, könnten die von ihm erzeugten Cluster von schlechter Qualität sein. Im obigen Beispiel könnten die Cluster „runde Musiksachen“, „quadratische Musiksachen“, „dreieckige Sachen“ und „Kekse“ gruppieren. Wenn einige Einschränkungen oder Regeln hinzugefügt werden ("das Objekt muss aus Plastik sein", "das Objekt muss Musik produzieren können"), kann dies helfen, den Algorithmus zu besseren Entscheidungen zu führen. +>Ein Beispiel: Wenn ein Algorithmus auf eine Menge unbeschrifteter oder halb-beschrifteter Daten losgelassen wird, können die erzeugten Cluster von minderer Qualität sein. Im obigen Beispiel könnten die Cluster „runde Musiksachen“ und „quadratische Musiksachen“ und „dreieckige Dinge“ und „Kekse“ gruppieren. Werden einige Einschränkungen oder Regeln („der Artikel muss aus Plastik sein“, „der Artikel muss in der Lage sein, Musik zu produzieren“) vorgegeben, kann dies helfen, den Algorithmus zu zwingen, bessere Entscheidungen zu treffen. > > 🎓 'Dichte' > -> Daten, die „rauschend“ sind, gelten als „dicht“. Die Distanzen zwischen Punkten in jedem seiner Cluster können sich bei der Untersuchung als mehr oder weniger dicht oder „gedrängt“ erweisen, und daher müssen diese Daten mit der geeigneten Clustering-Methode analysiert werden. [Dieser Artikel](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) zeigt den Unterschied zwischen der Verwendung von K-Means Clustering und HDBSCAN-Algorithmen zur Untersuchung eines rauschenden Datensatzes mit ungleichmäßiger Cluster-Dichte. +> Daten, die „rauschbehaftet“ sind, gelten als „dicht“. Die Abstände zwischen Punkten in jedem ihrer Cluster können bei genauer Betrachtung mehr oder weniger dicht oder „überfüllt“ sein, weshalb diese Daten mit der geeigneten Clustering-Methode analysiert werden müssen. [Dieser Artikel](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) zeigt den Unterschied zwischen K-Means Clustering und HDBSCAN Algorithmen bei der Untersuchung eines verrauschten Datensatzes mit ungleichmäßiger Clusterdichte. ## Clustering-Algorithmen -Es gibt über 100 Clustering-Algorithmen, und ihre Verwendung hängt von der Natur der vorliegenden Daten ab. Lassen Sie uns einige der wichtigsten besprechen: +Es gibt über 100 Clustering-Algorithmen, und ihr Einsatz hängt von der Natur der vorliegenden Daten ab. Lass uns einige der wichtigsten besprechen: -- **Hierarchisches Clustering**. Wenn ein Objekt basierend auf seiner Nähe zu einem nahegelegenen Objekt klassifiziert wird, anstatt zu einem weiter entfernten, werden Cluster basierend auf den Distanzen ihrer Mitglieder zu und von anderen Objekten gebildet. Scikit-learns agglomeratives Clustering ist hierarchisch. +- **Hierarchisches Clustering**. Wenn ein Objekt nach seiner Nähe zu einem benachbarten Objekt klassifiziert wird, statt zu einem weiter entfernten, werden Cluster auf Basis der Entfernung ihrer Mitglieder zu und von anderen Objekten gebildet. Das Agglomerative Clustering von Scikit-learn ist hierarchisch. - ![Hierarchisches Clustering Infografik](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Hierarchisches Clustering Infografik](../../../../translated_images/de/hierarchical.bf59403aa43c8c47.webp) > Infografik von [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Zentroid-basiertes Clustering**. Dieser beliebte Algorithmus erfordert die Wahl von 'k', oder der Anzahl der zu bildenden Cluster, wonach der Algorithmus den Mittelpunkt eines Clusters bestimmt und Daten um diesen Punkt sammelt. [K-Means Clustering](https://wikipedia.org/wiki/K-means_clustering) ist eine beliebte Version des zentroid-basierten Clustering. Der Mittelpunkt wird durch den nächstgelegenen Mittelwert bestimmt, daher der Name. Die quadratische Entfernung vom Cluster wird minimiert. +- **Zentroid-basiertes Clustering**. Dieser populäre Algorithmus erfordert die Wahl von „k“, also der Anzahl der zu bildenden Cluster, wonach der Algorithmus den Mittelpunkt eines Clusters bestimmt und Daten um diesen Punkt gruppiert. [K-means Clustering](https://wikipedia.org/wiki/K-means_clustering) ist eine beliebte Version des zentroid-basierten Clustering. Der Mittelpunkt wird durch den nächstgelegenen Mittelwert bestimmt, daher der Name. Die quadratische Distanz vom Cluster wird minimiert. - ![Zentroid-basiertes Clustering Infografik](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Zentroid-basiertes Clustering Infografik](../../../../translated_images/de/centroid.097fde836cf6c918.webp) > Infografik von [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Verteilungsbasiertes Clustering**. Basierend auf statistischer Modellierung konzentriert sich das verteilungsbasierte Clustering darauf, die Wahrscheinlichkeit zu bestimmen, dass ein Datenpunkt zu einem Cluster gehört, und ihn entsprechend zuzuweisen. Gaussian-Mischmethoden gehören zu diesem Typ. +- **Verteilungsbasiertes Clustering**. Basierend auf statistischen Modellen konzentriert sich das verteilungsbasierte Clustering darauf, die Wahrscheinlichkeit zu bestimmen, dass ein Datenpunkt zu einem Cluster gehört, und ordnet ihn entsprechend zu. Gaussian Mixture-Methoden gehören zu diesem Typ. -- **Dichtebasiertes Clustering**. Datenpunkte werden basierend auf ihrer Dichte oder ihrer Gruppierung umeinander herum Clustern zugewiesen. Datenpunkte, die weit von der Gruppe entfernt sind, werden als Ausreißer oder Rauschen betrachtet. DBSCAN, Mean-shift und OPTICS gehören zu diesem Typ des Clustering. +- **Dichte-basiertes Clustering**. Datenpunkte werden Clustern basierend auf ihrer Dichte oder ihrer Gruppierung um einander zugeordnet. Datenpunkte, die weit entfernt von der Gruppe liegen, gelten als Ausreißer oder Rauschen. DBSCAN, Mean-shift und OPTICS gehören zu diesem Clustering-Typ. -- **Rasterbasiertes Clustering**. Für mehrdimensionale Datensätze wird ein Raster erstellt und die Daten werden auf die Zellen des Rasters verteilt, wodurch Cluster entstehen. +- **Raster-basiertes Clustering**. Für mehrdimensionale Datensätze wird ein Raster erstellt und die Daten auf die Zellen des Rasters verteilt, wodurch Cluster entstehen. -## Übung – Daten clustern +## Übung - Clustere deine Daten -Clustering als Technik wird durch eine ordentliche Visualisierung erheblich erleichtert, also lassen Sie uns beginnen, unsere Musikdaten zu visualisieren. Diese Übung wird uns helfen zu entscheiden, welche der Clustering-Methoden wir am effektivsten für die Natur dieser Daten verwenden sollten. +Clustering als Technik wird durch eine gute Visualisierung stark unterstützt, also lasst uns mit der Visualisierung unserer Musikdaten beginnen. Diese Übung hilft uns dabei zu entscheiden, welche der Clustering-Methoden wir für die Art dieser Daten am effektivsten einsetzen sollten. -1. Öffnen Sie die Datei [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) in diesem Ordner. +1. Öffne die Datei [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) in diesem Ordner. -1. Importieren Sie das `Seaborn`-Paket für eine gute Datenvisualisierung. +1. Importiere das `Seaborn` Paket für gute Datenvisualisierung. ```python !pip install seaborn ``` -1. Fügen Sie die Songdaten aus [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) hinzu. Laden Sie einen Dataframe mit einigen Daten über die Songs. Bereiten Sie sich darauf vor, diese Daten zu erkunden, indem Sie die Bibliotheken importieren und die Daten ausgeben: +1. Füge die Lieddaten aus [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) hinzu. Lade einen Dataframe mit einigen Daten über die Songs. Mache dich bereit, diese Daten zu erkunden, indem du die Bibliotheken importierst und die Daten ausgibst: ```python import matplotlib.pyplot as plt @@ -120,23 +119,23 @@ Clustering als Technik wird durch eine ordentliche Visualisierung erheblich erle df.head() ``` - Überprüfen Sie die ersten Zeilen der Daten: + Überprüfe die ersten Zeilen der Daten: - | | Name | Album | Künstler | Künstler-Top-Genre | Veröffentlichungsdatum | Länge | Beliebtheit | Tanzbarkeit | Akustizität | Energie | Instrumentalität | Lebendigkeit | Lautstärke | Sprachlichkeit | Tempo | Taktart | - | --- | ------------------------ | ---------------------------- | ------------------- | ------------------ | ---------------------- | ------ | ----------- | ----------- | ----------- | ------ | ---------------- | ----------- | ---------- | -------------- | ------- | -------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | Alternative R&B | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | Afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | Indie R&B | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | Nigerian Pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | Afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Holen Sie sich einige Informationen über den DataFrame, indem Sie `info()` aufrufen: +1. Holen Sie sich einige Informationen über das DataFrame, indem Sie `info()` aufrufen: ```python df.info() ``` - Die Ausgabe sieht folgendermaßen aus: + Die Ausgabe sieht so aus: ```output @@ -164,7 +163,7 @@ Clustering als Technik wird durch eine ordentliche Visualisierung erheblich erle memory usage: 66.4+ KB ``` -1. Überprüfen Sie auf fehlende Werte, indem Sie `isnull()` aufrufen und sicherstellen, dass die Summe 0 ist: +1. Überprüfen Sie doppelt auf Nullwerte, indem Sie `isnull()` aufrufen und die Summe 0 bestätigen: ```python df.isnull().sum() @@ -209,9 +208,9 @@ Clustering als Technik wird durch eine ordentliche Visualisierung erheblich erle | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Wenn wir mit Clustering arbeiten, einer unüberwachten Methode, die keine gelabelten Daten benötigt, warum zeigen wir dann diese Daten mit Labels? In der Phase der Datenerkundung sind sie nützlich, aber für die Clustering-Algorithmen sind sie nicht notwendig. Sie könnten genauso gut die Spaltenüberschriften entfernen und sich auf die Daten anhand der Spaltennummern beziehen. +> 🤔 Wenn wir mit Clustering arbeiten, einer unüberwachten Methode, die keine gelabelten Daten benötigt, warum zeigen wir diese Daten mit Labels? In der Datenexplorationsphase sind sie nützlich, aber sie sind für das Funktionieren der Clustering-Algorithmen nicht erforderlich. Sie könnten auch einfach die Spaltenüberschriften entfernen und sich auf die Daten mit Spaltennummern beziehen. -Schauen Sie sich die allgemeinen Werte der Daten an. Beachten Sie, dass Popularität '0' sein kann, was Songs zeigt, die kein Ranking haben. Lassen Sie uns diese gleich entfernen. +Sehen Sie sich die allgemeinen Werte der Daten an. Beachten Sie, dass Popularität '0' sein kann, was Songs zeigt, die keine Rangfolge haben. Lassen Sie uns diese bald entfernen. 1. Verwenden Sie ein Balkendiagramm, um die beliebtesten Genres herauszufinden: @@ -225,13 +224,13 @@ Schauen Sie sich die allgemeinen Werte der Daten an. Beachten Sie, dass Populari plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/de/popular.9c48d84b3386705f.webp) -✅ Wenn Sie mehr Top-Werte sehen möchten, ändern Sie das Top `[:5]` in einen größeren Wert oder entfernen Sie es, um alle anzuzeigen. +✅ Wenn Sie mehr Top-Werte sehen möchten, ändern Sie `[:5]` auf einen größeren Wert oder entfernen Sie es, um alle zu sehen. -Beachten Sie, wenn das Top-Genre als 'Missing' beschrieben wird, bedeutet das, dass Spotify es nicht klassifiziert hat. Lassen Sie uns dies entfernen. +Beachten Sie, wenn das Top-Genre als 'Missing' beschrieben wird, bedeutet dies, dass Spotify es nicht klassifiziert hat, also lassen wir es weg. -1. Entfernen Sie fehlende Daten, indem Sie sie herausfiltern: +1. Entfernen Sie fehlende Daten, indem Sie sie herausfiltern ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -242,11 +241,11 @@ Beachten Sie, wenn das Top-Genre als 'Missing' beschrieben wird, bedeutet das, d plt.title('Top genres',color = 'blue') ``` - Überprüfen Sie nun die Genres erneut: + Überprüfen Sie jetzt erneut die Genres: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/de/all-genres.1d56ef06cefbfcd6.webp) -1. Die drei Top-Genres dominieren bei weitem diesen Datensatz. Konzentrieren wir uns auf `afro dancehall`, `afropop` und `nigerian pop` und filtern den Datensatz zusätzlich, um alles mit einem Popularitätswert von 0 zu entfernen (was bedeutet, dass es im Datensatz nicht klassifiziert wurde und für unsere Zwecke als Rauschen betrachtet werden kann): +1. Bei weitem dominieren die drei Top-Genres diesen Datensatz. Konzentrieren wir uns auf `afro dancehall`, `afropop` und `nigerian pop` und filtern zusätzlich den Datensatz, um alles mit einem Popularitätswert von 0 zu entfernen (was bedeutet, dass es im Datensatz keine Popularitätsklassifizierung gab und für unsere Zwecke als Rauschen betrachtet werden kann): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +257,7 @@ Beachten Sie, wenn das Top-Genre als 'Missing' beschrieben wird, bedeutet das, d plt.title('Top genres',color = 'blue') ``` -1. Machen Sie einen kurzen Test, um zu sehen, ob die Daten in irgendeiner Weise stark korrelieren: +1. Führen Sie einen kurzen Test durch, um zu sehen, ob die Daten in irgendeiner besonders starken Weise korrelieren: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +265,21 @@ Beachten Sie, wenn das Top-Genre als 'Missing' beschrieben wird, bedeutet das, d sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/de/correlation.a9356bb798f5eea5.webp) - Die einzige starke Korrelation besteht zwischen `energy` und `loudness`, was nicht allzu überraschend ist, da laute Musik normalerweise ziemlich energiegeladen ist. Ansonsten sind die Korrelationen relativ schwach. Es wird interessant sein zu sehen, was ein Clustering-Algorithmus aus diesen Daten machen kann. + Die einzige starke Korrelation besteht zwischen `energy` und `loudness`, was nicht allzu überraschend ist, da laute Musik in der Regel ziemlich energetisch ist. Ansonsten sind die Korrelationen relativ schwach. Es wird interessant sein zu sehen, was ein Clustering-Algorithmus aus diesen Daten machen kann. - > 🎓 Beachten Sie, dass Korrelation keine Kausalität impliziert! Wir haben einen Beweis für Korrelation, aber keinen Beweis für Kausalität. Eine [amüsante Website](https://tylervigen.com/spurious-correlations) bietet einige Visualisierungen, die diesen Punkt betonen. + > 🎓 Beachten Sie, dass Korrelation keine Kausalität impliziert! Wir haben den Beweis für eine Korrelation, aber keinen Beweis für eine Kausalität. Eine [amüsante Webseite](https://tylervigen.com/spurious-correlations) zeigt einige Visualisierungen, die diesen Punkt hervorheben. -Gibt es in diesem Datensatz eine Konvergenz zwischen der wahrgenommenen Popularität und der Tanzbarkeit eines Songs? Ein FacetGrid zeigt, dass es konzentrische Kreise gibt, die sich unabhängig vom Genre ausrichten. Könnte es sein, dass nigerianische Geschmäcker bei einem bestimmten Tanzbarkeitsniveau für dieses Genre konvergieren? +Gibt es eine Konvergenz in diesem Datensatz bezüglich der wahrgenommenen Popularität und Tanzbarkeit eines Songs? Ein FacetGrid zeigt konzentrische Kreise, die unabhängig vom Genre übereinstimmen. Könnte es sein, dass sich der nigerianische Geschmack auf ein bestimmtes Maß an Tanzbarkeit für dieses Genre einpendelt? -✅ Probieren Sie verschiedene Datenpunkte (energy, loudness, speechiness) und mehr oder andere Musikgenres aus. Was können Sie entdecken? Werfen Sie einen Blick auf die `df.describe()`-Tabelle, um die allgemeine Verteilung der Datenpunkte zu sehen. +✅ Probieren Sie verschiedene Datenpunkte (energy, loudness, speechiness) und mehr oder andere Musikgenres aus. Was können Sie entdecken? Schauen Sie sich die Tabelle `df.describe()` an, um die allgemeine Verteilung der Datenpunkte zu sehen. ### Übung - Datenverteilung Unterscheiden sich diese drei Genres signifikant in der Wahrnehmung ihrer Tanzbarkeit, basierend auf ihrer Popularität? -1. Untersuchen Sie die Datenverteilung unserer drei Top-Genres für Popularität und Tanzbarkeit entlang einer gegebenen x- und y-Achse. +1. Untersuchen Sie die Verteilung der Daten der drei Top-Genres hinsichtlich Popularität und Tanzbarkeit entlang einer gegebenen x- und y-Achse. ```python sns.set_theme(style="ticks") @@ -294,11 +293,11 @@ Unterscheiden sich diese drei Genres signifikant in der Wahrnehmung ihrer Tanzba Sie können konzentrische Kreise um einen allgemeinen Konvergenzpunkt entdecken, die die Verteilung der Punkte zeigen. - > 🎓 Beachten Sie, dass dieses Beispiel ein KDE (Kernel Density Estimate)-Diagramm verwendet, das die Daten mit einer kontinuierlichen Wahrscheinlichkeitsdichtekurve darstellt. Dies ermöglicht es uns, Daten bei der Arbeit mit mehreren Verteilungen zu interpretieren. + > 🎓 Beachten Sie, dass dieses Beispiel ein KDE (Kernel Density Estimate) Diagramm verwendet, das die Daten mittels einer kontinuierlichen Wahrscheinlichkeitsdichtekurve darstellt. Dies ermöglicht uns die Interpretation von Daten bei der Arbeit mit mehreren Verteilungen. - Im Allgemeinen stimmen die drei Genres lose in Bezug auf ihre Popularität und Tanzbarkeit überein. Cluster in diesen lose ausgerichteten Daten zu bestimmen, wird eine Herausforderung sein: + Im Allgemeinen stimmen die drei Genres lose in Bezug auf ihre Popularität und Tanzbarkeit überein. Die Bestimmung von Clustern in diesen lose ausgerichteten Daten wird eine Herausforderung sein: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/de/distribution.9be11df42356ca95.webp) 1. Erstellen Sie ein Streudiagramm: @@ -308,31 +307,33 @@ Unterscheiden sich diese drei Genres signifikant in der Wahrnehmung ihrer Tanzba .add_legend() ``` - Ein Streudiagramm derselben Achsen zeigt ein ähnliches Muster der Konvergenz: + Ein Streudiagramm mit denselben Achsen zeigt ein ähnliches Konvergenzmuster - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/de/facetgrid.9b2e65ce707eba1f.webp) -Im Allgemeinen können Sie für das Clustering Streudiagramme verwenden, um Cluster von Daten darzustellen. Daher ist es sehr nützlich, diese Art der Visualisierung zu beherrschen. In der nächsten Lektion werden wir diese gefilterten Daten verwenden und k-means-Clustering einsetzen, um Gruppen in diesen Daten zu entdecken, die auf interessante Weise überlappen. +Im Allgemeinen können Sie für Clustering Streudiagramme verwenden, um Cluster von Daten zu zeigen, daher ist das Beherrschen dieser Art der Visualisierung sehr nützlich. In der nächsten Lektion werden wir diese gefilterten Daten verwenden und k-Means-Clustering anwenden, um Gruppen in diesen Daten zu entdecken, die sich auf interessante Weise überschneiden. --- ## 🚀 Herausforderung -Bereiten Sie sich auf die nächste Lektion vor, indem Sie ein Diagramm über die verschiedenen Clustering-Algorithmen erstellen, die Sie möglicherweise in einer Produktionsumgebung entdecken und verwenden könnten. Welche Arten von Problemen versucht das Clustering zu lösen? +Bereiten Sie für die nächste Lektion ein Diagramm über die verschiedenen Clustering-Algorithmen vor, die Sie entdecken und in einer Produktionsumgebung verwenden könnten. Welche Arten von Problemen versucht das Clustering zu lösen? -## [Quiz nach der Vorlesung](https://ff-quizzes.netlify.app/en/ml/) +## [Post-Lecture-Quiz](https://ff-quizzes.netlify.app/en/ml/) -## Überprüfung & Selbststudium +## Rückblick & Selbststudium -Bevor Sie Clustering-Algorithmen anwenden, ist es, wie wir gelernt haben, eine gute Idee, die Natur Ihres Datensatzes zu verstehen. Lesen Sie mehr zu diesem Thema [hier](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html). +Bevor Sie Clustering-Algorithmen anwenden, ist es, wie wir gelernt haben, eine gute Idee, die Natur Ihres Datensatzes zu verstehen. Lesen Sie mehr zu diesem Thema [hier](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Dieser hilfreiche Artikel](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) führt Sie durch die verschiedenen Verhaltensweisen von Clustering-Algorithmen bei unterschiedlichen Datenformen. +[Dieser hilfreiche Artikel](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) führt Sie durch die verschiedenen Verhaltensweisen der Clustering-Algorithmen, abhängig von unterschiedlichen Datenformen. ## Aufgabe -[Erforschen Sie andere Visualisierungen für Clustering](assignment.md) +[Forschen Sie nach weiteren Visualisierungen für Clustering](assignment.md) --- -**Haftungsausschluss**: -Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, weisen wir darauf hin, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben. \ No newline at end of file + +**Haftungsausschluss**: +Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner Ursprungssprache gilt als maßgebliche Quelle. Bei kritischen Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die aus der Verwendung dieser Übersetzung entstehen. + \ No newline at end of file diff --git a/translations/ru/.co-op-translator.json b/translations/ru/.co-op-translator.json index fe9e21567..33c802e23 100644 --- a/translations/ru/.co-op-translator.json +++ b/translations/ru/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-06T08:32:55+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T21:45:48+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "ru" }, @@ -240,8 +240,8 @@ "language_code": "ru" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-06T08:28:41+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T21:45:18+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "ru" }, diff --git a/translations/ru/1-Introduction/1-intro-to-ML/README.md b/translations/ru/1-Introduction/1-intro-to-ML/README.md index 3205200fd..c20a691e7 100644 --- a/translations/ru/1-Introduction/1-intro-to-ML/README.md +++ b/translations/ru/1-Introduction/1-intro-to-ML/README.md @@ -1,76 +1,76 @@ # Введение в машинное обучение -## [Тест перед лекцией](https://ff-quizzes.netlify.app/en/ml/) +## [Викторина перед лекцией](https://ff-quizzes.netlify.app/en/ml/) --- -[![ML для начинающих - Введение в машинное обучение для новичков](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML для начинающих - Введение в машинное обучение для новичков") +[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") -> 🎥 Нажмите на изображение выше, чтобы посмотреть короткое видео, связанное с этим уроком. +> 🎥 Нажмите на изображение выше, чтобы посмотреть короткое видео по этому уроку. -Добро пожаловать на курс классического машинного обучения для начинающих! Независимо от того, являетесь ли вы новичком в этой теме или опытным специалистом, желающим освежить знания, мы рады видеть вас здесь! Мы стремимся создать дружелюбную отправную точку для изучения машинного обучения и будем рады оценить, ответить и учесть ваши [отзывы](https://github.com/microsoft/ML-For-Beginners/discussions). +Добро пожаловать на курс классического машинного обучения для начинающих! Независимо от того, полностью ли вы новичок в этой теме или опытный специалист в области машинного обучения, желающий освежить знания, мы рады видеть вас с нами! Мы хотим создать дружелюбное место для начала вашего изучения машинного обучения и будем рады оценить, ответить и учесть ваши [отзывы](https://github.com/microsoft/ML-For-Beginners/discussions). -[![Введение в ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Введение в ML") +[![Введение в машинное обучение](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Введение в машинное обучение") -> 🎥 Нажмите на изображение выше, чтобы посмотреть видео: Джон Гуттаг из MIT представляет машинное обучение. +> 🎥 Нажмите на изображение выше, чтобы посмотреть видео: Джон Гуттаг из MIT представляет машинное обучение --- ## Начало работы с машинным обучением -Перед началом изучения этого курса необходимо настроить ваш компьютер для локального запуска ноутбуков. +Прежде чем начать работу с этим курсом, ваш компьютер должен быть настроен и готов запускать ноутбуки локально. -- **Настройте ваш компьютер с помощью этих видео**. Используйте следующие ссылки, чтобы узнать [как установить Python](https://youtu.be/CXZYvNRIAKM) на вашу систему и [настроить текстовый редактор](https://youtu.be/EU8eayHWoZg) для разработки. -- **Изучите Python**. Также рекомендуется иметь базовые знания [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), языка программирования, полезного для специалистов по данным, который мы используем в этом курсе. -- **Изучите Node.js и JavaScript**. Мы также несколько раз используем JavaScript в этом курсе при создании веб-приложений, поэтому вам нужно установить [node](https://nodejs.org) и [npm](https://www.npmjs.com/), а также иметь [Visual Studio Code](https://code.visualstudio.com/) для разработки на Python и JavaScript. -- **Создайте аккаунт на GitHub**. Поскольку вы нашли нас здесь, на [GitHub](https://github.com), возможно, у вас уже есть аккаунт, но если нет, создайте его, а затем сделайте форк этого курса для использования. (Не забудьте поставить нам звезду 😊) -- **Изучите Scikit-learn**. Ознакомьтесь с [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), набором библиотек для машинного обучения, которые мы используем в этих уроках. +- **Настройте вашу машину с помощью этих видео**. Используйте следующие ссылки, чтобы узнать [как установить Python](https://youtu.be/CXZYvNRIAKM) в вашу систему и [настроить текстовый редактор](https://youtu.be/EU8eayHWoZg) для разработки. +- **Изучите Python**. Также рекомендуется иметь базовое понимание [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), языка программирования, полезного для специалистов по данным, который мы используем в этом курсе. +- **Изучите Node.js и JavaScript**. Мы также несколько раз используем JavaScript в этом курсе при создании веб-приложений, поэтому необходимо иметь установленные [node](https://nodejs.org) и [npm](https://www.npmjs.com/), а также [Visual Studio Code](https://code.visualstudio.com/) для разработки на Python и JavaScript. +- **Создайте аккаунт GitHub**. Поскольку вы нашли нас здесь, на [GitHub](https://github.com), возможно, у вас уже есть аккаунт, но если нет — создайте его и сделайте форк этого курса для собственного использования. (Не забудьте поставить нам звезду, тоже 😊) +- **Изучите Scikit-learn**. Ознакомьтесь с [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), набором библиотек машинного обучения, на которые мы ссылаемся в этих уроках. --- ## Что такое машинное обучение? -Термин "машинное обучение" является одним из самых популярных и часто используемых в наше время. Существует немалая вероятность, что вы слышали этот термин хотя бы раз, если вы знакомы с технологиями, независимо от вашей области работы. Однако механика машинного обучения остается загадкой для большинства людей. Для новичка в машинном обучении эта тема иногда может казаться сложной. Поэтому важно понять, что такое машинное обучение, и изучать его шаг за шагом, через практические примеры. +Термин «машинное обучение» — один из самых популярных и часто используемых сегодня. Есть большая вероятность, что вы слышали этот термин хотя бы раз, если вы знакомы с технологиями, независимо от вашей сферы деятельности. Однако механизмы машинного обучения загадочны для большинства людей. Для начинающего в машинном обучении предмет бывает иногда непростым. Поэтому важно понять, что такое машинное обучение на самом деле, и изучать его шаг за шагом на практических примерах. --- -## Кривая популярности +## Кривая ажиотажа -![Кривая популярности ML](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/ru/hype.07183d711a17aafe.webp) -> Google Trends показывает недавнюю "кривую популярности" термина "машинное обучение". +> Google Trends показывает недавнюю "кривую ажиотажа" для термина «машинное обучение» --- ## Загадочная вселенная -Мы живем в мире, полном увлекательных загадок. Великие ученые, такие как Стивен Хокинг, Альберт Эйнштейн и многие другие, посвятили свою жизнь поиску значимой информации, которая раскрывает тайны окружающего нас мира. Это человеческое стремление к обучению: ребенок учится новому и год за годом открывает структуру своего мира, взрослея. +Мы живем в вселенной, полной увлекательных тайн. Великие ученые, такие как Стивен Хокинг, Альберт Эйнштейн и многие другие, посвятили свою жизнь поиску значимой информации, раскрывающей загадки окружающего мира. Это человеческое состояние обучения: ребенок учится новому и постепенно раскрывает структуру своего мира, растя и становясь взрослым. --- ## Мозг ребенка -Мозг и органы чувств ребенка воспринимают факты окружающего мира и постепенно изучают скрытые закономерности жизни, которые помогают ребенку формулировать логические правила для распознавания изученных шаблонов. Процесс обучения человеческого мозга делает людей самыми сложными живыми существами на этой планете. Постоянное обучение через открытие скрытых закономерностей и последующее их использование позволяет нам становиться лучше и лучше на протяжении всей жизни. Эта способность к обучению и эволюции связана с концепцией, называемой [пластичностью мозга](https://www.simplypsychology.org/brain-plasticity.html). Поверхностно мы можем провести некоторые мотивационные аналогии между процессом обучения человеческого мозга и концепциями машинного обучения. +Мозг и органы чувств ребенка воспринимают факты окружающего мира и постепенно учатся скрытым закономерностям жизни, которые помогают ребенку выстраивать логические правила для распознавания изученных паттернов. Процесс обучения человеческого мозга делает человека самым сложным живым существом на Земле. Постоянное обучение через открытие скрытых паттернов и инновации на их основе позволяет нам становиться лучше на протяжении всей жизни. Эта способность к обучению и развивающаяся способность связаны с понятием, называемым [пластичностью мозга](https://www.simplypsychology.org/brain-plasticity.html). Поверхностно мы можем провести некоторые мотивационные аналогии между процессом обучения человеческого мозга и понятием машинного обучения. --- ## Человеческий мозг -[Человеческий мозг](https://www.livescience.com/29365-human-brain.html) воспринимает информацию из реального мира, обрабатывает полученные данные, принимает рациональные решения и выполняет определенные действия в зависимости от обстоятельств. Это то, что мы называем разумным поведением. Когда мы программируем подобие процесса разумного поведения для машины, это называется искусственным интеллектом (AI). +[Человеческий мозг](https://www.livescience.com/29365-human-brain.html) воспринимает явления из реального мира, обрабатывает полученную информацию, принимает рациональные решения и выполняет определённые действия в зависимости от обстоятельств. Это то, что мы называем интеллектуальным поведением. Когда мы программируем подобие этого интеллектуального процесса на машину, это называют искусственным интеллектом (ИИ). --- -## Некоторая терминология +## Терминология -Хотя термины могут путать, машинное обучение (ML) является важным подмножеством искусственного интеллекта. **ML занимается использованием специализированных алгоритмов для выявления значимой информации и поиска скрытых закономерностей в полученных данных, чтобы подтвердить процесс рационального принятия решений**. +Хотя термины могут путать, машинное обучение (ML) — важное подмножество искусственного интеллекта. **ML занимается использованием специализированных алгоритмов для выявления значимой информации и обнаружения скрытых паттернов в воспринятых данных, чтобы подтвердить рациональный процесс принятия решений**. --- -## AI, ML, глубокое обучение +## ИИ, ML, глубокое обучение -![AI, ML, глубокое обучение, наука о данных](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/ru/ai-ml-ds.537ea441b124ebf6.webp) -> Диаграмма, показывающая взаимосвязь между AI, ML, глубоким обучением и наукой о данных. Инфографика от [Джен Лупер](https://twitter.com/jenlooper), вдохновленная [этим графиком](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining). +> Диаграмма, показывающая взаимосвязи между ИИ, ML, глубоким обучением и наукой о данных. Инфографика от [Jen Looper](https://twitter.com/jenlooper), вдохновленная [этой схемой](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Темы, которые мы рассмотрим +## Концепции, которые будут рассмотрены -В этом курсе мы будем рассматривать только основные концепции машинного обучения, которые должен знать новичок. Мы сосредоточимся на том, что называем "классическим машинным обучением", используя в основном Scikit-learn, отличную библиотеку, которую многие студенты используют для изучения основ. Чтобы понять более широкие концепции искусственного интеллекта или глубокого обучения, необходимо иметь сильные фундаментальные знания машинного обучения, которые мы хотим предложить здесь. +В этом курсе мы рассмотрим только основные понятия машинного обучения, которые должен знать начинающий. Мы рассматриваем то, что называем «классическим машинным обучением», используя в основном Scikit-learn — отличную библиотеку, с помощью которой многие студенты усваивают основы. Чтобы понимать более широкие концепции искусственного интеллекта или глубокого обучения, необходимо иметь крепкую фундаментальную базу по машинному обучению, и поэтому мы предлагаем её здесь. --- -## В этом курсе вы изучите: +## В этом курсе вы узнаете: - основные концепции машинного обучения - историю ML @@ -78,8 +78,8 @@ - методы регрессии в ML - методы классификации в ML - методы кластеризации в ML -- обработку естественного языка в ML -- прогнозирование временных рядов в ML +- методы обработки естественного языка в ML +- методы прогнозирования временных рядов в ML - обучение с подкреплением - реальные приложения ML @@ -88,63 +88,70 @@ - глубокое обучение - нейронные сети -- AI +- ИИ -Для лучшего обучения мы избегаем сложностей нейронных сетей, "глубокого обучения" — многослойного построения моделей с использованием нейронных сетей — и AI, которые мы обсудим в другом курсе. Мы также предложим предстоящий курс по науке о данных, чтобы сосредоточиться на этом аспекте более широкой области. +Для лучшего процесса обучения мы избегаем сложностей нейронных сетей, «глубокого обучения» — многоуровневого построения моделей с использованием нейронных сетей — и искусственного интеллекта, который мы рассмотрим в другом курсе. Мы также планируем предложить отдельный курс по науке о данных, чтобы сосредоточиться на этом аспекте широкой области. --- -## Зачем изучать машинное обучение? +## Почему стоит изучать машинное обучение? -Машинное обучение, с точки зрения систем, определяется как создание автоматизированных систем, которые могут изучать скрытые закономерности из данных, чтобы помогать в принятии разумных решений. +Машинное обучение с точки зрения систем определяется как создание автоматизированных систем, способных выявлять скрытые закономерности в данных для помощи в принятии интеллектуальных решений. -Эта мотивация в некоторой степени вдохновлена тем, как человеческий мозг изучает определенные вещи на основе данных, которые он воспринимает из внешнего мира. +Это вдохновлено тем, как человеческий мозг учится определённым вещам на основе данных, которые он воспринимает из внешнего мира. -✅ Подумайте минуту, почему бизнесу может быть выгодно использовать стратегии машинного обучения вместо создания жестко закодированного движка на основе правил. +✅ Подумайте минуту, почему бизнесу стоит пытаться использовать стратегии машинного обучения вместо создания системы с жёстко заданными правилами. --- -## Применение машинного обучения +## Почему качество данных важно -Применение машинного обучения сейчас практически повсюду и так же распространено, как данные, которые циркулируют в нашем обществе, генерируемые нашими смартфонами, подключенными устройствами и другими системами. Учитывая огромный потенциал современных алгоритмов машинного обучения, исследователи изучают их возможности для решения многомерных и многопрофильных реальных задач с отличными положительными результатами. +Данные высокого качества улучшают производительность модели. Плохие или шумные данные могут привести к неточным прогнозам, даже при использовании передовых алгоритмов машинного обучения. + +--- +## Применения машинного обучения + +Применение машинного обучения сейчас повсеместно и так же распространено, как данные, которые циркулируют в нашем обществе, генерируемые нашими смартфонами, подключёнными устройствами и другими системами. С учетом огромного потенциала современных алгоритмов машинного обучения исследователи изучают их способность решать многомерные и многодисциплинарные реальные задачи с отличными положительными результатами. --- ## Примеры применения ML **Машинное обучение можно использовать во многих областях**: -- Для прогнозирования вероятности заболевания на основе медицинской истории или отчетов пациента. -- Для использования данных о погоде для прогнозирования погодных явлений. -- Для анализа настроения текста. -- Для выявления фейковых новостей и предотвращения распространения пропаганды. +- Для прогнозирования вероятности заболевания на основе медицинской истории пациента или отчетов. +- Для использования погодных данных с целью прогнозирования погодных событий. +- Для понимания настроения текста. +- Для выявления фейковых новостей, чтобы остановить распространение пропаганды. -Финансы, экономика, науки о Земле, космические исследования, биомедицинская инженерия, когнитивные науки и даже гуманитарные области адаптировали машинное обучение для решения сложных задач обработки данных в своих сферах. +Финансы, экономика, науки о Земле, космические исследования, биомедицинская инженерия, когнитивные науки и даже гуманитарные науки адаптировали машинное обучение для решения сложных задач обработки данных в своей области. --- ## Заключение -Машинное обучение автоматизирует процесс обнаружения закономерностей, находя значимые инсайты из реальных или сгенерированных данных. Оно доказало свою высокую ценность в бизнесе, здравоохранении, финансовых приложениях и других областях. +Машинное обучение автоматизирует процесс обнаружения закономерностей, находя значимые инсайты в реальных или сгенерированных данных. Оно доказало свою высокую ценность в бизнесе, здравоохранении, финансах и других областях. -В ближайшем будущем понимание основ машинного обучения станет необходимостью для людей из любой области из-за его широкого распространения. +В ближайшем будущем базовые знания машинного обучения станут необходимостью для специалистов из любой области из-за его широкого распространения. --- # 🚀 Задание -Нарисуйте, на бумаге или с помощью онлайн-приложения, например [Excalidraw](https://excalidraw.com/), ваше понимание различий между AI, ML, глубоким обучением и наукой о данных. Добавьте идеи о задачах, которые каждая из этих техник хорошо решает. +Нарисуйте на бумаге или с помощью онлайн-приложения, например [Excalidraw](https://excalidraw.com/), ваше понимание различий между ИИ, ML, глубоким обучением и наукой о данных. Добавьте идеи задач, которые хорошо решаются каждым из этих подходов. -# [Тест после лекции](https://ff-quizzes.netlify.app/en/ml/) +# [Викторина после лекции](https://ff-quizzes.netlify.app/en/ml/) --- -# Обзор и самостоятельное изучение +# Повторение и самообучение -Чтобы узнать больше о том, как работать с алгоритмами ML в облаке, пройдите [учебный путь](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Чтобы узнать больше о том, как работать с алгоритмами ML в облаке, пройдите этот [Учебный путь](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Пройдите [учебный путь](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) о основах ML. +Пройдите [Учебный путь](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) по основам ML. --- -# Задание +# Домашнее задание -[Начните работу](assignment.md) +[Начните работать](assignment.md) --- -**Отказ от ответственности**: -Этот документ был переведен с использованием сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода. \ No newline at end of file + +**Отказ от ответственности**: +Этот документ был переведен с использованием сервиса машинного перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия по обеспечению точности, имейте в виду, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется обратиться к профессиональному человеческому переводу. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования этого перевода. + \ No newline at end of file diff --git a/translations/ru/5-Clustering/1-Visualize/README.md b/translations/ru/5-Clustering/1-Visualize/README.md index 50a5c5f7c..ca7eb9375 100644 --- a/translations/ru/5-Clustering/1-Visualize/README.md +++ b/translations/ru/5-Clustering/1-Visualize/README.md @@ -1,106 +1,106 @@ # Введение в кластеризацию -Кластеризация — это вид [обучения без учителя](https://wikipedia.org/wiki/Unsupervised_learning), который предполагает, что набор данных не имеет меток или что его входные данные не связаны с заранее определенными выходными. Она использует различные алгоритмы для анализа немаркированных данных и формирования групп на основе выявленных в данных закономерностей. +Кластеризация — это тип [Обучения без учителя](https://wikipedia.org/wiki/Unsupervised_learning), который предполагает, что набор данных не имеет меток или что его входные данные не сопоставлены с заранее определёнными выходами. Он использует различные алгоритмы для сортировки немаркированных данных и формирования групп в соответствии с выявленными в данных закономерностями. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Нажмите на изображение выше, чтобы посмотреть видео. Пока вы изучаете машинное обучение с использованием кластеризации, насладитесь треками нигерийского Dance Hall — это высоко оцененная песня 2014 года от PSquare. +> 🎥 Нажмите на изображение выше для просмотра видео. Пока вы изучаете машинное обучение с применением кластеризации, насладитесь некоторыми треками нигерийского Dance Hall — это очень популярная песня 2014 года от PSquare. -## [Тест перед лекцией](https://ff-quizzes.netlify.app/en/ml/) +## [Превью-викторина](https://ff-quizzes.netlify.app/en/ml/) ### Введение -[Кластеризация](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) очень полезна для исследования данных. Давайте посмотрим, может ли она помочь выявить тенденции и закономерности в том, как нигерийская аудитория потребляет музыку. +[Кластеризация](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) очень полезна для исследования данных. Давайте посмотрим, сможет ли она помочь обнаружить тенденции и закономерности в том, как нигерийская аудитория потребляет музыку. -✅ Подумайте минутку о применении кластеризации. В реальной жизни кластеризация происходит, когда у вас есть куча белья, и вам нужно рассортировать одежду членов вашей семьи 🧦👕👖🩲. В области науки о данных кластеризация происходит, когда вы пытаетесь анализировать предпочтения пользователя или определять характеристики любого немаркированного набора данных. Кластеризация, в некотором смысле, помогает навести порядок в хаосе, как в ящике для носков. +✅ Потратьте минуту, чтобы подумать о применениях кластеризации. В реальной жизни кластеризация происходит каждый раз, когда у вас есть куча белья, и нужно отсортировать одежду по членам семьи 🧦👕👖🩲. В науке о данных кластеризация применяется при попытке проанализировать предпочтения пользователя или определить характеристики любого немаркированного набора данных. Кластеризация, в некотором роде, помогает упорядочить хаос, как ящик с носками. -[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") +[![Введение в МО](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Введение в кластеризацию") -> 🎥 Нажмите на изображение выше, чтобы посмотреть видео: Джон Гуттаг из MIT представляет кластеризацию. +> 🎥 Нажмите на изображение выше для просмотра видео: Джон Гаттаг из MIT рассказывает о кластеризации -В профессиональной среде кластеризация может использоваться для определения таких вещей, как сегментация рынка, например, чтобы выяснить, какие возрастные группы покупают какие товары. Другим применением может быть обнаружение аномалий, например, для выявления мошенничества в наборе данных о транзакциях с кредитными картами. Или вы можете использовать кластеризацию для определения опухолей в группе медицинских снимков. +В профессиональной среде кластеризацию можно использовать для определения, например, сегментации рынка, выяснения, какие возрастные группы покупают какие товары. Другой вариант использования — обнаружение аномалий, например, для выявления мошенничества в наборе данных транзакций по кредитным картам. Или вы можете использовать кластеризацию, чтобы определить опухоли на серии медицинских снимков. -✅ Подумайте минутку о том, как вы могли столкнуться с кластеризацией в реальной жизни, например, в банковской, электронной коммерции или бизнес-среде. +✅ Подумайте минуту, как вы могли столкнуться с кластеризацией «в дикой природе» — в банковской, электронной коммерции или деловой среде. -> 🎓 Интересно, что анализ кластеров возник в области антропологии и психологии в 1930-х годах. Можете представить, как он мог быть использован? +> 🎓 Интересно, что анализ кластеров возник в областях антропологии и психологии в 1930-х годах. Можете представить, как это могло применяться? -Кроме того, кластеризацию можно использовать для группировки результатов поиска — например, по ссылкам на покупки, изображениям или отзывам. Кластеризация полезна, когда у вас есть большой набор данных, который вы хотите сократить и на котором хотите провести более детальный анализ, поэтому этот метод может быть использован для изучения данных перед созданием других моделей. +Или же вы можете использовать кластеризацию для группировки результатов поиска — по ссылкам на покупки, изображениям или обзорам, например. Кластеризация полезна, когда у вас есть большой набор данных, который вы хотите сократить, и на котором хотите выполнить более детальный анализ, поэтому этот метод можно использовать для изучения данных до построения других моделей. -✅ После того как ваши данные организованы в кластеры, вы присваиваете им идентификатор кластера, и этот метод может быть полезен для сохранения конфиденциальности набора данных; вместо этого вы можете ссылаться на точку данных по ее идентификатору кластера, а не по более раскрывающим идентифицируемым данным. Можете ли вы придумать другие причины, почему вы могли бы использовать идентификатор кластера вместо других элементов кластера для его идентификации? +✅ Как только ваши данные организованы в кластеры, вы присваиваете им номер кластера, и этот метод может быть полезен для сохранения конфиденциальности набора данных; вместо того чтобы ссылаться на конкретную точку данных, вы можете упоминать её номер кластера. Можете ли вы придумать другие причины, почему вы бы использовали номер кластера, а не другие элементы кластера, чтобы идентифицировать данные? -Углубите свое понимание методов кластеризации в этом [учебном модуле](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Углубите свои знания о методах кластеризации в этом [модуле для обучения](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ## Начало работы с кластеризацией -[Scikit-learn предлагает широкий выбор](https://scikit-learn.org/stable/modules/clustering.html) методов для выполнения кластеризации. Тип, который вы выберете, будет зависеть от вашего случая использования. Согласно документации, каждый метод имеет свои преимущества. Вот упрощенная таблица методов, поддерживаемых Scikit-learn, и их подходящих случаев использования: - -| Название метода | Случай использования | -| :--------------------------- | :------------------------------------------------------------------- | -| K-Means | универсальный, индуктивный | -| Affinity propagation | множество, неравномерные кластеры, индуктивный | -| Mean-shift | множество, неравномерные кластеры, индуктивный | -| Spectral clustering | немного, равномерные кластеры, трансдуктивный | -| Ward hierarchical clustering | множество, ограниченные кластеры, трансдуктивный | -| Agglomerative clustering | множество, ограниченные, неевклидовые расстояния, трансдуктивный | -| DBSCAN | не плоская геометрия, неравномерные кластеры, трансдуктивный | -| OPTICS | не плоская геометрия, неравномерные кластеры с переменной плотностью, трансдуктивный | -| Gaussian mixtures | плоская геометрия, индуктивный | -| BIRCH | большой набор данных с выбросами, индуктивный | - -> 🎓 Как мы создаем кластеры, во многом зависит от того, как мы группируем точки данных в группы. Давайте разберем некоторые термины: +[Scikit-learn предлагает широкий набор](https://scikit-learn.org/stable/modules/clustering.html) методов для выполнения кластеризации. Выбор зависит от вашей задачи. Согласно документации, каждый метод имеет свои преимущества. Вот упрощённая таблица методов, поддерживаемых Scikit-learn, и их соответствующих областей применения: + +| Название метода | Область применения | +| :------------------------- | :-------------------------------------------------------------------- | +| K-Means | универсальное, индуктивное | +| Affinity propagation | много, неравномерные кластеры, индуктивное | +| Mean-shift | много, неравномерные кластеры, индуктивное | +| Spectral clustering | мало, равномерные кластеры, трансдуктивное | +| Ward hierarchical clustering | много, ограниченные кластеры, трансдуктивное | +| Agglomerative clustering | много, ограниченные, неевклидовы расстояния, трансдуктивное | +| DBSCAN | негладкая геометрия, неравномерные кластеры, трансдуктивное | +| OPTICS | негладкая геометрия, неравномерные кластеры с переменной плотностью, трансдуктивное | +| Gaussian mixtures | гладкая геометрия, индуктивное | +| BIRCH | большой набор данных с выбросами, индуктивное | + +> 🎓 То, как мы создаём кластеры, во многом зависит от того, как мы собираем точки данных в группы. Давайте разберём некоторые термины: > -> 🎓 ['Трансдуктивный' vs. 'индуктивный'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['Трансдуктивное' vs. 'индуктивное'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Трансдуктивный вывод основан на наблюдаемых обучающих случаях, которые сопоставляются с конкретными тестовыми случаями. Индуктивный вывод основан на обучающих случаях, которые сопоставляются с общими правилами, которые затем применяются к тестовым случаям. +> Трансдуктивный вывод основан на наблюдаемых обучающих примерах, которые сопоставляются с конкретными тестовыми случаями. Индуктивный вывод основан на обучающих примерах, которые сопоставляются с общими правилами, применяемыми затем к тестовым примерам. > -> Пример: Представьте, что у вас есть набор данных, который частично размечен. Некоторые элементы — это 'пластинки', некоторые — 'CD', а некоторые — пустые. Ваша задача — присвоить метки пустым элементам. Если вы выберете индуктивный подход, вы обучите модель искать 'пластинки' и 'CD' и примените эти метки к немаркированным данным. Этот подход будет испытывать трудности с классификацией элементов, которые на самом деле являются 'кассетами'. Трансдуктивный подход, с другой стороны, более эффективно справляется с неизвестными данными, так как он работает над группировкой похожих элементов вместе, а затем применяет метку к группе. В этом случае кластеры могут отражать 'круглые музыкальные вещи' и 'квадратные музыкальные вещи'. +> Пример: представьте, что у вас есть набор данных, который частично размечен. Некоторые данные — 'пластинки', некоторые — 'CD', а некоторые — без метки. Ваша задача — присвоить метки пустым. Если вы используете индуктивный подход, вы обучаете модель искать 'пластинки' и 'CD' и применяете эти метки к вашим немаркированным данным. Такой подход затруднительно классифицировать то, что на самом деле является 'кассетами'. Трансдуктивный же подход более эффективно обрабатывает неизвестные данные, группируя похожие объекты и присваивая метку группе. В этом случае кластеры могут отражать «круглые музыкальные вещи» и «квадратные музыкальные вещи». > -> 🎓 ['Не плоская' vs. 'плоская' геометрия](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['Негладкая' vs. 'гладкая' геометрия](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Взято из математической терминологии, 'не плоская' vs. 'плоская' геометрия относится к измерению расстояний между точками либо 'плоскими' ([евклидовыми](https://wikipedia.org/wiki/Euclidean_geometry)), либо 'не плоскими' (неевклидовыми) геометрическими методами. +> Терминология происходит из математики: негладкая и гладкая геометрия относится к измерению расстояний между точками либо с помощью «гладких» (евклидовых), либо «негладких» (неевклидовых) геометрических методов. > ->'Плоская' в данном контексте относится к евклидовой геометрии (части которой преподаются как 'плоская' геометрия), а 'не плоская' относится к неевклидовой геометрии. Что геометрия имеет общего с машинным обучением? Ну, как две области, которые основаны на математике, должен быть общий способ измерения расстояний между точками в кластерах, и это можно сделать 'плоским' или 'не плоским' способом, в зависимости от природы данных. [Евклидовы расстояния](https://wikipedia.org/wiki/Euclidean_distance) измеряются как длина отрезка между двумя точками. [Неевклидовы расстояния](https://wikipedia.org/wiki/Non-Euclidean_geometry) измеряются вдоль кривой. Если ваши данные, визуализированные, кажутся не существующими на плоскости, вам может понадобиться использовать специализированный алгоритм для их обработки. +> «Гладкая» здесь означает евклидову геометрию (часть которой изучается как «плоская» геометрия), а негладкая — это неевклидова геометрия. Как это связано с машинным обучением? Поскольку обе области основаны на математике, нужен общий способ измерения расстояния между точками в кластерах, который может быть «гладким» или «негладким» в зависимости от данных. [Евклидовы расстояния](https://wikipedia.org/wiki/Euclidean_distance) измеряются как длина отрезка между двумя точками. [Неевклидовы расстояния](https://wikipedia.org/wiki/Non-Euclidean_geometry) измеряются по кривой. Если визуализированные данные выглядят как не лежащие на плоскости, может потребоваться специализированный алгоритм. > -![Flat vs Nonflat Geometry Infographic](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) +![Инфографика: Гладкая vs. Негладкая геометрия](../../../../translated_images/ru/flat-nonflat.d1c8c6e2a96110c1.webp) > Инфографика от [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Расстояния'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Кластеры определяются их матрицей расстояний, например, расстояниями между точками. Эти расстояния могут измеряться несколькими способами. Евклидовы кластеры определяются средним значением точек и содержат 'центроид' или центральную точку. Расстояния измеряются как расстояние до этого центроида. Неевклидовы расстояния относятся к 'кластроидам', точке, ближайшей к другим точкам. Кластроиды, в свою очередь, могут быть определены различными способами. +> Кластеры определяются своей матрицей расстояний, например расстояниями между точками. Это расстояние можно измерять несколькими способами. Евклидовы кластеры определяются средним значением точек и содержат «центроид» — центральную точку. Расстояния измеряются как расстояния до центроида. Неевклидовы расстояния относятся к «кластроидом», точке, наиболее близкой к другим точкам. Кластроиды могут определяться по-разному. > -> 🎓 ['Ограниченные'](https://wikipedia.org/wiki/Constrained_clustering) +> 🎓 ['Ограниченная' кластеризация](https://wikipedia.org/wiki/Constrained_clustering) > -> [Ограниченная кластеризация](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) вводит 'полу-обучение' в этот метод без учителя. Отношения между точками помечаются как 'нельзя связать' или 'должно быть связано', чтобы некоторые правила были наложены на набор данных. +> [Ограниченная кластеризация](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) добавляет в этот метод элемент «полуобучения». Связи между точками помечаются как «нельзя связывать» или «обязательно связывать», чтобы наложить ограничения на набор данных. > ->Пример: Если алгоритм свободно работает с группой немаркированных или полуразмеченных данных, кластеры, которые он создает, могут быть низкого качества. В приведенном выше примере кластеры могут группировать 'круглые музыкальные вещи', 'квадратные музыкальные вещи', 'треугольные вещи' и 'печенье'. Если задать некоторые ограничения или правила ("элемент должен быть сделан из пластика", "элемент должен быть способен производить музыку"), это может помочь 'ограничить' алгоритм для принятия лучших решений. +> Пример: если алгоритму дать свободу на наборе немаркированных или частично размеченных данных, полученные кластеры могут быть низкого качества. В вышеуказанном примере кластеры могли бы сгруппировать «круглые музыкальные вещи», «квадратные музыкальные вещи», «треугольные вещи» и «печенья». Если ввести ограничения или правила ("предмет должен быть из пластика", "предмет должен быть способен создавать музыку"), алгоритм будет работать лучше. > > 🎓 'Плотность' > -> Данные, которые являются 'шумными', считаются 'плотными'. Расстояния между точками в каждом из его кластеров могут оказаться, при проверке, более или менее плотными, или 'переполненными', и поэтому эти данные нужно анализировать с использованием подходящего метода кластеризации. [Эта статья](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) демонстрирует разницу между использованием кластеризации K-Means и алгоритмов HDBSCAN для изучения шумного набора данных с неравномерной плотностью кластеров. +> «Шумные» данные считаются «плотными». Расстояния между точками в кластерах могут оказаться более или менее плотными, или «переполненными», поэтому для анализа таких данных нужен соответствующий метод кластеризации. [Эта статья](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) демонстрирует различия между использованием K-Means и алгоритмами HDBSCAN для исследования шумных наборов данных с неравномерной плотностью кластеров. ## Алгоритмы кластеризации -Существует более 100 алгоритмов кластеризации, и их использование зависит от природы данных. Давайте обсудим некоторые из основных: +Существует более 100 алгоритмов кластеризации, и их использование зависит от характера данных. Обсудим некоторые из основных: -- **Иерархическая кластеризация**. Если объект классифицируется по его близости к соседнему объекту, а не к более удаленному, кластеры формируются на основе расстояния их членов друг от друга. Иерархическая кластеризация в Scikit-learn является агломеративной. +- **Иерархическая кластеризация**. Если объект классифицируется по близости к соседнему объекту, а не к более удалённому, кластеры формируются на основе расстояний между их членами и другими объектами. Агломеративная кластеризация Scikit-learn является иерархической. - ![Hierarchical clustering Infographic](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Инфографика иерархической кластеризации](../../../../translated_images/ru/hierarchical.bf59403aa43c8c47.webp) > Инфографика от [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Кластеризация по центроиду**. Этот популярный алгоритм требует выбора 'k', или количества кластеров для формирования, после чего алгоритм определяет центральную точку кластера и собирает данные вокруг этой точки. [Кластеризация K-means](https://wikipedia.org/wiki/K-means_clustering) является популярной версией кластеризации по центроиду. Центр определяется ближайшим средним значением, отсюда и название. Квадратное расстояние от кластера минимизируется. +- **Кластеризация по центроиду**. Этот популярный алгоритм требует выбора 'k', то есть числа кластеров, после чего алгоритм определяет центральную точку кластера и собирает данные вокруг неё. [K-means кластеризация](https://wikipedia.org/wiki/K-means_clustering) — популярный вариант кластеризации по центроиду. Центр определяется ближайшим средним, отсюда и название. Квадрат расстояния от кластера минимизируется. - ![Centroid clustering Infographic](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Инфографика кластеризации по центроиду](../../../../translated_images/ru/centroid.097fde836cf6c918.webp) > Инфографика от [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Кластеризация на основе распределения**. Основанная на статистическом моделировании, кластеризация на основе распределения сосредоточена на определении вероятности того, что точка данных принадлежит кластеру, и присваивает ее соответствующим образом. Методы гауссовой смеси относятся к этому типу. +- **Кластеризация на основе распределения**. Основана на статистическом моделировании, где определяют вероятность принадлежности точки данных к кластеру и присваивают её соответственно. К этому типу относятся методы на основе гауссовских смесей. -- **Кластеризация на основе плотности**. Точки данных присваиваются кластерам на основе их плотности или их группировки друг вокруг друга. Точки данных, удаленные от группы, считаются выбросами или шумом. DBSCAN, Mean-shift и OPTICS относятся к этому типу кластеризации. +- **Плотностная кластеризация**. Точки данных назначаются кластерам на основе их плотности или группировки друг вокруг друга. Точки, удалённые от группы, считаются выбросами или шумом. DBSCAN, Mean-shift и OPTICS принадлежат к этому типу кластеризации. -- **Кластеризация на основе сетки**. Для многомерных наборов данных создается сетка, и данные распределяются между ячейками сетки, создавая таким образом кластеры. +- **Сеточная кластеризация**. Для многомерных наборов данных создаётся сетка, и данные делятся между ячейками сетки, создавая кластеры. -## Упражнение — кластеризуйте свои данные +## Упражнение — кластеризация ваших данных -Кластеризация как метод значительно облегчается правильной визуализацией, поэтому давайте начнем с визуализации наших музыкальных данных. Это упражнение поможет нам решить, какой из методов кластеризации наиболее эффективно использовать для природы этих данных. +Кластеризация как техника значительно улучшается с помощью визуализации, поэтому начнём с визуализации наших музыкальных данных. Это упражнение поможет нам решить, какой метод кластеризации наиболее эффективен для этого набора данных. 1. Откройте файл [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) в этой папке. @@ -110,7 +110,7 @@ !pip install seaborn ``` -1. Добавьте данные о песнях из файла [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Загрузите фрейм данных с информацией о песнях. Подготовьтесь к исследованию этих данных, импортировав библиотеки и выведя данные: +1. Добавьте данные песен из [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Загрузите dataframe с некоторой информацией о песнях. Подготовьтесь к изучению данных, импортировав библиотеки и выведя данные: ```python import matplotlib.pyplot as plt @@ -126,17 +126,17 @@ | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Получите информацию о датафрейме, вызвав `info()`: +1. Получите информацию о DataFrame, вызвав `info()`: ```python df.info() ``` - Вывод будет выглядеть следующим образом: + Вывод выглядит так: ```output @@ -164,7 +164,7 @@ memory usage: 66.4+ KB ``` -1. Проверьте наличие пустых значений, вызвав `isnull()` и убедившись, что сумма равна 0: +1. Проверьте наличие пропущенных значений, вызвав `isnull()` и убедившись, что сумма равна 0: ```python df.isnull().sum() @@ -192,7 +192,7 @@ dtype: int64 ``` -1. Опишите данные: +1. Описываем данные: ```python df.describe() @@ -209,11 +209,11 @@ | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Если мы работаем с кластеризацией, методом без учителя, который не требует размеченных данных, зачем мы показываем эти данные с метками? На этапе исследования данных они полезны, но для работы алгоритмов кластеризации они не обязательны. Можно просто убрать заголовки столбцов и ссылаться на данные по номеру столбца. +> 🤔 Если мы работаем с кластеризацией, методом без учителя, который не требует меток, зачем мы показываем эти данные с метками? На этапе изучения данных они полезны, но для работы алгоритмов кластеризации они не нужны. Вы также могли бы просто убрать заголовки столбцов и обращаться к данным по номеру столбца. -Посмотрите на общие значения данных. Обратите внимание, что популярность может быть равна '0', что показывает песни без рейтинга. Давайте вскоре удалим их. +Посмотрите на общие значения данных. Обратите внимание, что популярность может быть '0', что показывает песни без рейтинга. Давайте вскоре удалим их. -1. Используйте столбчатую диаграмму, чтобы узнать самые популярные жанры: +1. Используйте столбчатую диаграмму, чтобы определить самые популярные жанры: ```python import seaborn as sns @@ -225,13 +225,13 @@ plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/ru/popular.9c48d84b3386705f.webp) -✅ Если хотите увидеть больше топовых значений, измените `[:5]` на большее значение или удалите его, чтобы увидеть все. +✅ Если хотите увидеть больше верхних значений, измените `[:5]` на большее число или уберите его, чтобы увидеть все. -Обратите внимание, что если топовый жанр описан как 'Missing', это означает, что Spotify не классифицировал его, поэтому давайте удалим его. +Обратите внимание, что если топ-жанр описан как 'Missing', это значит, что Spotify не классифицировал его, поэтому избавимся от него. -1. Удалите отсутствующие данные, отфильтровав их: +1. Удалите пропущенные данные, отфильтровав их ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -244,9 +244,9 @@ Теперь проверьте жанры снова: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/ru/all-genres.1d56ef06cefbfcd6.webp) -1. Три топовых жанра явно доминируют в этом наборе данных. Сосредоточимся на `afro dancehall`, `afropop` и `nigerian pop`, дополнительно отфильтруем набор данных, чтобы удалить все с популярностью 0 (что означает, что они не были классифицированы по популярности в наборе данных и могут считаться шумом для наших целей): +1. Три жанра доминируют в этом наборе данных. Сосредоточимся на `afro dancehall`, `afropop` и `nigerian pop`, дополнительно отфильтруем данные, удалив все с нулевой популярностью (то есть песни, не классифицированные по популярности, которые можно считать шумом для наших целей): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +258,7 @@ plt.title('Top genres',color = 'blue') ``` -1. Проведите быстрый тест, чтобы увидеть, есть ли сильная корреляция данных: +1. Проведите быстрый тест, чтобы проверить, есть ли сильная корреляция в данных: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +266,21 @@ sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/ru/correlation.a9356bb798f5eea5.webp) - Единственная сильная корреляция — между `energy` и `loudness`, что неудивительно, учитывая, что громкая музыка обычно довольно энергична. В остальном корреляции относительно слабые. Будет интересно посмотреть, что алгоритм кластеризации сможет сделать с этими данными. + Единственная сильная корреляция — между `energy` и `loudness`, что неудивительно, учитывая, что громкая музыка обычно довольно энергична. В остальном корреляции относительно слабы. Интересно будет посмотреть, что алгоритм кластеризации сможет выявить в этих данных. - > 🎓 Помните, что корреляция не означает причинно-следственную связь! У нас есть доказательства корреляции, но нет доказательств причинности. [Забавный сайт](https://tylervigen.com/spurious-correlations) содержит визуализации, которые подчеркивают этот момент. + > 🎓 Обратите внимание, что корреляция не означает причинно-следственную связь! У нас есть доказательства корреляции, но нет доказательств причинности. [Забавный сайт](https://tylervigen.com/spurious-correlations) демонстрирует это визуально. -Есть ли в этом наборе данных сходство между популярностью песни и её танцевальностью? FacetGrid показывает концентрические круги, которые совпадают, независимо от жанра. Может быть, вкусы нигерийцев сходятся на определённом уровне танцевальности для этого жанра? +Есть ли в этом наборе данных сходство между воспринимаемой популярностью и танцевальностью песни? FacetGrid показывает концентрические круги, которые совпадают независимо от жанра. Возможно, вкусы в Нигерии сходятся на определённом уровне танцевальности для этого жанра? -✅ Попробуйте разные точки данных (energy, loudness, speechiness) и больше или другие музыкальные жанры. Что вы можете обнаружить? Посмотрите таблицу `df.describe()`, чтобы увидеть общий разброс точек данных. +✅ Попробуйте разные точки данных (energy, loudness, speechiness) и больше или другие музыкальные жанры. Что можно обнаружить? Посмотрите таблицу `df.describe()`, чтобы увидеть общие разбросы данных. -### Упражнение - распределение данных +### Упражнение — распределение данных -Сильно ли отличаются эти три жанра в восприятии их танцевальности, основываясь на их популярности? +Значимо ли различаются эти три жанра по восприятию их танцевальности с учётом популярности? -1. Исследуйте распределение данных по популярности и танцевальности для наших трёх топовых жанров вдоль заданных осей x и y. +1. Исследуйте распределение данных по популярности и танцевальности для трёх топ-жанров вдоль осей x и y. ```python sns.set_theme(style="ticks") @@ -292,15 +292,15 @@ ) ``` - Вы можете обнаружить концентрические круги вокруг общей точки сходства, показывающие распределение точек. + Можно обнаружить концентрические круги вокруг общей точки сходства, показывающие распределение точек. - > 🎓 Обратите внимание, что в этом примере используется график KDE (оценка плотности ядра), который представляет данные с помощью непрерывной кривой плотности вероятности. Это позволяет интерпретировать данные при работе с несколькими распределениями. + > 🎓 Обратите внимание, что в этом примере используется график KDE (оценка ядерной плотности), который представляет данные с помощью непрерывной кривой вероятностной плотности. Это позволяет интерпретировать данные при работе с несколькими распределениями. - В целом, три жанра примерно совпадают по популярности и танцевальности. Определение кластеров в этих слабо связанных данных будет сложной задачей: + В целом три жанра слабо совпадают по популярности и танцевальности. Определение кластеров в таких слабо согласованных данных будет задачей: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/ru/distribution.9be11df42356ca95.webp) -1. Создайте диаграмму рассеяния: +1. Постройте диаграмму рассеяния: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,25 +308,25 @@ .add_legend() ``` - Диаграмма рассеяния по тем же осям показывает схожую картину сходства. + Диаграмма рассеяния по тем же осям показывает похожий шаблон сходства - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/ru/facetgrid.9b2e65ce707eba1f.webp) -В целом, для кластеризации можно использовать диаграммы рассеяния, чтобы показать кластеры данных, поэтому освоение этого типа визуализации очень полезно. В следующем уроке мы возьмём эти отфильтрованные данные и используем кластеризацию методом k-средних, чтобы обнаружить группы в этих данных, которые пересекаются интересным образом. +В целом, для кластеризации можно использовать диаграммы рассеяния для визуализации групп данных, поэтому освоение этого типа визуализаций очень полезно. В следующем уроке мы возьмём отфильтрованные данные и применим кластеризацию методом k-средних, чтобы найти группы, которые пересекаются и интересным образом связаны. --- -## 🚀Задание +## 🚀Вызов -В рамках подготовки к следующему уроку составьте таблицу о различных алгоритмах кластеризации, которые вы можете изучить и использовать в производственной среде. Какие проблемы пытается решить кластеризация? +В рамках подготовки к следующему уроку составьте схему различных алгоритмов кластеризации, которые вы можете применить в производственной среде. Какие задачи решает кластеризация? -## [Викторина после лекции](https://ff-quizzes.netlify.app/en/ml/) +## [Тест после лекции](https://ff-quizzes.netlify.app/en/ml/) -## Обзор и самостоятельное изучение +## Обзор и самообучение -Перед применением алгоритмов кластеризации, как мы узнали, важно понять природу вашего набора данных. Подробнее об этом читайте [здесь](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Прежде чем применять алгоритмы кластеризации, как мы узнали, полезно понять природу вашего набора данных. Подробнее по этой теме можно почитать [здесь](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Эта полезная статья](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) рассказывает о различных способах работы алгоритмов кластеризации с учётом различных форм данных. +[Эта полезная статья](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) подробно объясняет, как по-разному ведут себя разные алгоритмы кластеризации в зависимости от формы данных. ## Задание @@ -334,5 +334,7 @@ --- -**Отказ от ответственности**: -Этот документ был переведен с помощью сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода. \ No newline at end of file + +**Отказ от ответственности**: +Этот документ был переведен с использованием сервиса машинного перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия по обеспечению точности, имейте в виду, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется обратиться к профессиональному человеческому переводу. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования этого перевода. + \ No newline at end of file