|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago |
README.md
تقنيات تعلم الآلة
عملية بناء واستخدام وصيانة نماذج تعلم الآلة والبيانات التي تستخدمها تختلف بشكل كبير عن العديد من سير العمل التطويرية الأخرى. في هذا الدرس، سنزيل الغموض عن هذه العملية، ونوضح التقنيات الرئيسية التي تحتاج إلى معرفتها. ستتعلم:
- فهم العمليات التي تقوم عليها تعلم الآلة على مستوى عالٍ.
- استكشاف المفاهيم الأساسية مثل "النماذج"، "التنبؤات"، و"بيانات التدريب".
اختبار ما قبل المحاضرة
🎥 انقر على الصورة أعلاه لمشاهدة فيديو قصير يشرح هذا الدرس.
المقدمة
على مستوى عالٍ، تتكون عملية إنشاء عمليات تعلم الآلة (ML) من عدة خطوات:
- تحديد السؤال. تبدأ معظم عمليات تعلم الآلة بطرح سؤال لا يمكن الإجابة عليه ببرنامج شرطي بسيط أو محرك قائم على القواعد. غالبًا ما تدور هذه الأسئلة حول التنبؤات بناءً على مجموعة من البيانات.
- جمع وتحضير البيانات. للإجابة على سؤالك، تحتاج إلى بيانات. جودة البيانات وأحيانًا كميتها ستحدد مدى قدرتك على الإجابة على سؤالك الأولي. يعد تصور البيانات جانبًا مهمًا في هذه المرحلة. تتضمن هذه المرحلة أيضًا تقسيم البيانات إلى مجموعة تدريب واختبار لبناء نموذج.
- اختيار طريقة التدريب. بناءً على سؤالك وطبيعة بياناتك، تحتاج إلى اختيار الطريقة التي تريد بها تدريب نموذج يعكس بياناتك بدقة ويقدم تنبؤات دقيقة. هذه هي المرحلة التي تتطلب خبرة محددة وغالبًا قدرًا كبيرًا من التجريب.
- تدريب النموذج. باستخدام بيانات التدريب الخاصة بك، ستستخدم خوارزميات مختلفة لتدريب نموذج للتعرف على الأنماط في البيانات. قد يعتمد النموذج على أوزان داخلية يمكن تعديلها لتفضيل أجزاء معينة من البيانات على الأخرى لبناء نموذج أفضل.
- تقييم النموذج. تستخدم بيانات لم يسبق للنموذج رؤيتها (بيانات الاختبار) من المجموعة التي جمعتها لمعرفة أداء النموذج.
- ضبط المعلمات. بناءً على أداء النموذج، يمكنك إعادة العملية باستخدام معلمات أو متغيرات مختلفة تتحكم في سلوك الخوارزميات المستخدمة لتدريب النموذج.
- التنبؤ. استخدم مدخلات جديدة لاختبار دقة النموذج.
ما السؤال الذي يجب طرحه
تتميز أجهزة الكمبيوتر بمهارتها في اكتشاف الأنماط المخفية في البيانات. هذه الفائدة مفيدة جدًا للباحثين الذين لديهم أسئلة حول مجال معين لا يمكن الإجابة عليها بسهولة من خلال إنشاء محرك قواعد شرطي. على سبيل المثال، قد يتمكن عالم بيانات من إنشاء قواعد يدوية حول معدل الوفيات بين المدخنين وغير المدخنين.
ولكن عندما يتم إدخال العديد من المتغيرات الأخرى في المعادلة، قد يكون نموذج تعلم الآلة أكثر كفاءة في التنبؤ بمعدلات الوفيات المستقبلية بناءً على التاريخ الصحي السابق. مثال أكثر تفاؤلاً قد يكون التنبؤ بالطقس لشهر أبريل في موقع معين بناءً على بيانات تشمل خطوط العرض والطول، تغير المناخ، القرب من المحيط، أنماط التيار النفاث، والمزيد.
✅ يقدم هذا العرض التقديمي نظرة تاريخية على استخدام تعلم الآلة في تحليل الطقس.
المهام قبل البناء
قبل البدء في بناء النموذج الخاص بك، هناك عدة مهام تحتاج إلى إكمالها. لاختبار سؤالك وتشكيل فرضية بناءً على تنبؤات النموذج، تحتاج إلى تحديد وتكوين عدة عناصر.
البيانات
للإجابة على سؤالك بأي درجة من اليقين، تحتاج إلى كمية جيدة من البيانات من النوع الصحيح. هناك شيئان تحتاج إلى القيام بهما في هذه المرحلة:
- جمع البيانات. مع الأخذ في الاعتبار الدرس السابق حول الإنصاف في تحليل البيانات، اجمع بياناتك بعناية. كن على دراية بمصادر هذه البيانات، وأي تحيزات متأصلة قد تكون لديها، ووثق أصلها.
- تحضير البيانات. هناك عدة خطوات في عملية تحضير البيانات. قد تحتاج إلى تجميع البيانات وتطبيعها إذا كانت تأتي من مصادر متنوعة. يمكنك تحسين جودة وكمية البيانات من خلال طرق مختلفة مثل تحويل النصوص إلى أرقام (كما نفعل في التجميع). قد تقوم أيضًا بإنشاء بيانات جديدة بناءً على الأصل (كما نفعل في التصنيف). يمكنك تنظيف وتحرير البيانات (كما سنفعل قبل درس تطبيق الويب). وأخيرًا، قد تحتاج أيضًا إلى عشوائية البيانات وخلطها، بناءً على تقنيات التدريب الخاصة بك.
✅ بعد جمع ومعالجة بياناتك، خذ لحظة لترى ما إذا كان شكلها سيسمح لك بمعالجة سؤالك المقصود. قد تكون البيانات غير مناسبة لمهمتك المحددة، كما نكتشف في دروس التجميع!
الميزات والهدف
الميزة هي خاصية قابلة للقياس في بياناتك. في العديد من مجموعات البيانات، يتم التعبير عنها كعنوان عمود مثل "التاريخ"، "الحجم"، أو "اللون". تمثل متغيرات الميزات، التي يتم تمثيلها عادةً بـ X
في الكود، المتغيرات المدخلة التي سيتم استخدامها لتدريب النموذج.
الهدف هو الشيء الذي تحاول التنبؤ به. يتم تمثيل الهدف عادةً بـ y
في الكود، ويمثل الإجابة على السؤال الذي تحاول طرحه على بياناتك: في ديسمبر، ما هو لون القرع الذي سيكون الأرخص؟ في سان فرانسيسكو، ما هي الأحياء التي ستحتوي على أفضل أسعار العقارات؟ أحيانًا يُشار إلى الهدف أيضًا كخاصية التسمية.
اختيار متغير الميزة الخاص بك
🎓 اختيار الميزات واستخراج الميزات كيف تعرف أي متغير تختار عند بناء نموذج؟ ربما ستخوض عملية اختيار الميزات أو استخراج الميزات لاختيار المتغيرات المناسبة للنموذج الأكثر كفاءة. ومع ذلك، فهما ليسا نفس الشيء: "استخراج الميزات ينشئ ميزات جديدة من وظائف الميزات الأصلية، بينما اختيار الميزات يعيد مجموعة فرعية من الميزات." (المصدر)
تصور بياناتك
جانب مهم من أدوات عالم البيانات هو القدرة على تصور البيانات باستخدام العديد من المكتبات الممتازة مثل Seaborn أو MatPlotLib. قد يسمح لك تمثيل بياناتك بصريًا بالكشف عن ارتباطات مخفية يمكنك الاستفادة منها. قد تساعدك التصورات أيضًا في الكشف عن التحيز أو البيانات غير المتوازنة (كما نكتشف في التصنيف).
تقسيم مجموعة البيانات الخاصة بك
قبل التدريب، تحتاج إلى تقسيم مجموعة البيانات الخاصة بك إلى جزأين أو أكثر بأحجام غير متساوية تمثل البيانات بشكل جيد.
- التدريب. هذا الجزء من مجموعة البيانات يتم استخدامه لتدريب النموذج. يشكل هذا الجزء الغالبية من مجموعة البيانات الأصلية.
- الاختبار. مجموعة بيانات الاختبار هي مجموعة مستقلة من البيانات، غالبًا ما يتم جمعها من البيانات الأصلية، والتي تستخدمها لتأكيد أداء النموذج المبني.
- التحقق. مجموعة التحقق هي مجموعة أصغر مستقلة من الأمثلة التي تستخدمها لضبط معلمات النموذج أو هيكله لتحسين النموذج. بناءً على حجم بياناتك والسؤال الذي تطرحه، قد لا تحتاج إلى بناء هذه المجموعة الثالثة (كما نلاحظ في التنبؤ بالسلاسل الزمنية).
بناء نموذج
باستخدام بيانات التدريب الخاصة بك، هدفك هو بناء نموذج، أو تمثيل إحصائي لبياناتك، باستخدام خوارزميات مختلفة لتدريبه. تدريب النموذج يعرضه للبيانات ويسمح له بافتراض الأنماط التي يكتشفها، يتحقق منها، ويقبلها أو يرفضها.
تحديد طريقة التدريب
بناءً على سؤالك وطبيعة بياناتك، ستختار طريقة لتدريبها. من خلال استعراض وثائق Scikit-learn - التي نستخدمها في هذا الدورة - يمكنك استكشاف العديد من الطرق لتدريب نموذج. بناءً على تجربتك، قد تضطر إلى تجربة عدة طرق مختلفة لبناء النموذج الأفضل. من المحتمل أن تمر بعملية يقوم فيها علماء البيانات بتقييم أداء النموذج من خلال تزويده ببيانات غير مرئية، والتحقق من الدقة، والتحيز، والقضايا الأخرى التي تقلل من الجودة، واختيار طريقة التدريب الأنسب للمهمة المطروحة.
تدريب النموذج
مسلحًا ببيانات التدريب الخاصة بك، أنت جاهز لـ "تطبيقها" لإنشاء نموذج. ستلاحظ أنه في العديد من مكتبات تعلم الآلة ستجد الكود 'model.fit' - في هذا الوقت تقوم بإرسال متغير الميزة الخاص بك كمصفوفة من القيم (عادةً 'X') ومتغير الهدف (عادةً 'y').
تقييم النموذج
بمجرد اكتمال عملية التدريب (قد تستغرق العديد من التكرارات، أو "epochs"، لتدريب نموذج كبير)، ستتمكن من تقييم جودة النموذج باستخدام بيانات الاختبار لقياس أدائه. هذه البيانات هي جزء فرعي من البيانات الأصلية التي لم يقم النموذج بتحليلها مسبقًا. يمكنك طباعة جدول من المقاييس حول جودة النموذج.
🎓 تطبيق النموذج
في سياق تعلم الآلة، يشير تطبيق النموذج إلى دقة الوظيفة الأساسية للنموذج أثناء محاولته تحليل البيانات التي ليست مألوفة له.
🎓 التطبيق الناقص و التطبيق الزائد هما مشكلتان شائعتان تقللان من جودة النموذج، حيث يتناسب النموذج إما بشكل غير كافٍ أو بشكل زائد. يؤدي ذلك إلى جعل النموذج يقدم تنبؤات إما متطابقة جدًا أو غير متطابقة مع بيانات التدريب الخاصة به. النموذج الزائد يتنبأ ببيانات التدريب بشكل جيد جدًا لأنه تعلم تفاصيل البيانات وضوضائها بشكل زائد. النموذج الناقص ليس دقيقًا لأنه لا يمكنه تحليل بيانات التدريب الخاصة به أو البيانات التي لم "يرها" بعد بدقة.
رسم توضيحي بواسطة Jen Looper
ضبط المعلمات
بمجرد اكتمال التدريب الأولي، راقب جودة النموذج وفكر في تحسينه عن طريق تعديل "المعلمات الفائقة". اقرأ المزيد عن العملية في الوثائق.
التنبؤ
هذه هي اللحظة التي يمكنك فيها استخدام بيانات جديدة تمامًا لاختبار دقة النموذج الخاص بك. في إعداد تعلم الآلة "التطبيقي"، حيث تقوم ببناء أصول ويب لاستخدام النموذج في الإنتاج، قد تتضمن هذه العملية جمع مدخلات المستخدم (مثل الضغط على زر) لتعيين متغير وإرساله إلى النموذج للاستدلال أو التقييم.
في هذه الدروس، ستكتشف كيفية استخدام هذه الخطوات للتحضير، البناء، الاختبار، التقييم، والتنبؤ - جميع إيماءات عالم البيانات والمزيد، أثناء تقدمك في رحلتك لتصبح مهندس تعلم الآلة "متكامل المهارات".
🚀تحدي
ارسم مخططًا انسيابيًا يعكس خطوات ممارس تعلم الآلة. أين ترى نفسك الآن في العملية؟ أين تتوقع أن تجد صعوبة؟ ما الذي يبدو سهلاً بالنسبة لك؟
اختبار ما بعد المحاضرة
المراجعة والدراسة الذاتية
ابحث عبر الإنترنت عن مقابلات مع علماء بيانات يناقشون عملهم اليومي. هنا واحدة.
الواجب
إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.