You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
IoT-For-Beginners/translations/ar/6-consumer/lessons/3-spoken-feedback
co-op-translator[bot] 7b6699135a
🌐 Update translations via Co-op Translator (#544)
4 weeks ago
..
README.md 🌐 Update translations via Co-op Translator (#544) 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator (#544) 4 weeks ago
pi-text-to-speech.md 🌐 Update translations via Co-op Translator (#544) 4 weeks ago
single-board-computer-set-timer.md 🌐 Update translations via Co-op Translator (#544) 4 weeks ago
virtual-device-text-to-speech.md 🌐 Update translations via Co-op Translator (#544) 4 weeks ago
wio-terminal-set-timer.md 🌐 Update translations via Co-op Translator (#544) 4 weeks ago
wio-terminal-text-to-speech.md 🌐 Update translations via Co-op Translator (#544) 4 weeks ago

README.md

ضبط مؤقت وتقديم ملاحظات صوتية

نظرة عامة على هذا الدرس في شكل رسم تخطيطي

رسم تخطيطي بواسطة نيتيا ناراسيمهان. انقر على الصورة للحصول على نسخة أكبر.

اختبار ما قبل المحاضرة

اختبار ما قبل المحاضرة

المقدمة

المساعدات الذكية ليست أجهزة اتصال أحادية الاتجاه. تتحدث إليها، وتستجيب لك:

"أليكسا، اضبط مؤقت لمدة 3 دقائق"

"حسنًا، تم ضبط المؤقت لمدة 3 دقائق"

في الدرسين الأخيرين، تعلمت كيفية تحويل الكلام إلى نص، ثم استخراج طلب ضبط المؤقت من ذلك النص. في هذا الدرس، ستتعلم كيفية ضبط المؤقت على جهاز إنترنت الأشياء، والرد على المستخدم بكلمات منطوقة تؤكد ضبط المؤقت، وتنبيهه عند انتهاء المؤقت.

في هذا الدرس سنتناول:

تحويل النص إلى كلام

تحويل النص إلى كلام، كما يشير الاسم، هو عملية تحويل النص إلى صوت يحتوي على الكلمات ككلام منطوق. المبدأ الأساسي هو تقسيم الكلمات في النص إلى أصواتها المكونة (المعروفة بالفونيمات)، وتجميع الصوت لهذه الأصوات، إما باستخدام تسجيلات صوتية مسبقة أو باستخدام صوت يتم إنشاؤه بواسطة نماذج الذكاء الاصطناعي.

المراحل الثلاث لأنظمة تحويل النص إلى كلام النموذجية

عادةً ما تحتوي أنظمة تحويل النص إلى كلام على 3 مراحل:

  • تحليل النص
  • التحليل اللغوي
  • توليد الموجة الصوتية

تحليل النص

يتضمن تحليل النص أخذ النص المقدم وتحويله إلى كلمات يمكن استخدامها لتوليد الكلام. على سبيل المثال، إذا قمت بتحويل "Hello world"، فلا حاجة لتحليل النص، يمكن تحويل الكلمتين مباشرة إلى كلام. إذا كان لديك "1234"، فقد تحتاج إلى تحويله إلى الكلمات "ألف ومئتان وأربعة وثلاثون" أو "واحد، اثنان، ثلاثة، أربعة" حسب السياق. على سبيل المثال، "لدي 1234 تفاحة"، سيكون "ألف ومئتان وأربعة وثلاثون"، ولكن "الطفل عدّ 1234"، سيكون "واحد، اثنان، ثلاثة، أربعة".

الكلمات التي يتم إنشاؤها تختلف ليس فقط حسب اللغة، ولكن حسب المنطقة التي تتحدث تلك اللغة. على سبيل المثال، في الإنجليزية الأمريكية، 120 سيكون "One hundred twenty"، وفي الإنجليزية البريطانية سيكون "One hundred and twenty"، مع استخدام "and" بعد المئات.

بعض الأمثلة الأخرى التي تتطلب تحليل النص تشمل "in" كاختصار لـ inch، و"st" كاختصار لـ saint وstreet. هل يمكنك التفكير في أمثلة أخرى في لغتك لكلمات غامضة بدون سياق؟

بمجرد تحديد الكلمات، يتم إرسالها للتحليل اللغوي.

التحليل اللغوي

يقوم التحليل اللغوي بتقسيم الكلمات إلى فونيمات. الفونيمات تعتمد ليس فقط على الحروف المستخدمة، ولكن أيضًا على الحروف الأخرى في الكلمة. على سبيل المثال، في الإنجليزية، الصوت 'a' في 'car' و'care' مختلف. تحتوي اللغة الإنجليزية على 44 فونيم مختلف للحروف الـ26 في الأبجدية، بعضها مشترك بين حروف مختلفة، مثل الفونيم نفسه المستخدم في بداية 'circle' و'serpent'.

قم ببعض البحث: ما هي الفونيمات في لغتك؟

بمجرد تحويل الكلمات إلى فونيمات، تحتاج هذه الفونيمات إلى بيانات إضافية لدعم التنغيم، مثل تعديل النغمة أو المدة حسب السياق. على سبيل المثال، في الإنجليزية يمكن استخدام زيادة النغمة لتحويل الجملة إلى سؤال، حيث تشير زيادة النغمة في الكلمة الأخيرة إلى سؤال.

على سبيل المثال - الجملة "You have an apple" هي عبارة تشير إلى أنك تمتلك تفاحة. إذا ارتفعت النغمة في النهاية، وزادت للكلمة "apple"، تصبح السؤال "You have an apple?"، تسأل إذا كنت تمتلك تفاحة. يحتاج التحليل اللغوي إلى استخدام علامة الاستفهام في النهاية لتحديد زيادة النغمة.

بمجرد إنشاء الفونيمات، يمكن إرسالها لتوليد الموجة الصوتية لإنتاج الصوت.

توليد الموجة الصوتية

كانت أنظمة تحويل النص إلى كلام الإلكترونية الأولى تستخدم تسجيلات صوتية فردية لكل فونيم، مما يؤدي إلى أصوات رتيبة تشبه الروبوت. يقوم التحليل اللغوي بإنتاج فونيمات، ويتم تحميلها من قاعدة بيانات الأصوات وتجميعها لإنشاء الصوت.

قم ببعض البحث: ابحث عن تسجيلات صوتية من أنظمة تحويل الكلام المبكرة. قارنها بأنظمة تحويل الكلام الحديثة، مثل تلك المستخدمة في المساعدات الذكية.

تستخدم أنظمة توليد الموجة الصوتية الحديثة نماذج تعلم آلي مبنية باستخدام التعلم العميق (شبكات عصبية كبيرة تعمل بطريقة مشابهة للخلايا العصبية في الدماغ) لإنتاج أصوات طبيعية يمكن أن تكون غير قابلة للتمييز عن البشر.

💁 يمكن إعادة تدريب بعض هذه النماذج باستخدام التعلم الانتقالي لتبدو مثل أشخاص حقيقيين. هذا يعني أن استخدام الصوت كنظام أمني، وهو ما تحاول البنوك القيام به بشكل متزايد، لم يعد فكرة جيدة حيث يمكن لأي شخص لديه تسجيل لبضع دقائق من صوتك أن ينتحل شخصيتك.

يتم تدريب هذه النماذج الكبيرة لتجمع بين جميع الخطوات الثلاث في أنظمة تحويل الكلام من البداية إلى النهاية.

ضبط المؤقت

لضبط المؤقت، يحتاج جهاز إنترنت الأشياء الخاص بك إلى استدعاء نقطة النهاية REST التي أنشأتها باستخدام الكود الخادم، ثم استخدام عدد الثواني الناتج لضبط المؤقت.

مهمة - استدعاء الوظيفة الخادمة للحصول على وقت المؤقت

اتبع الدليل المناسب لاستدعاء نقطة النهاية REST من جهاز إنترنت الأشياء الخاص بك وضبط مؤقت للوقت المطلوب:

تحويل النص إلى كلام

يمكن استخدام نفس خدمة الكلام التي استخدمتها لتحويل الكلام إلى نص لتحويل النص مرة أخرى إلى كلام، ويمكن تشغيله عبر مكبر صوت على جهاز إنترنت الأشياء الخاص بك. يتم إرسال النص المراد تحويله إلى خدمة الكلام، مع نوع الصوت المطلوب (مثل معدل العينة)، ويتم إرجاع بيانات ثنائية تحتوي على الصوت.

عند إرسال هذا الطلب، يتم إرساله باستخدام لغة ترميز تحويل الكلام (SSML)، وهي لغة ترميز تعتمد على XML لتطبيقات تحويل الكلام. تحدد هذه اللغة ليس فقط النص المراد تحويله، ولكن لغة النص، والصوت المستخدم، ويمكن حتى استخدامها لتحديد السرعة، والحجم، والنغمة لبعض أو كل الكلمات في النص.

على سبيل المثال، هذا SSML يحدد طلبًا لتحويل النص "تم ضبط مؤقتك لمدة 3 دقائق و5 ثوانٍ" إلى كلام باستخدام صوت إنجليزي بريطاني يسمى en-GB-MiaNeural

<speak version='1.0' xml:lang='en-GB'>
    <voice xml:lang='en-GB' name='en-GB-MiaNeural'>
        Your 3 minute 5 second time has been set
    </voice>
</speak>

💁 تحتوي معظم أنظمة تحويل النص إلى كلام على أصوات متعددة للغات مختلفة، مع لهجات ذات صلة مثل صوت إنجليزي بريطاني بلكنة إنجليزية وصوت إنجليزي نيوزيلندي بلكنة نيوزيلندية.

مهمة - تحويل النص إلى كلام

اعمل من خلال الدليل المناسب لتحويل النص إلى كلام باستخدام جهاز إنترنت الأشياء الخاص بك:


🚀 تحدي

تحتوي SSML على طرق لتغيير كيفية نطق الكلمات، مثل إضافة التأكيد على كلمات معينة، إضافة توقفات، أو تغيير النغمة. جرب بعض هذه الطرق، وأرسل SSML مختلفًا من جهاز إنترنت الأشياء الخاص بك وقارن النتائج. يمكنك قراءة المزيد عن SSML، بما في ذلك كيفية تغيير طريقة نطق الكلمات في مواصفات لغة ترميز تحويل الكلام (SSML) الإصدار 1.1 من اتحاد شبكة الويب العالمية.

اختبار ما بعد المحاضرة

اختبار ما بعد المحاضرة

المراجعة والدراسة الذاتية

الواجب

إلغاء المؤقت


إخلاء المسؤولية:
تم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.