# ٹائمر سیٹ کریں اور زبانی فیڈبیک فراہم کریں ![اس سبق کا خاکہ](../../../../../translated_images/lesson-23.f38483e1d4df4828990d3f02d60e46c978b075d384ae7cb4f7bab738e107c850.ur.jpg) > خاکہ [نیتیا نرسمہن](https://github.com/nitya) کی جانب سے۔ تصویر پر کلک کریں تاکہ بڑا ورژن دیکھ سکیں۔ ## لیکچر سے پہلے کا کوئز [لیکچر سے پہلے کا کوئز](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/45) ## تعارف سمارٹ اسسٹنٹس یک طرفہ مواصلاتی آلات نہیں ہیں۔ آپ ان سے بات کرتے ہیں، اور وہ جواب دیتے ہیں: "الیکسا، 3 منٹ کا ٹائمر سیٹ کرو" "ٹھیک ہے، آپ کا ٹائمر 3 منٹ کے لیے سیٹ کر دیا گیا ہے" پچھلے دو اسباق میں آپ نے سیکھا کہ آواز کو متن میں کیسے تبدیل کریں، اور پھر اس متن سے ٹائمر سیٹ کرنے کی درخواست نکالیں۔ اس سبق میں آپ سیکھیں گے کہ IoT ڈیوائس پر ٹائمر کیسے سیٹ کریں، صارف کو زبانی الفاظ کے ذریعے ان کے ٹائمر کی تصدیق کریں، اور انہیں ٹائمر ختم ہونے پر مطلع کریں۔ اس سبق میں ہم درج ذیل موضوعات کا احاطہ کریں گے: * [متن سے آواز](../../../../../6-consumer/lessons/3-spoken-feedback) * [ٹائمر سیٹ کریں](../../../../../6-consumer/lessons/3-spoken-feedback) * [متن کو آواز میں تبدیل کریں](../../../../../6-consumer/lessons/3-spoken-feedback) ## متن سے آواز متن سے آواز، جیسا کہ نام سے ظاہر ہے، وہ عمل ہے جس میں متن کو آڈیو میں تبدیل کیا جاتا ہے جو الفاظ کو بولے گئے انداز میں پیش کرتا ہے۔ بنیادی اصول یہ ہے کہ متن کے الفاظ کو ان کے بنیادی آوازوں (جنہیں فونیمز کہا جاتا ہے) میں تقسیم کیا جائے، اور ان آوازوں کے لیے آڈیو کو جوڑا جائے، چاہے وہ پہلے سے ریکارڈ شدہ آڈیو ہو یا AI ماڈلز کے ذریعے تیار کردہ آڈیو۔ ![عام متن سے آواز کے نظام کے تین مراحل](../../../../../translated_images/tts-overview.193843cf3f5ee09f8b3371a9fdaeb0f116698a07ca69daaa77158da4800e5453.ur.png) متن سے آواز کے نظام عام طور پر تین مراحل پر مشتمل ہوتے ہیں: * متن کا تجزیہ * لسانی تجزیہ * ویو فارم جنریشن ### متن کا تجزیہ متن کا تجزیہ فراہم کردہ متن کو لے کر ایسے الفاظ میں تبدیل کرتا ہے جنہیں آواز میں تبدیل کیا جا سکتا ہے۔ مثال کے طور پر، اگر آپ "ہیلو ورلڈ" کو تبدیل کریں، تو کوئی متن کا تجزیہ درکار نہیں ہوگا، یہ دو الفاظ براہ راست آواز میں تبدیل کیے جا سکتے ہیں۔ لیکن اگر آپ کے پاس "1234" ہو، تو اسے سیاق و سباق کے مطابق "ایک ہزار دو سو چونتیس" یا "ایک، دو، تین، چار" میں تبدیل کرنا پڑے گا۔ مثال کے طور پر "میرے پاس 1234 سیب ہیں" میں یہ "ایک ہزار دو سو چونتیس" ہوگا، لیکن "بچے نے 1234 گنے" میں یہ "ایک، دو، تین، چار" ہوگا۔ الفاظ نہ صرف زبان کے لحاظ سے بلکہ اس زبان کے مقام کے لحاظ سے بھی مختلف ہوتے ہیں۔ مثال کے طور پر، امریکی انگریزی میں 120 کو "ایک سو بیس" کہا جاتا ہے، جبکہ برطانوی انگریزی میں اسے "ایک سو اور بیس" کہا جاتا ہے، جہاں "اور" کا استعمال ہوتا ہے۔ ✅ کچھ دیگر مثالیں جو متن کے تجزیے کی ضرورت ہوتی ہیں، جیسے "in" انچ کے مختصر نام کے طور پر، اور "st" سینٹ یا اسٹریٹ کے مختصر نام کے طور پر۔ کیا آپ اپنی زبان میں ایسے الفاظ کے بارے میں سوچ سکتے ہیں جو سیاق و سباق کے بغیر مبہم ہوں؟ ایک بار جب الفاظ کی وضاحت ہو جائے، انہیں لسانی تجزیے کے لیے بھیجا جاتا ہے۔ ### لسانی تجزیہ لسانی تجزیہ الفاظ کو فونیمز میں تقسیم کرتا ہے۔ فونیمز صرف استعمال شدہ حروف پر مبنی نہیں ہوتے بلکہ لفظ میں موجود دیگر حروف پر بھی منحصر ہوتے ہیں۔ مثال کے طور پر، انگریزی میں 'a' کی آواز 'car' اور 'care' میں مختلف ہوتی ہے۔ انگریزی زبان میں 26 حروف کے لیے 44 مختلف فونیمز ہیں، کچھ مختلف حروف کے ذریعے مشترک ہوتے ہیں، جیسے 'circle' اور 'serpent' کے آغاز میں ایک ہی فونیم استعمال ہوتا ہے۔ ✅ تحقیق کریں: آپ کی زبان کے فونیمز کیا ہیں؟ ایک بار جب الفاظ کو فونیمز میں تبدیل کر دیا جائے، ان فونیمز کو اضافی ڈیٹا کی ضرورت ہوتی ہے تاکہ سیاق و سباق کے مطابق لہجہ، آواز کی مدت، اور دیگر پہلوؤں کو ایڈجسٹ کیا جا سکے۔ مثال کے طور پر، انگریزی میں پچ بڑھانے سے جملے کو سوال میں تبدیل کیا جا سکتا ہے، آخری لفظ کے لیے پچ بڑھانے سے سوال کا مطلب ہوتا ہے۔ مثال کے طور پر - جملہ "آپ کے پاس ایک سیب ہے" ایک بیان ہے جو کہتا ہے کہ آپ کے پاس ایک سیب ہے۔ اگر آخر میں پچ بڑھ جائے، خاص طور پر لفظ "سیب" کے لیے، تو یہ سوال بن جاتا ہے "آپ کے پاس ایک سیب ہے؟"، یہ پوچھتے ہوئے کہ آیا آپ کے پاس ایک سیب ہے۔ لسانی تجزیے کو سوالیہ نشان کا استعمال کرنا پڑتا ہے تاکہ پچ بڑھائی جا سکے۔ ایک بار جب فونیمز تیار ہو جائیں، انہیں ویو فارم جنریشن کے لیے بھیجا جاتا ہے تاکہ آڈیو آؤٹ پٹ تیار کیا جا سکے۔ ### ویو فارم جنریشن پہلے الیکٹرانک متن سے آواز کے نظام ہر فونیم کے لیے واحد آڈیو ریکارڈنگ استعمال کرتے تھے، جس کی وجہ سے آواز بہت یکساں اور روبوٹ جیسی لگتی تھی۔ لسانی تجزیہ فونیمز تیار کرتا، یہ فونیمز آوازوں کے ڈیٹا بیس سے لوڈ کیے جاتے اور آڈیو بنانے کے لیے جوڑے جاتے۔ ✅ تحقیق کریں: ابتدائی آواز ترکیب کے نظام سے کچھ آڈیو ریکارڈنگ تلاش کریں۔ اس کا موازنہ جدید آواز ترکیب سے کریں، جیسے کہ سمارٹ اسسٹنٹس میں استعمال ہونے والی۔ جدید ویو فارم جنریشن مشین لرننگ ماڈلز کا استعمال کرتی ہے جو ڈیپ لرننگ (بہت بڑے نیورل نیٹ ورکس جو دماغ میں نیورونز کی طرح کام کرتے ہیں) کے ذریعے تیار کیے گئے ہیں تاکہ زیادہ قدرتی آوازیں پیدا کی جا سکیں جو انسانوں سے الگ نہ کی جا سکیں۔ > 💁 ان میں سے کچھ مشین لرننگ ماڈلز کو ٹرانسفر لرننگ کے ذریعے دوبارہ تربیت دی جا سکتی ہے تاکہ وہ حقیقی لوگوں کی طرح آواز نکال سکیں۔ اس کا مطلب ہے کہ آواز کو سیکیورٹی سسٹم کے طور پر استعمال کرنا، جسے بینک زیادہ سے زیادہ اپنانے کی کوشش کر رہے ہیں، اب اچھا خیال نہیں رہا کیونکہ کوئی بھی آپ کی آواز کی چند منٹ کی ریکارڈنگ کے ساتھ آپ کی نقل کر سکتا ہے۔ یہ بڑے مشین لرننگ ماڈلز تینوں مراحل کو ایک ساتھ جوڑ کر اختتام سے اختتام تک آواز ترکیب کرنے والے نظام بنا رہے ہیں۔ ## ٹائمر سیٹ کریں ٹائمر سیٹ کرنے کے لیے، آپ کے IoT ڈیوائس کو سرور لیس کوڈ کا استعمال کرتے ہوئے بنائے گئے REST اینڈ پوائنٹ کو کال کرنا ہوگا، اور پھر حاصل شدہ سیکنڈز کی تعداد کو استعمال کرتے ہوئے ٹائمر سیٹ کرنا ہوگا۔ ### کام - سرور لیس فنکشن کو کال کریں تاکہ ٹائمر کا وقت حاصل کیا جا سکے اپنے IoT ڈیوائس سے REST اینڈ پوائنٹ کو کال کرنے اور مطلوبہ وقت کے لیے ٹائمر سیٹ کرنے کے لیے متعلقہ گائیڈ پر عمل کریں: * [آرڈوینو - وائیو ٹرمینل](wio-terminal-set-timer.md) * [سنگل بورڈ کمپیوٹر - راسپبیری پائی/ورچوئل IoT ڈیوائس](single-board-computer-set-timer.md) ## متن کو آواز میں تبدیل کریں وہی آواز سروس جو آپ نے آواز کو متن میں تبدیل کرنے کے لیے استعمال کی تھی، متن کو واپس آواز میں تبدیل کرنے کے لیے استعمال کی جا سکتی ہے، اور یہ آپ کے IoT ڈیوائس کے اسپیکر کے ذریعے چلائی جا سکتی ہے۔ تبدیل کرنے کے لیے متن آواز سروس کو بھیجا جاتا ہے، ساتھ ہی مطلوبہ آڈیو کی قسم (جیسے سیمپل ریٹ)، اور بائنری ڈیٹا جس میں آڈیو شامل ہوتا ہے واپس کیا جاتا ہے۔ جب آپ یہ درخواست بھیجتے ہیں، تو آپ اسے *Speech Synthesis Markup Language* (SSML) کا استعمال کرتے ہوئے بھیجتے ہیں، جو آواز ترکیب کے ایپلیکیشنز کے لیے XML پر مبنی مارک اپ زبان ہے۔ یہ نہ صرف تبدیل کرنے کے لیے متن کی وضاحت کرتا ہے بلکہ متن کی زبان، استعمال کرنے والی آواز، اور یہاں تک کہ کچھ یا تمام الفاظ کے لیے رفتار، حجم، اور پچ کی وضاحت بھی کر سکتا ہے۔ مثال کے طور پر، یہ SSML ایک درخواست کی وضاحت کرتا ہے کہ "آپ کا 3 منٹ 5 سیکنڈ کا ٹائمر سیٹ کر دیا گیا ہے" کو برطانوی انگریزی کی آواز `en-GB-MiaNeural` کا استعمال کرتے ہوئے آواز میں تبدیل کیا جائے۔ ```xml Your 3 minute 5 second time has been set ``` > 💁 زیادہ تر متن سے آواز کے نظام مختلف زبانوں کے لیے متعدد آوازیں رکھتے ہیں، متعلقہ لہجوں کے ساتھ جیسے کہ برطانوی انگریزی کی آواز انگریزی لہجے کے ساتھ اور نیوزی لینڈ انگریزی کی آواز نیوزی لینڈ کے لہجے کے ساتھ۔ ### کام - متن کو آواز میں تبدیل کریں اپنے IoT ڈیوائس کا استعمال کرتے ہوئے متن کو آواز میں تبدیل کرنے کے لیے متعلقہ گائیڈ پر عمل کریں: * [آرڈوینو - وائیو ٹرمینل](wio-terminal-text-to-speech.md) * [سنگل بورڈ کمپیوٹر - راسپبیری پائی](pi-text-to-speech.md) * [سنگل بورڈ کمپیوٹر - ورچوئل ڈیوائس](virtual-device-text-to-speech.md) --- ## 🚀 چیلنج SSML میں الفاظ کے بولنے کے انداز کو تبدیل کرنے کے طریقے موجود ہیں، جیسے کہ کچھ الفاظ پر زور دینا، وقفے شامل کرنا، یا پچ کو تبدیل کرنا۔ ان میں سے کچھ کو آزمائیں، اپنے IoT ڈیوائس سے مختلف SSML بھیجیں اور آؤٹ پٹ کا موازنہ کریں۔ آپ SSML کے بارے میں مزید پڑھ سکتے ہیں، بشمول الفاظ کے بولنے کے انداز کو تبدیل کرنے کے طریقے، [Speech Synthesis Markup Language (SSML) Version 1.1 specification from the World Wide Web consortium](https://www.w3.org/TR/speech-synthesis11/) پر۔ ## لیکچر کے بعد کا کوئز [لیکچر کے بعد کا کوئز](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/46) ## جائزہ اور خود مطالعہ * آواز ترکیب کے بارے میں مزید پڑھیں [ویکیپیڈیا پر آواز ترکیب کے صفحے](https://wikipedia.org/wiki/Speech_synthesis) پر * آواز ترکیب کے ذریعے چوری کرنے کے طریقوں کے بارے میں مزید پڑھیں [بی بی سی نیوز پر جعلی آوازوں کی کہانی](https://www.bbc.com/news/technology-48908736) پر * آواز کے اداکاروں کے لیے خطرات کے بارے میں مزید جانیں جو ان کی آوازوں کے ترکیب شدہ ورژنز سے پیدا ہوتے ہیں [وائس پر اس مضمون میں](https://www.vice.com/en/article/z3xqwj/this-tiktok-lawsuit-is-highlighting-how-ai-is-screwing-over-voice-actors) ## اسائنمنٹ [ٹائمر منسوخ کریں](assignment.md) --- **ڈسکلیمر**: یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا غیر درستیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔