# টাইমার সেট করুন এবং কথার মাধ্যমে প্রতিক্রিয়া দিন ![এই পাঠের একটি স্কেচনোট সংক্ষিপ্ত বিবরণ](../../../../../translated_images/lesson-23.f38483e1d4df4828990d3f02d60e46c978b075d384ae7cb4f7bab738e107c850.bn.jpg) > স্কেচনোট: [নিত্য নারাসিমহান](https://github.com/nitya)। বড় সংস্করণের জন্য ছবিতে ক্লিক করুন। ## প্রাক-লেকচার কুইজ [প্রাক-লেকচার কুইজ](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/45) ## ভূমিকা স্মার্ট অ্যাসিস্ট্যান্ট একমুখী যোগাযোগের যন্ত্র নয়। আপনি তাদের সাথে কথা বলেন, এবং তারা প্রতিক্রিয়া জানায়: "অ্যালেক্সা, ৩ মিনিটের টাইমার সেট করো।" "ঠিক আছে, আপনার টাইমার ৩ মিনিটের জন্য সেট করা হয়েছে।" শেষ দুটি পাঠে আপনি শিখেছেন কীভাবে কথাকে টেক্সটে রূপান্তরিত করতে হয় এবং সেই টেক্সট থেকে টাইমার সেট করার অনুরোধ বের করতে হয়। এই পাঠে আপনি শিখবেন কীভাবে IoT ডিভাইসে টাইমার সেট করতে হয়, ব্যবহারকারীকে তাদের টাইমার নিশ্চিত করার জন্য কথার মাধ্যমে প্রতিক্রিয়া জানাতে হয়, এবং টাইমার শেষ হলে তাদের সতর্ক করতে হয়। এই পাঠে আমরা আলোচনা করব: * [টেক্সট থেকে কথায় রূপান্তর](../../../../../6-consumer/lessons/3-spoken-feedback) * [টাইমার সেট করা](../../../../../6-consumer/lessons/3-spoken-feedback) * [টেক্সটকে কথায় রূপান্তর করা](../../../../../6-consumer/lessons/3-spoken-feedback) ## টেক্সট থেকে কথায় রূপান্তর টেক্সট থেকে কথায় রূপান্তর, নাম থেকেই বোঝা যায়, টেক্সটকে অডিওতে রূপান্তর করার প্রক্রিয়া যেখানে টেক্সট কথার মাধ্যমে শোনা যায়। এর মূল ধারণা হলো টেক্সটের শব্দগুলোকে তাদের উপাদান ধ্বনিতে (ফোনেম) ভেঙে ফেলা এবং সেই ধ্বনিগুলোর জন্য অডিও তৈরি করা, হয় পূর্বে রেকর্ড করা অডিও ব্যবহার করে অথবা AI মডেলের মাধ্যমে অডিও তৈরি করে। ![সাধারণ টেক্সট থেকে কথায় রূপান্তর সিস্টেমের তিনটি ধাপ](../../../../../translated_images/tts-overview.193843cf3f5ee09f8b3371a9fdaeb0f116698a07ca69daaa77158da4800e5453.bn.png) টেক্সট থেকে কথায় রূপান্তর সিস্টেম সাধারণত তিনটি ধাপে কাজ করে: * টেক্সট বিশ্লেষণ * ভাষাগত বিশ্লেষণ * তরঙ্গ-রূপ তৈরি ### টেক্সট বিশ্লেষণ টেক্সট বিশ্লেষণ হলো প্রদত্ত টেক্সটকে এমন শব্দে রূপান্তর করা যা কথায় রূপান্তরিত হতে পারে। উদাহরণস্বরূপ, "হ্যালো ওয়ার্ল্ড" রূপান্তর করতে কোনো টেক্সট বিশ্লেষণের প্রয়োজন নেই, এই দুটি শব্দ সরাসরি কথায় রূপান্তরিত হতে পারে। কিন্তু "১২৩৪" থাকলে, এটি হয় "এক হাজার দুই শত চৌত্রিশ" অথবা "এক, দুই, তিন, চার" হিসেবে রূপান্তরিত হতে পারে, প্রেক্ষাপট অনুযায়ী। উদাহরণস্বরূপ, "আমার কাছে ১২৩৪ আপেল আছে" হলে এটি হবে "এক হাজার দুই শত চৌত্রিশ", কিন্তু "শিশুটি ১২৩৪ গুনলো" হলে এটি হবে "এক, দুই, তিন, চার।" শব্দগুলো ভাষা এবং সেই ভাষার স্থানীয় রূপ অনুযায়ী পরিবর্তিত হয়। উদাহরণস্বরূপ, আমেরিকান ইংরেজিতে ১২০ হবে "ওয়ান হান্ড্রেড টোয়েন্টি", ব্রিটিশ ইংরেজিতে এটি হবে "ওয়ান হান্ড্রেড অ্যান্ড টোয়েন্টি", যেখানে "অ্যান্ড" ব্যবহৃত হয় শতকের পরে। ✅ কিছু অন্যান্য উদাহরণ যা টেক্সট বিশ্লেষণের প্রয়োজন হয়: "in" ইঞ্চের সংক্ষিপ্ত রূপ হিসেবে এবং "st" সেন্ট বা স্ট্রিটের সংক্ষিপ্ত রূপ হিসেবে। আপনার ভাষায় এমন শব্দের উদাহরণ দিতে পারেন যা প্রেক্ষাপট ছাড়া অস্পষ্ট। শব্দগুলো সংজ্ঞায়িত করার পর, সেগুলো ভাষাগত বিশ্লেষণের জন্য পাঠানো হয়। ### ভাষাগত বিশ্লেষণ ভাষাগত বিশ্লেষণ শব্দগুলোকে ফোনেমে ভেঙে দেয়। ফোনেম শুধু ব্যবহৃত অক্ষরের উপর ভিত্তি করে নয়, শব্দের অন্যান্য অক্ষরের উপরও নির্ভর করে। উদাহরণস্বরূপ, ইংরেজিতে 'car' এবং 'care' শব্দে 'a' এর উচ্চারণ ভিন্ন। ইংরেজি ভাষায় ২৬টি অক্ষরের জন্য ৪৪টি ফোনেম রয়েছে, কিছু ফোনেম বিভিন্ন অক্ষরের জন্য একই থাকে, যেমন 'circle' এবং 'serpent' শব্দের শুরুতে একই ফোনেম ব্যবহৃত হয়। ✅ গবেষণা করুন: আপনার ভাষার ফোনেমগুলো কী কী? ফোনেম তৈরি করার পর, প্রেক্ষাপট অনুযায়ী স্বর, টোন বা সময়কাল সামঞ্জস্য করার জন্য অতিরিক্ত তথ্য যোগ করা হয়। উদাহরণস্বরূপ, ইংরেজিতে স্বরের উচ্চতা বাড়িয়ে একটি বাক্যকে প্রশ্নে রূপান্তর করা যায়, শেষ শব্দে স্বরের উচ্চতা বাড়ালে এটি প্রশ্ন হয়ে যায়। উদাহরণস্বরূপ - "তোমার একটি আপেল আছে" একটি বিবৃতি। যদি শেষ শব্দে স্বরের উচ্চতা বাড়ানো হয়, এটি হয়ে যায় "তোমার একটি আপেল আছে?", যা একটি প্রশ্ন। ফোনেম তৈরি করার পর, সেগুলো তরঙ্গ-রূপ তৈরি করার জন্য পাঠানো হয়। ### তরঙ্গ-রূপ তৈরি প্রথম ইলেকট্রনিক টেক্সট থেকে কথায় রূপান্তর সিস্টেমগুলো প্রতিটি ফোনেমের জন্য একক অডিও রেকর্ডিং ব্যবহার করত, যা খুবই একঘেয়ে, রোবটিক শব্দ তৈরি করত। ভাষাগত বিশ্লেষণ ফোনেম তৈরি করত, সেগুলো একটি ডাটাবেস থেকে লোড করা হতো এবং অডিও তৈরি করতে একত্রিত করা হতো। ✅ গবেষণা করুন: প্রাথমিক কথার রূপান্তর সিস্টেমের কিছু অডিও রেকর্ডিং খুঁজুন। এটি আধুনিক কথার রূপান্তরের সাথে তুলনা করুন, যেমন স্মার্ট অ্যাসিস্ট্যান্টে ব্যবহৃত। আরও আধুনিক তরঙ্গ-রূপ তৈরি পদ্ধতি ডিপ লার্নিং ব্যবহার করে তৈরি করা ML মডেল ব্যবহার করে, যা আরও প্রাকৃতিক শব্দ তৈরি করে, যা মানুষের কণ্ঠের মতো শোনায়। > 💁 কিছু ML মডেল ট্রান্সফার লার্নিং ব্যবহার করে বাস্তব মানুষের মতো শব্দ করতে পুনঃপ্রশিক্ষণ করা যায়। এর ফলে কণ্ঠকে নিরাপত্তা ব্যবস্থা হিসেবে ব্যবহার করা আর ভালো ধারণা নয়, কারণ আপনার কণ্ঠের কয়েক মিনিটের রেকর্ডিং দিয়ে কেউ আপনাকে নকল করতে পারে। এই বড় ML মডেলগুলো তিনটি ধাপকে একত্রিত করে সম্পূর্ণ প্রক্রিয়া সম্পন্ন করার জন্য প্রশিক্ষিত হচ্ছে। ## টাইমার সেট করা টাইমার সেট করতে আপনার IoT ডিভাইসকে সার্ভারলেস কোড ব্যবহার করে তৈরি করা REST এন্ডপয়েন্টে কল করতে হবে, তারপর প্রাপ্ত সেকেন্ডের সংখ্যা ব্যবহার করে টাইমার সেট করতে হবে। ### কাজ - সার্ভারলেস ফাংশনে কল করে টাইমার সময় নির্ধারণ করুন IoT ডিভাইস থেকে REST এন্ডপয়েন্টে কল করার এবং প্রয়োজনীয় সময়ের জন্য টাইমার সেট করার জন্য প্রাসঙ্গিক গাইড অনুসরণ করুন: * [Arduino - Wio Terminal](wio-terminal-set-timer.md) * [Single-board computer - Raspberry Pi/Virtual IoT device](single-board-computer-set-timer.md) ## টেক্সটকে কথায় রূপান্তর করা আপনি যে স্পিচ সার্ভিস ব্যবহার করেছেন কথাকে টেক্সটে রূপান্তর করতে, সেটি টেক্সটকে কথায় রূপান্তর করতেও ব্যবহার করা যায়, এবং এটি IoT ডিভাইসের স্পিকারের মাধ্যমে বাজানো যায়। রূপান্তর করার জন্য টেক্সট স্পিচ সার্ভিসে পাঠানো হয়, অডিওর ধরন (যেমন স্যাম্পল রেট) সহ, এবং অডিওর বাইনারি ডেটা ফেরত আসে। এই অনুরোধ পাঠানোর সময়, এটি *Speech Synthesis Markup Language* (SSML) ব্যবহার করে পাঠানো হয়, যা একটি XML-ভিত্তিক মার্কআপ ভাষা। এটি শুধু রূপান্তর করার টেক্সটই নয়, টেক্সটের ভাষা, ব্যবহৃত কণ্ঠ, এবং এমনকি শব্দের গতি, ভলিউম এবং স্বরও সংজ্ঞায়িত করতে পারে। উদাহরণস্বরূপ, এই SSML "আপনার ৩ মিনিট ৫ সেকেন্ডের টাইমার সেট করা হয়েছে" টেক্সটকে ব্রিটিশ ইংরেজি কণ্ঠ `en-GB-MiaNeural` ব্যবহার করে কথায় রূপান্তর করার অনুরোধ সংজ্ঞায়িত করে: ```xml Your 3 minute 5 second time has been set ``` > 💁 বেশিরভাগ টেক্সট থেকে কথায় রূপান্তর সিস্টেমে বিভিন্ন ভাষার জন্য একাধিক কণ্ঠ থাকে, প্রাসঙ্গিক উচ্চারণ সহ, যেমন ব্রিটিশ ইংরেজি কণ্ঠ ইংরেজি উচ্চারণে এবং নিউজিল্যান্ড ইংরেজি কণ্ঠ নিউজিল্যান্ড উচ্চারণে। ### কাজ - টেক্সটকে কথায় রূপান্তর করুন আপনার IoT ডিভাইস ব্যবহার করে টেক্সটকে কথায় রূপান্তর করার জন্য প্রাসঙ্গিক গাইড অনুসরণ করুন: * [Arduino - Wio Terminal](wio-terminal-text-to-speech.md) * [Single-board computer - Raspberry Pi](pi-text-to-speech.md) * [Single-board computer - Virtual device](virtual-device-text-to-speech.md) --- ## 🚀 চ্যালেঞ্জ SSML-এ শব্দগুলো কীভাবে উচ্চারিত হবে তা পরিবর্তন করার উপায় রয়েছে, যেমন কিছু শব্দে জোর দেওয়া, বিরতি যোগ করা, বা স্বর পরিবর্তন করা। এগুলো চেষ্টা করুন, আপনার IoT ডিভাইস থেকে বিভিন্ন SSML পাঠিয়ে আউটপুট তুলনা করুন। SSML সম্পর্কে আরও পড়ুন, যার মধ্যে শব্দগুলো কীভাবে উচ্চারিত হবে তা পরিবর্তন করার উপায় রয়েছে, [Speech Synthesis Markup Language (SSML) Version 1.1 স্পেসিফিকেশন](https://www.w3.org/TR/speech-synthesis11/) থেকে। ## পোস্ট-লেকচার কুইজ [পোস্ট-লেকচার কুইজ](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/46) ## পর্যালোচনা ও স্ব-অধ্যয়ন * স্পিচ সিন্থেসিস সম্পর্কে আরও পড়ুন [উইকিপিডিয়ার স্পিচ সিন্থেসিস পেজে](https://wikipedia.org/wiki/Speech_synthesis) * অপরাধীরা কীভাবে স্পিচ সিন্থেসিস ব্যবহার করে অর্থ চুরি করছে তা সম্পর্কে আরও পড়ুন [BBC নিউজের 'ফেক ভয়েসেস 'হেল্প সাইবার ক্রুকস স্টিল ক্যাশ' গল্পে](https://www.bbc.com/news/technology-48908736) * কণ্ঠ অভিনেতাদের জন্য কৃত্রিম কণ্ঠের ঝুঁকি সম্পর্কে আরও জানুন [Vice-এর 'এই টিকটক মামলা দেখাচ্ছে কীভাবে AI কণ্ঠ অভিনেতাদের ক্ষতি করছে' নিবন্ধে](https://www.vice.com/en/article/z3xqwj/this-tiktok-lawsuit-is-highlighting-how-ai-is-screwing-over-voice-actors) ## অ্যাসাইনমেন্ট [টাইমার বাতিল করুন](assignment.md) --- **অস্বীকৃতি**: এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।