You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
IoT-For-Beginners/translations/bn/6-consumer/lessons/3-spoken-feedback
co-op-translator[bot] 9508c7b48a
🌐 Update translations via Co-op Translator (#545)
4 weeks ago
..
README.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
pi-text-to-speech.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
single-board-computer-set-timer.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
virtual-device-text-to-speech.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
wio-terminal-set-timer.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
wio-terminal-text-to-speech.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago

README.md

টাইমার সেট করুন এবং কথার মাধ্যমে প্রতিক্রিয়া দিন

এই পাঠের একটি স্কেচনোট সংক্ষিপ্ত বিবরণ

স্কেচনোট: নিত্য নারাসিমহান। বড় সংস্করণের জন্য ছবিতে ক্লিক করুন।

প্রাক-লেকচার কুইজ

প্রাক-লেকচার কুইজ

ভূমিকা

স্মার্ট অ্যাসিস্ট্যান্ট একমুখী যোগাযোগের যন্ত্র নয়। আপনি তাদের সাথে কথা বলেন, এবং তারা প্রতিক্রিয়া জানায়:

"অ্যালেক্সা, ৩ মিনিটের টাইমার সেট করো।"

"ঠিক আছে, আপনার টাইমার ৩ মিনিটের জন্য সেট করা হয়েছে।"

শেষ দুটি পাঠে আপনি শিখেছেন কীভাবে কথাকে টেক্সটে রূপান্তরিত করতে হয় এবং সেই টেক্সট থেকে টাইমার সেট করার অনুরোধ বের করতে হয়। এই পাঠে আপনি শিখবেন কীভাবে IoT ডিভাইসে টাইমার সেট করতে হয়, ব্যবহারকারীকে তাদের টাইমার নিশ্চিত করার জন্য কথার মাধ্যমে প্রতিক্রিয়া জানাতে হয়, এবং টাইমার শেষ হলে তাদের সতর্ক করতে হয়।

এই পাঠে আমরা আলোচনা করব:

টেক্সট থেকে কথায় রূপান্তর

টেক্সট থেকে কথায় রূপান্তর, নাম থেকেই বোঝা যায়, টেক্সটকে অডিওতে রূপান্তর করার প্রক্রিয়া যেখানে টেক্সট কথার মাধ্যমে শোনা যায়। এর মূল ধারণা হলো টেক্সটের শব্দগুলোকে তাদের উপাদান ধ্বনিতে (ফোনেম) ভেঙে ফেলা এবং সেই ধ্বনিগুলোর জন্য অডিও তৈরি করা, হয় পূর্বে রেকর্ড করা অডিও ব্যবহার করে অথবা AI মডেলের মাধ্যমে অডিও তৈরি করে।

সাধারণ টেক্সট থেকে কথায় রূপান্তর সিস্টেমের তিনটি ধাপ

টেক্সট থেকে কথায় রূপান্তর সিস্টেম সাধারণত তিনটি ধাপে কাজ করে:

  • টেক্সট বিশ্লেষণ
  • ভাষাগত বিশ্লেষণ
  • তরঙ্গ-রূপ তৈরি

টেক্সট বিশ্লেষণ

টেক্সট বিশ্লেষণ হলো প্রদত্ত টেক্সটকে এমন শব্দে রূপান্তর করা যা কথায় রূপান্তরিত হতে পারে। উদাহরণস্বরূপ, "হ্যালো ওয়ার্ল্ড" রূপান্তর করতে কোনো টেক্সট বিশ্লেষণের প্রয়োজন নেই, এই দুটি শব্দ সরাসরি কথায় রূপান্তরিত হতে পারে। কিন্তু "১২৩৪" থাকলে, এটি হয় "এক হাজার দুই শত চৌত্রিশ" অথবা "এক, দুই, তিন, চার" হিসেবে রূপান্তরিত হতে পারে, প্রেক্ষাপট অনুযায়ী। উদাহরণস্বরূপ, "আমার কাছে ১২৩৪ আপেল আছে" হলে এটি হবে "এক হাজার দুই শত চৌত্রিশ", কিন্তু "শিশুটি ১২৩৪ গুনলো" হলে এটি হবে "এক, দুই, তিন, চার।"

শব্দগুলো ভাষা এবং সেই ভাষার স্থানীয় রূপ অনুযায়ী পরিবর্তিত হয়। উদাহরণস্বরূপ, আমেরিকান ইংরেজিতে ১২০ হবে "ওয়ান হান্ড্রেড টোয়েন্টি", ব্রিটিশ ইংরেজিতে এটি হবে "ওয়ান হান্ড্রেড অ্যান্ড টোয়েন্টি", যেখানে "অ্যান্ড" ব্যবহৃত হয় শতকের পরে।

কিছু অন্যান্য উদাহরণ যা টেক্সট বিশ্লেষণের প্রয়োজন হয়: "in" ইঞ্চের সংক্ষিপ্ত রূপ হিসেবে এবং "st" সেন্ট বা স্ট্রিটের সংক্ষিপ্ত রূপ হিসেবে। আপনার ভাষায় এমন শব্দের উদাহরণ দিতে পারেন যা প্রেক্ষাপট ছাড়া অস্পষ্ট।

শব্দগুলো সংজ্ঞায়িত করার পর, সেগুলো ভাষাগত বিশ্লেষণের জন্য পাঠানো হয়।

ভাষাগত বিশ্লেষণ

ভাষাগত বিশ্লেষণ শব্দগুলোকে ফোনেমে ভেঙে দেয়। ফোনেম শুধু ব্যবহৃত অক্ষরের উপর ভিত্তি করে নয়, শব্দের অন্যান্য অক্ষরের উপরও নির্ভর করে। উদাহরণস্বরূপ, ইংরেজিতে 'car' এবং 'care' শব্দে 'a' এর উচ্চারণ ভিন্ন। ইংরেজি ভাষায় ২৬টি অক্ষরের জন্য ৪৪টি ফোনেম রয়েছে, কিছু ফোনেম বিভিন্ন অক্ষরের জন্য একই থাকে, যেমন 'circle' এবং 'serpent' শব্দের শুরুতে একই ফোনেম ব্যবহৃত হয়।

গবেষণা করুন: আপনার ভাষার ফোনেমগুলো কী কী?

ফোনেম তৈরি করার পর, প্রেক্ষাপট অনুযায়ী স্বর, টোন বা সময়কাল সামঞ্জস্য করার জন্য অতিরিক্ত তথ্য যোগ করা হয়। উদাহরণস্বরূপ, ইংরেজিতে স্বরের উচ্চতা বাড়িয়ে একটি বাক্যকে প্রশ্নে রূপান্তর করা যায়, শেষ শব্দে স্বরের উচ্চতা বাড়ালে এটি প্রশ্ন হয়ে যায়।

উদাহরণস্বরূপ - "তোমার একটি আপেল আছে" একটি বিবৃতি। যদি শেষ শব্দে স্বরের উচ্চতা বাড়ানো হয়, এটি হয়ে যায় "তোমার একটি আপেল আছে?", যা একটি প্রশ্ন।

ফোনেম তৈরি করার পর, সেগুলো তরঙ্গ-রূপ তৈরি করার জন্য পাঠানো হয়।

তরঙ্গ-রূপ তৈরি

প্রথম ইলেকট্রনিক টেক্সট থেকে কথায় রূপান্তর সিস্টেমগুলো প্রতিটি ফোনেমের জন্য একক অডিও রেকর্ডিং ব্যবহার করত, যা খুবই একঘেয়ে, রোবটিক শব্দ তৈরি করত। ভাষাগত বিশ্লেষণ ফোনেম তৈরি করত, সেগুলো একটি ডাটাবেস থেকে লোড করা হতো এবং অডিও তৈরি করতে একত্রিত করা হতো।

গবেষণা করুন: প্রাথমিক কথার রূপান্তর সিস্টেমের কিছু অডিও রেকর্ডিং খুঁজুন। এটি আধুনিক কথার রূপান্তরের সাথে তুলনা করুন, যেমন স্মার্ট অ্যাসিস্ট্যান্টে ব্যবহৃত।

আরও আধুনিক তরঙ্গ-রূপ তৈরি পদ্ধতি ডিপ লার্নিং ব্যবহার করে তৈরি করা ML মডেল ব্যবহার করে, যা আরও প্রাকৃতিক শব্দ তৈরি করে, যা মানুষের কণ্ঠের মতো শোনায়।

💁 কিছু ML মডেল ট্রান্সফার লার্নিং ব্যবহার করে বাস্তব মানুষের মতো শব্দ করতে পুনঃপ্রশিক্ষণ করা যায়। এর ফলে কণ্ঠকে নিরাপত্তা ব্যবস্থা হিসেবে ব্যবহার করা আর ভালো ধারণা নয়, কারণ আপনার কণ্ঠের কয়েক মিনিটের রেকর্ডিং দিয়ে কেউ আপনাকে নকল করতে পারে।

এই বড় ML মডেলগুলো তিনটি ধাপকে একত্রিত করে সম্পূর্ণ প্রক্রিয়া সম্পন্ন করার জন্য প্রশিক্ষিত হচ্ছে।

টাইমার সেট করা

টাইমার সেট করতে আপনার IoT ডিভাইসকে সার্ভারলেস কোড ব্যবহার করে তৈরি করা REST এন্ডপয়েন্টে কল করতে হবে, তারপর প্রাপ্ত সেকেন্ডের সংখ্যা ব্যবহার করে টাইমার সেট করতে হবে।

কাজ - সার্ভারলেস ফাংশনে কল করে টাইমার সময় নির্ধারণ করুন

IoT ডিভাইস থেকে REST এন্ডপয়েন্টে কল করার এবং প্রয়োজনীয় সময়ের জন্য টাইমার সেট করার জন্য প্রাসঙ্গিক গাইড অনুসরণ করুন:

টেক্সটকে কথায় রূপান্তর করা

আপনি যে স্পিচ সার্ভিস ব্যবহার করেছেন কথাকে টেক্সটে রূপান্তর করতে, সেটি টেক্সটকে কথায় রূপান্তর করতেও ব্যবহার করা যায়, এবং এটি IoT ডিভাইসের স্পিকারের মাধ্যমে বাজানো যায়। রূপান্তর করার জন্য টেক্সট স্পিচ সার্ভিসে পাঠানো হয়, অডিওর ধরন (যেমন স্যাম্পল রেট) সহ, এবং অডিওর বাইনারি ডেটা ফেরত আসে।

এই অনুরোধ পাঠানোর সময়, এটি Speech Synthesis Markup Language (SSML) ব্যবহার করে পাঠানো হয়, যা একটি XML-ভিত্তিক মার্কআপ ভাষা। এটি শুধু রূপান্তর করার টেক্সটই নয়, টেক্সটের ভাষা, ব্যবহৃত কণ্ঠ, এবং এমনকি শব্দের গতি, ভলিউম এবং স্বরও সংজ্ঞায়িত করতে পারে।

উদাহরণস্বরূপ, এই SSML "আপনার ৩ মিনিট ৫ সেকেন্ডের টাইমার সেট করা হয়েছে" টেক্সটকে ব্রিটিশ ইংরেজি কণ্ঠ en-GB-MiaNeural ব্যবহার করে কথায় রূপান্তর করার অনুরোধ সংজ্ঞায়িত করে:

<speak version='1.0' xml:lang='en-GB'>
    <voice xml:lang='en-GB' name='en-GB-MiaNeural'>
        Your 3 minute 5 second time has been set
    </voice>
</speak>

💁 বেশিরভাগ টেক্সট থেকে কথায় রূপান্তর সিস্টেমে বিভিন্ন ভাষার জন্য একাধিক কণ্ঠ থাকে, প্রাসঙ্গিক উচ্চারণ সহ, যেমন ব্রিটিশ ইংরেজি কণ্ঠ ইংরেজি উচ্চারণে এবং নিউজিল্যান্ড ইংরেজি কণ্ঠ নিউজিল্যান্ড উচ্চারণে।

কাজ - টেক্সটকে কথায় রূপান্তর করুন

আপনার IoT ডিভাইস ব্যবহার করে টেক্সটকে কথায় রূপান্তর করার জন্য প্রাসঙ্গিক গাইড অনুসরণ করুন:


🚀 চ্যালেঞ্জ

SSML-এ শব্দগুলো কীভাবে উচ্চারিত হবে তা পরিবর্তন করার উপায় রয়েছে, যেমন কিছু শব্দে জোর দেওয়া, বিরতি যোগ করা, বা স্বর পরিবর্তন করা। এগুলো চেষ্টা করুন, আপনার IoT ডিভাইস থেকে বিভিন্ন SSML পাঠিয়ে আউটপুট তুলনা করুন। SSML সম্পর্কে আরও পড়ুন, যার মধ্যে শব্দগুলো কীভাবে উচ্চারিত হবে তা পরিবর্তন করার উপায় রয়েছে, Speech Synthesis Markup Language (SSML) Version 1.1 স্পেসিফিকেশন থেকে।

পোস্ট-লেকচার কুইজ

পোস্ট-লেকচার কুইজ

পর্যালোচনা ও স্ব-অধ্যয়ন

অ্যাসাইনমেন্ট

টাইমার বাতিল করুন


অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।