# IoT ডিভাইস দিয়ে ভাষা শনাক্তকরণ ![এই পাঠের একটি স্কেচনোটের সারাংশ](../../../../../translated_images/lesson-21.e34de51354d6606fb5ee08d8c89d0222eea0a2a7aaf744a8805ae847c4f69dc4.bn.jpg) > স্কেচনোট: [নিত্য নারাসিমহান](https://github.com/nitya)। বড় সংস্করণের জন্য ছবিতে ক্লিক করুন। এই ভিডিওটি Azure Speech Service-এর একটি সারাংশ দেয়, যা এই পাঠে আলোচনা করা হবে: [![Microsoft Azure YouTube চ্যানেল থেকে Cognitive Services Speech রিসোর্স ব্যবহার শুরু করার উপায়](https://img.youtube.com/vi/iW0Fw0l3mrA/0.jpg)](https://www.youtube.com/watch?v=iW0Fw0l3mrA) > 🎥 উপরের ছবিতে ক্লিক করে ভিডিওটি দেখুন ## লেকচারের আগে কুইজ [লেকচারের আগে কুইজ](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/41) ## ভূমিকা 'অ্যালেক্সা, ১২ মিনিটের জন্য টাইমার সেট করো।' 'অ্যালেক্সা, টাইমারের অবস্থা কী?' 'অ্যালেক্সা, ৮ মিনিটের জন্য একটি টাইমার সেট করো, নাম দাও স্টিম ব্রকলি।' স্মার্ট ডিভাইসগুলো দিন দিন আরও বেশি জনপ্রিয় হয়ে উঠছে। শুধু হোমপড, ইকো বা গুগল হোমের মতো স্মার্ট স্পিকার হিসেবেই নয়, বরং আমাদের ফোন, ঘড়ি, এমনকি লাইট ফিটিং এবং থার্মোস্ট্যাটেও এগুলো সংযুক্ত হচ্ছে। > 💁 আমার বাড়িতে অন্তত ১৯টি ডিভাইস আছে যেগুলোতে ভয়েস অ্যাসিস্ট্যান্ট রয়েছে, এবং এগুলোই কেবল আমি জানি! ভয়েস কন্ট্রোল অ্যাক্সেসিবিলিটি বাড়ায়, বিশেষ করে যাদের চলাচলে সীমাবদ্ধতা রয়েছে তাদের জন্য। এটি জন্মগতভাবে হাত না থাকা, ভাঙা হাতের মতো অস্থায়ী প্রতিবন্ধকতা, অথবা বাজারের ব্যাগ বা ছোট বাচ্চা হাতে থাকার মতো পরিস্থিতিতে সাহায্য করে। হাতের বদলে কণ্ঠস্বর দিয়ে আমাদের ঘর নিয়ন্ত্রণ করার সুযোগ একটি নতুন দিগন্ত উন্মোচন করে। উদাহরণস্বরূপ, 'হে সিরি, আমার গ্যারেজের দরজা বন্ধ করো' চিৎকার করা, যখন আপনি একটি বাচ্চাকে সামলাচ্ছেন এবং আরেকটি দুষ্টু বাচ্চার পেছনে ছুটছেন, জীবনে একটি ছোট কিন্তু কার্যকর উন্নতি হতে পারে। ভয়েস অ্যাসিস্ট্যান্টের অন্যতম জনপ্রিয় ব্যবহার হলো টাইমার সেট করা, বিশেষ করে রান্নাঘরের টাইমার। কেবল কণ্ঠস্বর ব্যবহার করে একাধিক টাইমার সেট করার সুবিধা রান্নাঘরে অনেক সাহায্য করে - ডো মাখা, স্যুপ নাড়া, বা হাত পরিষ্কার করার প্রয়োজন ছাড়াই টাইমার ব্যবহার করা যায়। এই পাঠে আপনি IoT ডিভাইসে ভয়েস শনাক্তকরণ তৈরি করা শিখবেন। আপনি মাইক্রোফোনকে সেন্সর হিসেবে ব্যবহার করা, IoT ডিভাইসে সংযুক্ত মাইক্রোফোন থেকে অডিও সংগ্রহ করা, এবং শোনা কথাগুলোকে টেক্সটে রূপান্তর করার জন্য AI ব্যবহার করা শিখবেন। এই প্রকল্পের বাকি অংশে আপনি একটি স্মার্ট রান্নাঘরের টাইমার তৈরি করবেন, যা একাধিক ভাষায় কণ্ঠস্বর ব্যবহার করে টাইমার সেট করতে সক্ষম হবে। এই পাঠে আমরা আলোচনা করব: * [মাইক্রোফোন](../../../../../6-consumer/lessons/1-speech-recognition) * [আপনার IoT ডিভাইস থেকে অডিও সংগ্রহ](../../../../../6-consumer/lessons/1-speech-recognition) * [স্পিচ টু টেক্সট](../../../../../6-consumer/lessons/1-speech-recognition) * [শব্দকে টেক্সটে রূপান্তর](../../../../../6-consumer/lessons/1-speech-recognition) ## মাইক্রোফোন মাইক্রোফোন হলো অ্যানালগ সেন্সর, যা শব্দ তরঙ্গকে বৈদ্যুতিক সংকেতে রূপান্তর করে। বায়ুর কম্পন মাইক্রোফোনের উপাদানগুলোকে সামান্য পরিমাণে সরিয়ে দেয়, যা বৈদ্যুতিক সংকেতে সামান্য পরিবর্তন ঘটায়। এই পরিবর্তনগুলোকে পরে বাড়িয়ে বৈদ্যুতিক আউটপুট তৈরি করা হয়। ### মাইক্রোফোনের ধরন মাইক্রোফোন বিভিন্ন ধরনের হয়ে থাকে: * **ডায়নামিক** - ডায়নামিক মাইক্রোফোনে একটি চুম্বক থাকে, যা একটি চলমান ডায়াফ্রামের সাথে সংযুক্ত থাকে। এটি একটি তারের কুণ্ডলীতে চলাচল করে বৈদ্যুতিক প্রবাহ তৈরি করে। এটি বেশিরভাগ লাউডস্পিকারের বিপরীত, যেখানে বৈদ্যুতিক প্রবাহ চুম্বককে সরিয়ে ডায়াফ্রামকে শব্দ তৈরি করতে সাহায্য করে। এর মানে হলো স্পিকারকে ডায়নামিক মাইক্রোফোন হিসেবে ব্যবহার করা যায়, এবং ডায়নামিক মাইক্রোফোনকে স্পিকার হিসেবে ব্যবহার করা যায়। ইন্টারকমের মতো ডিভাইসে, যেখানে ব্যবহারকারী হয় শোনেন বা কথা বলেন, কিন্তু একসাথে দুটো করেন না, একটি ডিভাইস স্পিকার এবং মাইক্রোফোন উভয়ের কাজ করতে পারে। ডায়নামিক মাইক্রোফোন কাজ করার জন্য কোনো পাওয়ারের প্রয়োজন হয় না, বৈদ্যুতিক সংকেত সম্পূর্ণ মাইক্রোফোন থেকেই তৈরি হয়। ![প্যাটি স্মিথ একটি শুর SM58 (ডায়নামিক কার্ডিওইড টাইপ) মাইক্রোফোনে গান গাইছেন](../../../../../translated_images/dynamic-mic.8babac890a2d80dfb0874b5bf37d4b851fe2aeb9da6fd72945746176978bf3bb.bn.jpg) * **রিবন** - রিবন মাইক্রোফোন ডায়নামিক মাইক্রোফোনের মতোই, তবে এতে ডায়াফ্রামের বদলে একটি ধাতব ফিতা থাকে। এই ফিতা একটি চুম্বকীয় ক্ষেত্রে চলাচল করে বৈদ্যুতিক প্রবাহ তৈরি করে। ডায়নামিক মাইক্রোফোনের মতো, রিবন মাইক্রোফোন কাজ করার জন্য পাওয়ারের প্রয়োজন হয় না। ![এডমন্ড লো, আমেরিকান অভিনেতা, একটি রেডিও মাইক্রোফোনে (NBC ব্লু নেটওয়ার্ক) কথা বলছেন, হাতে স্ক্রিপ্ট, ১৯৪২](../../../../../translated_images/ribbon-mic.eacc8e092c7441caee6d7a81e2f40e1675bf36269848964c7c09c9a9acb05127.bn.jpg) * **কনডেনসার** - কনডেনসার মাইক্রোফোনে একটি পাতলা ধাতব ডায়াফ্রাম এবং একটি স্থির ধাতব ব্যাকপ্লেট থাকে। উভয়ের মধ্যে বিদ্যুৎ প্রয়োগ করা হয় এবং ডায়াফ্রাম কম্পিত হলে প্লেটগুলোর মধ্যে স্থির চার্জ পরিবর্তিত হয়, যা সংকেত তৈরি করে। কনডেনসার মাইক্রোফোন কাজ করার জন্য পাওয়ারের প্রয়োজন হয় - একে *ফ্যান্টম পাওয়ার* বলা হয়। ![AKG Acoustics-এর C451B ছোট-ডায়াফ্রাম কনডেনসার মাইক্রোফোন](../../../../../translated_images/condenser-mic.6f6ed5b76ca19e0ec3fd0c544601542d4479a6cb7565db336de49fbbf69f623e.bn.jpg) * **MEMS** - মাইক্রোইলেক্ট্রোমেকানিক্যাল সিস্টেম মাইক্রোফোন, বা MEMS, হলো একটি চিপে থাকা মাইক্রোফোন। এগুলোতে একটি চাপ-সংবেদনশীল ডায়াফ্রাম সিলিকন চিপে খোদাই করা থাকে এবং কনডেনসার মাইক্রোফোনের মতো কাজ করে। এই মাইক্রোফোনগুলো খুবই ছোট হতে পারে এবং সার্কিটে সংযুক্ত করা যায়। ![সার্কিট বোর্ডে একটি MEMS মাইক্রোফোন](../../../../../translated_images/mems-microphone.80574019e1f5e4d9ee72fed720ecd25a39fc2969c91355d17ebb24ba4159e4c4.bn.png) উপরের ছবিতে, **LEFT** লেবেলযুক্ত চিপটি একটি MEMS মাইক্রোফোন, যার ডায়াফ্রাম এক মিলিমিটারেরও কম চওড়া। ✅ গবেষণা করুন: আপনার চারপাশে কী ধরনের মাইক্রোফোন আছে - হয়তো আপনার কম্পিউটারে, ফোনে, হেডসেটে বা অন্য ডিভাইসে। সেগুলো কী ধরনের মাইক্রোফোন? ### ডিজিটাল অডিও অডিও হলো একটি অ্যানালগ সংকেত, যা খুব সূক্ষ্ম তথ্য বহন করে। এই সংকেতকে ডিজিটালে রূপান্তর করতে হলে, অডিওকে প্রতি সেকেন্ডে হাজার হাজার বার স্যাম্পল করতে হয়। > 🎓 স্যাম্পলিং হলো অডিও সংকেতকে একটি নির্দিষ্ট সময়ে ডিজিটাল মানে রূপান্তর করা। ![একটি রেখাচিত্র, যেখানে সংকেত দেখানো হয়েছে এবং নির্দিষ্ট ব্যবধানে পয়েন্ট চিহ্নিত করা হয়েছে](../../../../../translated_images/sampling.6f4fadb3f2d9dfe7618f9edfe75a350e6b3f74293ec84f02ab69c19d2afe3d73.bn.png) ডিজিটাল অডিও স্যাম্পলিং করা হয় পালস কোড মড্যুলেশন (PCM) ব্যবহার করে। PCM হলো সংকেতের ভোল্টেজ পড়া এবং একটি নির্ধারিত আকার ব্যবহার করে সেই ভোল্টেজের কাছাকাছি একটি মান নির্বাচন করা। > 💁 PCM হলো সেন্সরের জন্য পালস উইথ মড্যুলেশনের (PWM) মতো। (PWM নিয়ে আলোচনা করা হয়েছিল [শুরু করার প্রকল্পের ৩য় পাঠে](../../../1-getting-started/lessons/3-sensors-and-actuators/README.md#pulse-width-modulation))। PCM অ্যানালগ সংকেতকে ডিজিটালে রূপান্তর করে, PWM ডিজিটাল সংকেতকে অ্যানালগে রূপান্তর করে। উদাহরণস্বরূপ, বেশিরভাগ স্ট্রিমিং মিউজিক সার্ভিস ১৬-বিট বা ২৪-বিট অডিও অফার করে। এর মানে তারা ভোল্টেজকে এমন একটি মানে রূপান্তর করে, যা ১৬-বিট বা ২৪-বিট পূর্ণসংখ্যায় ফিট করে। ১৬-বিট অডিওর মান -৩২,৭৬৮ থেকে ৩২,৭৬৭ পর্যন্ত হয়, ২৪-বিটের মান −৮,৩৮৮,৬০৮ থেকে ৮,৩৮৮,৬০৭ পর্যন্ত। যত বেশি বিট, স্যাম্পলটি আমাদের কানে শোনা আসল শব্দের কাছাকাছি হয়। > 💁 আপনি হয়তো ৮-বিট অডিওর কথা শুনেছেন, যাকে প্রায়ই LoFi বলা হয়। এটি ৮-বিট ব্যবহার করে স্যাম্পল করা অডিও, যার মান -১২৮ থেকে ১২৭ পর্যন্ত। প্রথম কম্পিউটার অডিও হার্ডওয়্যার সীমাবদ্ধতার কারণে ৮-বিটে সীমাবদ্ধ ছিল, তাই এটি রেট্রো গেমিংয়ে প্রায়ই দেখা যায়। এই স্যাম্পলগুলো প্রতি সেকেন্ডে হাজার হাজার বার নেওয়া হয়, যা KHz (প্রতি সেকেন্ডে হাজারটি রিডিং) এককে পরিমাপ করা হয়। স্ট্রিমিং মিউজিক সার্ভিসগুলো বেশিরভাগ অডিওর জন্য ৪৮KHz ব্যবহার করে, তবে কিছু 'লসলেস' অডিও ৯৬KHz বা এমনকি ১৯২KHz পর্যন্ত ব্যবহার করে। স্যাম্পল রেট যত বেশি, অডিও আসলের কাছাকাছি হয়, একটি নির্দিষ্ট সীমা পর্যন্ত। ৪৮KHz-এর উপরে মানুষ পার্থক্য বুঝতে পারে কিনা, তা নিয়ে বিতর্ক রয়েছে। ✅ গবেষণা করুন: আপনি যদি কোনো স্ট্রিমিং মিউজিক সার্ভিস ব্যবহার করেন, সেটি কী স্যাম্পল রেট এবং সাইজ ব্যবহার করে? আপনি যদি সিডি ব্যবহার করেন, সিডি অডিওর স্যাম্পল রেট এবং সাইজ কী? অডিও ডেটার বিভিন্ন ফরম্যাট রয়েছে। আপনি হয়তো mp3 ফাইলের কথা শুনেছেন - এটি এমন একটি অডিও ডেটা, যা গুণগত মান না হারিয়ে সংকুচিত করা হয়। আনকমপ্রেসড অডিও সাধারণত WAV ফাইল হিসেবে সংরক্ষণ করা হয় - এটি একটি ফাইল, যার ৪৪ বাইটের হেডার তথ্য থাকে, এরপর কাঁচা অডিও ডেটা। হেডারে স্যাম্পল রেট (যেমন ১৬০০০ ১৬KHz-এর জন্য), স্যাম্পল সাইজ (যেমন ১৬ ১৬-বিটের জন্য), এবং চ্যানেলের সংখ্যা থাকে। হেডারের পরে WAV ফাইলে কাঁচা অডিও ডেটা থাকে। > 🎓 চ্যানেল বলতে বোঝায় কতগুলো ভিন্ন অডিও স্ট্রিম অডিও তৈরি করে। উদাহরণস্বরূপ, স্টেরিও অডিওর জন্য বাম এবং ডান চ্যানেল থাকে, অর্থাৎ ২টি চ্যানেল। ৭.১ সারাউন্ড সাউন্ডের জন্য এটি ৮টি চ্যানেল হবে। ### অডিও ডেটার আকার অডিও ডেটা তুলনামূলকভাবে বড়। উদাহরণস্বরূপ, ১৬-বিট অডিও ১৬KHz-এ (স্পিচ টু টেক্সট মডেলের জন্য যথেষ্ট ভালো রেট) আনকমপ্রেসড অবস্থায় প্রতি সেকেন্ডে ৩২KB ডেটা নেয়: * ১৬-বিট মানে প্রতি স্যাম্পলে ২ বাইট (১ বাইট = ৮ বিট)। * ১৬KHz মানে প্রতি সেকেন্ডে ১৬,০০০ স্যাম্পল। * ১৬,০০০ x ২ বাইট = ৩২,০০০ বাইট প্রতি সেকেন্ডে। এটি ছোট পরিমাণের ডেটা মনে হতে পারে, কিন্তু যদি আপনি একটি মাইক্রোকন্ট্রোলার ব্যবহার করেন, যার মেমোরি সীমিত, তবে এটি অনেক হতে পারে। উদাহরণস্বরূপ, Wio Terminal-এ ১৯২KB মেমোরি রয়েছে, এবং সেটি প্রোগ্রাম কোড এবং ভেরিয়েবল সংরক্ষণ করতে হয়। এমনকি যদি আপনার প্রোগ্রাম কোড খুব ছোট হয়, তবুও আপনি ৫ সেকেন্ডের বেশি অডিও ধারণ করতে পারবেন না। মাইক্রোকন্ট্রোলার অতিরিক্ত স্টোরেজ ব্যবহার করতে পারে, যেমন SD কার্ড বা ফ্ল্যাশ মেমোরি। একটি IoT ডিভাইস তৈরি করার সময়, যা অডিও ধারণ করে, আপনাকে নিশ্চিত করতে হবে যে আপনার কোড মাইক্রোফোন থেকে ধারণ করা অডিও সরাসরি স্টোরেজে লেখে, এবং ক্লাউডে পাঠানোর সময় স্টোরেজ থেকে ওয়েব রিকোয়েস্টে স্ট্রিম করে। এভাবে আপনি পুরো অডিও ডেটা একবারে মেমোরিতে ধরে রাখার কারণে মেমোরি শেষ হয়ে যাওয়ার ঝুঁকি এড়াতে পারবেন। ## আপনার IoT ডিভাইস থেকে অডিও সংগ্রহ আপনার IoT ডিভাইস একটি মাইক্রোফোনের সাথে সংযুক্ত হতে পারে অডিও ধারণ করার জন্য, যা পরে টেক্সটে রূপান্তর করা হবে। এটি স্পিকারের সাথেও সংযুক্ত হতে পারে অডিও আউটপুট দেওয়ার জন্য। পরবর্তী পাঠে এটি অডিও ফিডব্যাক দেওয়ার জন্য ব্যবহার করা হবে, তবে মাইক্রোফোন পরীক্ষা করার জন্য এখনই স্পিকার সেটআপ করা উপকারী। ### কাজ - আপনার মাইক্রোফোন এবং স্পিকার কনফিগার করুন আপনার IoT ডিভাইসের জন্য মাইক্রোফোন এবং স্পিকার কনফিগার করার জন্য প্রাসঙ্গিক গাইডটি অনুসরণ করুন: * [Arduino - Wio Terminal](wio-terminal-microphone.md) * [সিঙ্গেল-বোর্ড কম্পিউটার - Raspberry Pi](pi-microphone.md) * [সিঙ্গেল-বোর্ড কম্পিউটার - ভার্চুয়াল ডিভাইস](virtual-device-microphone.md) ### কাজ - অডিও ধারণ করুন আপনার IoT ডিভাইসে অডিও ধারণ করার জন্য প্রাসঙ্গিক গাইডটি অনুসরণ করুন: * [Arduino - Wio Terminal](wio-terminal-audio.md) * [সিঙ্গেল-বোর্ড কম্পিউটার - Raspberry Pi](pi-audio.md) * [সিঙ্গেল-বোর্ড কম্পিউটার - ভার্চুয়াল ডিভাইস](virtual-device-audio.md) ## স্পিচ টু টেক্সট স্পিচ টু টেক্সট, বা ভাষা শনাক্তকরণ, হলো AI ব্যবহার করে অডিও সংকেতে থাকা শব্দগুলোকে টেক্সটে রূপান্তর করা। ### ভাষা শনাক্তকরণ মডেল ভাষা শনাক্ত করতে, অডিও সংকেতের স্যাম্পলগুলোকে একত্রিত করে একটি মেশিন লার্নিং মডেলে পাঠানো হয়, যা একটি Recurrent Neural Network (RNN)-এর উপর ভিত্তি করে তৈরি। এটি এমন একটি মেশিন লার্নিং মডেল, যা পূর্ববর্তী ডেটা ব্যবহার করে আসন্ন ডেটা সম্পর্কে সিদ্ধান্ত নিতে পারে। উদাহরণস্বরূপ, RNN একটি অডিও স্যাম্পল ব্লককে 'Hel' শব্দ হিসেবে শনাক্ত করতে পারে, এবং যখন এটি আরেকটি স্যাম্পল পায়, যা 'lo' শব্দের মতো শোনায়, এটি পূর্ববর্তী শব্দের সাথে একত্রিত করে 'Hello' শব্দটি একটি বৈধ শব্দ হিসেবে বেছে নিতে পারে। ML মডেল সবসময় একই আকারের ডেটা গ্রহণ করে। আপনি আগের পাঠে যে ইমেজ ক্লাসিফায়ার তৈরি করেছিলেন, সেটি একটি নির্দিষ্ট আকারে ইমেজ রিসাইজ করে প্রক্রিয়া করত। ভাষা শনাক্তকরণ মডেলের ক্ষেত্রেও একই নিয়ম প্রযোজ্য, এগুলো নির্দিষ্ট আকারের অডিও চাঙ্ক প্রক্রিয়া করে। ভাষা শনাক্তকরণ মডেলগুলোকে একাধিক প্রেডিকশনের আউটপুট একত্রিত করতে হয় সঠিক উত্তর পাওয়ার জন্য, যাতে এটি 'Hi' এবং 'Highway', বা 'flock' এবং 'floccinaucinihilipilification' শব্দের মধ্যে পার্থক্য করতে পারে। ভাষা শনাক্তকরণ মডেলগুলো এতটাই উন্নত যে তারা প্রসঙ্গ বুঝতে পারে এবং শোনা শব্দগুলোকে আরও সঠিকভাবে সংশোধন করতে পারে। উদাহরণস্বরূপ, যদি আপনি বলেন "I went to the shops to get two bananas and an apple too", এখানে তিনটি শব্দ একই রকম শোনায়, কিন্তু 💁 কিছু স্পিচ পরিষেবা কাস্টমাইজেশনের সুযোগ দেয়, যা তাদেরকে কারখানার মতো শব্দপূর্ণ পরিবেশে বা শিল্প-নির্দিষ্ট শব্দ যেমন রাসায়নিক নামের ক্ষেত্রে আরও কার্যকর করে তোলে। এই কাস্টমাইজেশনগুলি নমুনা অডিও এবং তার প্রতিলিপি প্রদান করে প্রশিক্ষিত হয় এবং ট্রান্সফার লার্নিং ব্যবহার করে কাজ করে, ঠিক যেমন আপনি আগের একটি পাঠে মাত্র কয়েকটি ছবি ব্যবহার করে একটি ইমেজ ক্লাসিফায়ার প্রশিক্ষণ দিয়েছিলেন। ### গোপনীয়তা কোনো কনজিউমার IoT ডিভাইসে স্পিচ টু টেক্সট ব্যবহার করার সময় গোপনীয়তা অত্যন্ত গুরুত্বপূর্ণ। এই ডিভাইসগুলো ক্রমাগত অডিও শোনে, তাই একজন ব্যবহারকারী হিসেবে আপনি চান না যে আপনার প্রতিটি কথা ক্লাউডে পাঠানো হোক এবং টেক্সটে রূপান্তরিত হোক। এটি শুধু ইন্টারনেট ব্যান্ডউইথের অনেক ব্যবহার করবে না, বরং এতে বিশাল গোপনীয়তা সংক্রান্ত সমস্যা তৈরি হবে, বিশেষত যখন কিছু স্মার্ট ডিভাইস নির্মাতা এলোমেলোভাবে অডিও নির্বাচন করে [মানুষের মাধ্যমে টেক্সটের সাথে যাচাই করার জন্য, যাতে তাদের মডেল উন্নত করা যায়](https://www.theverge.com/2019/4/10/18305378/amazon-alexa-ai-voice-assistant-annotation-listen-private-recordings)। আপনি চান আপনার স্মার্ট ডিভাইস শুধুমাত্র তখনই অডিও ক্লাউডে পাঠাক যখন আপনি এটি ব্যবহার করছেন, আপনার বাড়িতে শোনা অডিও নয়, যা ব্যক্তিগত মিটিং বা ঘনিষ্ঠ কথোপকথন অন্তর্ভুক্ত করতে পারে। বেশিরভাগ স্মার্ট ডিভাইস *ওয়েক ওয়ার্ড* ব্যবহার করে কাজ করে, যেমন "Alexa", "Hey Siri", বা "OK Google" - এই ধরনের একটি কী বাক্যাংশ যা ডিভাইসকে 'জাগিয়ে তোলে' এবং আপনার কথা শোনে যতক্ষণ না এটি আপনার কথার বিরতি সনাক্ত করে, যা নির্দেশ করে যে আপনি ডিভাইসের সাথে কথা বলা শেষ করেছেন। > 🎓 ওয়েক ওয়ার্ড সনাক্তকরণকে *কীওয়ার্ড স্পটিং* বা *কীওয়ার্ড রিকগনিশন* নামেও উল্লেখ করা হয়। এই ওয়েক ওয়ার্ডগুলো ডিভাইসে সনাক্ত করা হয়, ক্লাউডে নয়। এই স্মার্ট ডিভাইসগুলোতে ছোট AI মডেল থাকে যা ডিভাইসে চালানো হয় এবং ওয়েক ওয়ার্ডের জন্য শোনে, এবং যখন এটি সনাক্ত করা হয়, তখন অডিও ক্লাউডে স্ট্রিমিং শুরু করে সনাক্তকরণের জন্য। এই মডেলগুলো খুবই বিশেষায়িত এবং শুধুমাত্র ওয়েক ওয়ার্ডের জন্য শোনে। > 💁 কিছু প্রযুক্তি কোম্পানি তাদের ডিভাইসে আরও গোপনীয়তা যোগ করছে এবং কিছু স্পিচ টু টেক্সট রূপান্তর ডিভাইসেই করছে। অ্যাপল ঘোষণা করেছে যে তাদের ২০২১ সালের iOS এবং macOS আপডেটের অংশ হিসেবে তারা ডিভাইসে স্পিচ টু টেক্সট রূপান্তর সমর্থন করবে এবং অনেক অনুরোধ ক্লাউড ব্যবহার না করেই পরিচালনা করতে পারবে। এটি সম্ভব হয়েছে তাদের ডিভাইসে শক্তিশালী প্রসেসর থাকার কারণে, যা ML মডেল চালাতে পারে। ✅ আপনার কী মনে হয় ক্লাউডে পাঠানো অডিও সংরক্ষণের গোপনীয়তা এবং নৈতিক প্রভাব কী? এই অডিও সংরক্ষণ করা উচিত কিনা, এবং যদি করা হয়, কীভাবে? আপনি কি মনে করেন আইন প্রয়োগের জন্য রেকর্ডিং ব্যবহার করা গোপনীয়তার ক্ষতির জন্য একটি ভালো বিনিময়? ওয়েক ওয়ার্ড সনাক্তকরণ সাধারণত TinyML নামে একটি কৌশল ব্যবহার করে, যা ML মডেলগুলোকে মাইক্রোকন্ট্রোলারে চালানোর উপযোগী করে তোলে। এই মডেলগুলো আকারে ছোট এবং চালানোর জন্য খুব কম শক্তি ব্যবহার করে। ওয়েক ওয়ার্ড মডেল প্রশিক্ষণ এবং ব্যবহার করার জটিলতা এড়াতে, এই পাঠে আপনি যে স্মার্ট টাইমার তৈরি করছেন তা স্পিচ রিকগনিশন চালু করতে একটি বোতাম ব্যবহার করবে। > 💁 যদি আপনি Wio Terminal বা Raspberry Pi-তে চালানোর জন্য একটি ওয়েক ওয়ার্ড সনাক্তকরণ মডেল তৈরি করতে চান, তাহলে Edge Impulse-এর এই [আপনার কণ্ঠস্বরের প্রতি সাড়া দেওয়ার টিউটোরিয়াল](https://docs.edgeimpulse.com/docs/responding-to-your-voice) দেখুন। যদি আপনি আপনার কম্পিউটার ব্যবহার করতে চান, তাহলে Microsoft Docs-এর [Custom Keyword quickstart](https://docs.microsoft.com/azure/cognitive-services/speech-service/keyword-recognition-overview?WT.mc_id=academic-17441-jabenn) দেখুন। ## স্পিচকে টেক্সটে রূপান্তর করুন ![স্পিচ সার্ভিসের লোগো](../../../../../translated_images/azure-speech-logo.a1f08c4befb0159f2cb5d692d3baf5b599e7b44759d316da907bda1508f46a4a.bn.png) আগের প্রকল্পে ইমেজ ক্লাসিফিকেশনের মতো, এমন প্রি-বিল্ট AI সার্ভিস রয়েছে যা অডিও ফাইল হিসেবে স্পিচ নিয়ে তা টেক্সটে রূপান্তর করতে পারে। এই ধরনের একটি সার্ভিস হলো স্পিচ সার্ভিস, যা Cognitive Services-এর অংশ, প্রি-বিল্ট AI সার্ভিস যা আপনি আপনার অ্যাপে ব্যবহার করতে পারেন। ### কাজ - একটি স্পিচ AI রিসোর্স কনফিগার করুন 1. এই প্রকল্পের জন্য `smart-timer` নামে একটি রিসোর্স গ্রুপ তৈরি করুন। 1. একটি বিনামূল্যের স্পিচ রিসোর্স তৈরি করতে নিম্নলিখিত কমান্ড ব্যবহার করুন: ```sh az cognitiveservices account create --name smart-timer \ --resource-group smart-timer \ --kind SpeechServices \ --sku F0 \ --yes \ --location ``` ``-এর জায়গায় রিসোর্স গ্রুপ তৈরি করার সময় ব্যবহৃত অবস্থানটি প্রতিস্থাপন করুন। 1. আপনার কোড থেকে স্পিচ রিসোর্স অ্যাক্সেস করতে একটি API কী প্রয়োজন হবে। কী পেতে নিম্নলিখিত কমান্ড চালান: ```sh az cognitiveservices account keys list --name smart-timer \ --resource-group smart-timer \ --output table ``` একটি কী কপি করে রাখুন। ### কাজ - স্পিচকে টেক্সটে রূপান্তর করুন আপনার IoT ডিভাইসে স্পিচকে টেক্সটে রূপান্তর করার জন্য প্রাসঙ্গিক গাইড অনুসরণ করুন: * [Arduino - Wio Terminal](wio-terminal-speech-to-text.md) * [Single-board computer - Raspberry Pi](pi-speech-to-text.md) * [Single-board computer - Virtual device](virtual-device-speech-to-text.md) --- ## 🚀 চ্যালেঞ্জ স্পিচ রিকগনিশন দীর্ঘদিন ধরে রয়েছে এবং ক্রমাগত উন্নত হচ্ছে। বর্তমান সক্ষমতাগুলো গবেষণা করুন এবং দেখুন কীভাবে এগুলো সময়ের সাথে পরিবর্তিত হয়েছে, যার মধ্যে মেশিন ট্রান্সক্রিপশন মানুষের তুলনায় কতটা সঠিক। আপনার কী মনে হয় স্পিচ রিকগনিশনের ভবিষ্যৎ কী হতে পারে? ## পোস্ট-লেকচার কুইজ [পোস্ট-লেকচার কুইজ](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/42) ## পর্যালোচনা ও স্ব-অধ্যয়ন * বিভিন্ন মাইক্রোফোনের ধরন এবং সেগুলো কীভাবে কাজ করে তা পড়ুন [Musician's HQ-এর ডায়নামিক এবং কনডেন্সার মাইক্রোফোনের মধ্যে পার্থক্য সম্পর্কিত নিবন্ধে](https://musicianshq.com/whats-the-difference-between-dynamic-and-condenser-microphones/)। * Cognitive Services স্পিচ সার্ভিস সম্পর্কে আরও পড়ুন [Microsoft Docs-এর স্পিচ সার্ভিস ডকুমেন্টেশনে](https://docs.microsoft.com/azure/cognitive-services/speech-service/?WT.mc_id=academic-17441-jabenn)। * কীওয়ার্ড স্পটিং সম্পর্কে পড়ুন [Microsoft Docs-এর কীওয়ার্ড রিকগনিশন ডকুমেন্টেশনে](https://docs.microsoft.com/azure/cognitive-services/speech-service/keyword-recognition-overview?WT.mc_id=academic-17441-jabenn)। ## অ্যাসাইনমেন্ট [](assignment.md) --- **অস্বীকৃতি**: এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়ী থাকব না।