You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
IoT-For-Beginners/translations/bn/6-consumer/lessons/1-speech-recognition/virtual-device-speech-to-te...

113 lines
10 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "c0550b254b9ba2539baf1e6bb5fc05f8",
"translation_date": "2025-08-27T14:10:03+00:00",
"source_file": "6-consumer/lessons/1-speech-recognition/virtual-device-speech-to-text.md",
"language_code": "bn"
}
-->
# স্পিচ টু টেক্সট - ভার্চুয়াল IoT ডিভাইস
এই পাঠের এই অংশে, আপনি কোড লিখবেন যা আপনার মাইক্রোফোন থেকে ধরা স্পিচকে টেক্সটে রূপান্তর করবে স্পিচ সার্ভিস ব্যবহার করে।
## স্পিচকে টেক্সটে রূপান্তর করুন
উইন্ডোজ, লিনাক্স এবং ম্যাকওএস-এ, স্পিচ সার্ভিসের পাইথন SDK ব্যবহার করে আপনার মাইক্রোফোন থেকে শোনা স্পিচকে টেক্সটে রূপান্তর করা যায়। এটি ক্রমাগত শুনবে, অডিও লেভেল সনাক্ত করবে এবং যখন অডিও লেভেল কমে যাবে, যেমন একটি স্পিচ ব্লকের শেষে, তখন স্পিচকে টেক্সটে রূপান্তর করার জন্য পাঠাবে।
### কাজ - স্পিচকে টেক্সটে রূপান্তর করুন
1. আপনার কম্পিউটারে `smart-timer` নামে একটি ফোল্ডারে একটি নতুন পাইথন অ্যাপ তৈরি করুন, যেখানে একটি ফাইল থাকবে `app.py` নামে এবং একটি পাইথন ভার্চুয়াল এনভায়রনমেন্ট থাকবে।
1. স্পিচ সার্ভিসের জন্য Pip প্যাকেজ ইনস্টল করুন। নিশ্চিত করুন যে আপনি এটি একটি টার্মিনাল থেকে ইনস্টল করছেন যেখানে ভার্চুয়াল এনভায়রনমেন্ট সক্রিয় করা হয়েছে।
```sh
pip install azure-cognitiveservices-speech
```
> ⚠️ যদি আপনি নিম্নলিখিত ত্রুটি পান:
>
> ```output
> ERROR: Could not find a version that satisfies the requirement azure-cognitiveservices-speech (from versions: none)
> ERROR: No matching distribution found for azure-cognitiveservices-speech
> ```
>
> আপনাকে Pip আপডেট করতে হবে। এটি নিম্নলিখিত কমান্ড দিয়ে করুন, তারপর আবার প্যাকেজ ইনস্টল করার চেষ্টা করুন:
>
> ```sh
> pip install --upgrade pip
> ```
1. `app.py` ফাইলে নিম্নলিখিত ইমপোর্ট যোগ করুন:
```python
import requests
import time
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer
```
এটি কিছু ক্লাস ইমপোর্ট করে যা স্পিচ সনাক্ত করতে ব্যবহৃত হয়।
1. কিছু কনফিগারেশন ঘোষণা করতে নিম্নলিখিত কোড যোগ করুন:
```python
speech_api_key = '<key>'
location = '<location>'
language = '<language>'
recognizer_config = SpeechConfig(subscription=speech_api_key,
region=location,
speech_recognition_language=language)
```
`<key>` এর জায়গায় আপনার স্পিচ সার্ভিসের API কী বসান। `<location>` এর জায়গায় সেই অবস্থান বসান যা আপনি স্পিচ সার্ভিস রিসোর্স তৈরি করার সময় ব্যবহার করেছিলেন।
`<language>` এর জায়গায় আপনি যে ভাষায় কথা বলবেন তার লোকেল নাম বসান, যেমন `en-GB` ইংরেজির জন্য, অথবা `zn-HK` ক্যান্টোনিজের জন্য। আপনি সমর্থিত ভাষা এবং তাদের লোকেল নামের তালিকা [Microsoft ডক্সে ভাষা এবং ভয়েস সাপোর্ট ডকুমেন্টেশনে](https://docs.microsoft.com/azure/cognitive-services/speech-service/language-support?WT.mc_id=academic-17441-jabenn#speech-to-text) খুঁজে পেতে পারেন।
এই কনফিগারেশনটি একটি `SpeechConfig` অবজেক্ট তৈরি করতে ব্যবহৃত হয় যা স্পিচ সার্ভিস কনফিগার করতে ব্যবহৃত হবে।
1. একটি স্পিচ রিকগনাইজার তৈরি করতে নিম্নলিখিত কোড যোগ করুন:
```python
recognizer = SpeechRecognizer(speech_config=recognizer_config)
```
1. স্পিচ রিকগনাইজার একটি ব্যাকগ্রাউন্ড থ্রেডে চলে, অডিও শোনে এবং এতে থাকা স্পিচকে টেক্সটে রূপান্তর করে। আপনি একটি কলব্যাক ফাংশন ব্যবহার করে টেক্সট পেতে পারেন - একটি ফাংশন যা আপনি সংজ্ঞায়িত করেন এবং রিকগনাইজারে পাঠান। যখনই স্পিচ সনাক্ত হয়, কলব্যাকটি ডাকা হয়। নিম্নলিখিত কোড যোগ করুন একটি কলব্যাক সংজ্ঞায়িত করতে, এবং এই কলব্যাকটি রিকগনাইজারে পাঠাতে, পাশাপাশি একটি ফাংশন সংজ্ঞায়িত করতে যা টেক্সট প্রক্রিয়া করবে এবং কনসোলে লিখবে:
```python
def process_text(text):
print(text)
def recognized(args):
process_text(args.result.text)
recognizer.recognized.connect(recognized)
```
1. রিকগনাইজার শুধুমাত্র তখনই শুনতে শুরু করে যখন আপনি এটি স্পষ্টভাবে শুরু করেন। রিকগনিশন শুরু করতে নিম্নলিখিত কোড যোগ করুন। এটি ব্যাকগ্রাউন্ডে চলে, তাই আপনার অ্যাপ্লিকেশনেও একটি ইনফিনিট লুপ প্রয়োজন যা অ্যাপ্লিকেশন চালু রাখতে ঘুমাবে।
```python
recognizer.start_continuous_recognition()
while True:
time.sleep(1)
```
1. এই অ্যাপ চালান। আপনার মাইক্রোফোনে কথা বলুন এবং অডিও টেক্সটে রূপান্তরিত হয়ে কনসোলে আউটপুট হবে।
```output
(.venv) ➜ smart-timer python3 app.py
Hello world.
Welcome to IoT for beginners.
```
বিভিন্ন ধরনের বাক্য চেষ্টা করুন, পাশাপাশি এমন বাক্য যেখানে শব্দগুলো একই রকম শোনায় কিন্তু তাদের অর্থ ভিন্ন। উদাহরণস্বরূপ, যদি আপনি ইংরেজিতে কথা বলছেন, বলুন 'I want to buy two bananas and an apple too', এবং লক্ষ্য করুন এটি কিভাবে সঠিক to, two এবং too ব্যবহার করে শব্দের প্রসঙ্গের উপর ভিত্তি করে, শুধুমাত্র শব্দের আওয়াজ নয়।
> 💁 আপনি এই কোডটি [code-speech-to-text/virtual-iot-device](../../../../../6-consumer/lessons/1-speech-recognition/code-speech-to-text/virtual-iot-device) ফোল্ডারে খুঁজে পেতে পারেন।
😀 আপনার স্পিচ টু টেক্সট প্রোগ্রাম সফল হয়েছে!
---
**অস্বীকৃতি**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় রচিত সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ ব্যবহার করার পরামর্শ দেওয়া হচ্ছে। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।