10 KiB

Raw Permalink Blame History

স্পিচ টু টেক্সট - ভার্চুয়াল IoT ডিভাইস

এই পাঠের এই অংশে, আপনি কোড লিখবেন যা আপনার মাইক্রোফোন থেকে ধরা স্পিচকে টেক্সটে রূপান্তর করবে স্পিচ সার্ভিস ব্যবহার করে।

স্পিচকে টেক্সটে রূপান্তর করুন

উইন্ডোজ, লিনাক্স এবং ম্যাকওএস-এ, স্পিচ সার্ভিসের পাইথন SDK ব্যবহার করে আপনার মাইক্রোফোন থেকে শোনা স্পিচকে টেক্সটে রূপান্তর করা যায়। এটি ক্রমাগত শুনবে, অডিও লেভেল সনাক্ত করবে এবং যখন অডিও লেভেল কমে যাবে, যেমন একটি স্পিচ ব্লকের শেষে, তখন স্পিচকে টেক্সটে রূপান্তর করার জন্য পাঠাবে।

কাজ - স্পিচকে টেক্সটে রূপান্তর করুন

আপনার কম্পিউটারে smart-timer নামে একটি ফোল্ডারে একটি নতুন পাইথন অ্যাপ তৈরি করুন, যেখানে একটি ফাইল থাকবে app.py নামে এবং একটি পাইথন ভার্চুয়াল এনভায়রনমেন্ট থাকবে।
স্পিচ সার্ভিসের জন্য Pip প্যাকেজ ইনস্টল করুন। নিশ্চিত করুন যে আপনি এটি একটি টার্মিনাল থেকে ইনস্টল করছেন যেখানে ভার্চুয়াল এনভায়রনমেন্ট সক্রিয় করা হয়েছে।
```
pip install azure-cognitiveservices-speech
```
⚠️ যদি আপনি নিম্নলিখিত ত্রুটি পান:
```
ERROR: Could not find a version that satisfies the requirement azure-cognitiveservices-speech (from versions: none)
ERROR: No matching distribution found for azure-cognitiveservices-speech
```
আপনাকে Pip আপডেট করতে হবে। এটি নিম্নলিখিত কমান্ড দিয়ে করুন, তারপর আবার প্যাকেজ ইনস্টল করার চেষ্টা করুন:
```
pip install --upgrade pip
```
app.py ফাইলে নিম্নলিখিত ইমপোর্ট যোগ করুন:
```
import requests
import time
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer
```
এটি কিছু ক্লাস ইমপোর্ট করে যা স্পিচ সনাক্ত করতে ব্যবহৃত হয়।
কিছু কনফিগারেশন ঘোষণা করতে নিম্নলিখিত কোড যোগ করুন:
```
speech_api_key = '<key>'
location = '<location>'
language = '<language>'

recognizer_config = SpeechConfig(subscription=speech_api_key,
                                 region=location,
                                 speech_recognition_language=language)
```
<key> এর জায়গায় আপনার স্পিচ সার্ভিসের API কী বসান। <location> এর জায়গায় সেই অবস্থান বসান যা আপনি স্পিচ সার্ভিস রিসোর্স তৈরি করার সময় ব্যবহার করেছিলেন।

<language> এর জায়গায় আপনি যে ভাষায় কথা বলবেন তার লোকেল নাম বসান, যেমন en-GB ইংরেজির জন্য, অথবা zn-HK ক্যান্টোনিজের জন্য। আপনি সমর্থিত ভাষা এবং তাদের লোকেল নামের তালিকা Microsoft ডক্সে ভাষা এবং ভয়েস সাপোর্ট ডকুমেন্টেশনে খুঁজে পেতে পারেন।

এই কনফিগারেশনটি একটি SpeechConfig অবজেক্ট তৈরি করতে ব্যবহৃত হয় যা স্পিচ সার্ভিস কনফিগার করতে ব্যবহৃত হবে।
একটি স্পিচ রিকগনাইজার তৈরি করতে নিম্নলিখিত কোড যোগ করুন:
```
recognizer = SpeechRecognizer(speech_config=recognizer_config)
```
স্পিচ রিকগনাইজার একটি ব্যাকগ্রাউন্ড থ্রেডে চলে, অডিও শোনে এবং এতে থাকা স্পিচকে টেক্সটে রূপান্তর করে। আপনি একটি কলব্যাক ফাংশন ব্যবহার করে টেক্সট পেতে পারেন - একটি ফাংশন যা আপনি সংজ্ঞায়িত করেন এবং রিকগনাইজারে পাঠান। যখনই স্পিচ সনাক্ত হয়, কলব্যাকটি ডাকা হয়। নিম্নলিখিত কোড যোগ করুন একটি কলব্যাক সংজ্ঞায়িত করতে, এবং এই কলব্যাকটি রিকগনাইজারে পাঠাতে, পাশাপাশি একটি ফাংশন সংজ্ঞায়িত করতে যা টেক্সট প্রক্রিয়া করবে এবং কনসোলে লিখবে:
```
def process_text(text):
    print(text)

def recognized(args):
    process_text(args.result.text)

recognizer.recognized.connect(recognized)
```
রিকগনাইজার শুধুমাত্র তখনই শুনতে শুরু করে যখন আপনি এটি স্পষ্টভাবে শুরু করেন। রিকগনিশন শুরু করতে নিম্নলিখিত কোড যোগ করুন। এটি ব্যাকগ্রাউন্ডে চলে, তাই আপনার অ্যাপ্লিকেশনেও একটি ইনফিনিট লুপ প্রয়োজন যা অ্যাপ্লিকেশন চালু রাখতে ঘুমাবে।
```
recognizer.start_continuous_recognition()

while True:
    time.sleep(1)
```
এই অ্যাপ চালান। আপনার মাইক্রোফোনে কথা বলুন এবং অডিও টেক্সটে রূপান্তরিত হয়ে কনসোলে আউটপুট হবে।
```
(.venv) ➜  smart-timer python3 app.py
Hello world.
Welcome to IoT for beginners.
```
বিভিন্ন ধরনের বাক্য চেষ্টা করুন, পাশাপাশি এমন বাক্য যেখানে শব্দগুলো একই রকম শোনায় কিন্তু তাদের অর্থ ভিন্ন। উদাহরণস্বরূপ, যদি আপনি ইংরেজিতে কথা বলছেন, বলুন 'I want to buy two bananas and an apple too', এবং লক্ষ্য করুন এটি কিভাবে সঠিক to, two এবং too ব্যবহার করে শব্দের প্রসঙ্গের উপর ভিত্তি করে, শুধুমাত্র শব্দের আওয়াজ নয়।

💁 আপনি এই কোডটি code-speech-to-text/virtual-iot-device ফোল্ডারে খুঁজে পেতে পারেন।

😀 আপনার স্পিচ টু টেক্সট প্রোগ্রাম সফল হয়েছে!

অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় রচিত সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ ব্যবহার করার পরামর্শ দেওয়া হচ্ছে। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।

10 KiB Raw Permalink Blame History

স্পিচ টু টেক্সট - ভার্চুয়াল IoT ডিভাইস

স্পিচকে টেক্সটে রূপান্তর করুন

কাজ - স্পিচকে টেক্সটে রূপান্তর করুন

10 KiB

Raw Permalink Blame History