You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
IoT-For-Beginners/translations/ne/6-consumer/lessons/3-spoken-feedback/pi-text-to-speech.md

156 lines
13 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "606f3af1c78e3741e48ce77c31cea626",
"translation_date": "2025-08-27T13:53:49+00:00",
"source_file": "6-consumer/lessons/3-spoken-feedback/pi-text-to-speech.md",
"language_code": "ne"
}
-->
# टेक्स्टलाई आवाजमा रूपान्तरण गर्नुहोस् - रास्पबेरी पाई
यस पाठको यस भागमा, तपाईंले स्पीच सेवा प्रयोग गरेर टेक्स्टलाई आवाजमा रूपान्तरण गर्ने कोड लेख्नुहुनेछ।
## स्पीच सेवा प्रयोग गरेर टेक्स्टलाई आवाजमा रूपान्तरण गर्नुहोस्
तपाईं टेक्स्टलाई स्पीच सेवामा REST API मार्फत पठाउन सक्नुहुन्छ, जसले आवाजलाई अडियो फाइलको रूपमा प्रदान गर्छ, जुन तपाईंको IoT उपकरणमा प्ले गर्न सकिन्छ। स्पीच अनुरोध गर्दा, तपाईंले प्रयोग गर्नुपर्ने आवाज प्रदान गर्नुपर्छ, किनभने विभिन्न प्रकारका आवाजहरू प्रयोग गरेर स्पीच उत्पन्न गर्न सकिन्छ।
प्रत्येक भाषाले विभिन्न आवाजहरूको दायरा समर्थन गर्दछ, र तपाईं स्पीच सेवामा REST अनुरोध गरेर प्रत्येक भाषाका लागि समर्थित आवाजहरूको सूची प्राप्त गर्न सक्नुहुन्छ।
### कार्य - आवाज प्राप्त गर्नुहोस्
1. VS Code मा `smart-timer` प्रोजेक्ट खोल्नुहोस्।
1. भाषाको लागि आवाजहरूको सूची अनुरोध गर्न `say` फङ्क्सनको माथि निम्न कोड थप्नुहोस्:
```python
def get_voice():
url = f'https://{location}.tts.speech.microsoft.com/cognitiveservices/voices/list'
headers = {
'Authorization': 'Bearer ' + get_access_token()
}
response = requests.get(url, headers=headers)
voices_json = json.loads(response.text)
first_voice = next(x for x in voices_json if x['Locale'].lower() == language.lower() and x['VoiceType'] == 'Neural')
return first_voice['ShortName']
voice = get_voice()
print(f'Using voice {voice}')
```
यो कोडले `get_voice` नामक फङ्क्सन परिभाषित गर्छ, जसले स्पीच सेवाको प्रयोग गरेर आवाजहरूको सूची प्राप्त गर्छ। त्यसपछि यो फङ्क्सनले प्रयोग भइरहेको भाषासँग मेल खाने पहिलो आवाज फेला पार्छ।
यो फङ्क्सनलाई पहिलो आवाज भण्डारण गर्न बोलाइन्छ, र आवाजको नाम कन्सोलमा प्रिन्ट गरिन्छ। यो आवाज एकपटक अनुरोध गर्न सकिन्छ, र टेक्स्टलाई आवाजमा रूपान्तरण गर्न प्रत्येक कलको लागि यसको मान प्रयोग गर्न सकिन्छ।
> 💁 तपाईं समर्थित आवाजहरूको पूर्ण सूची [Microsoft Docs मा भाषा र आवाज समर्थन दस्तावेज](https://docs.microsoft.com/azure/cognitive-services/speech-service/language-support?WT.mc_id=academic-17441-jabenn#text-to-speech) बाट प्राप्त गर्न सक्नुहुन्छ। यदि तपाईं विशेष आवाज प्रयोग गर्न चाहनुहुन्छ भने, तपाईं यो फङ्क्सन हटाएर दस्तावेजबाट आवाजको नाम हार्ड कोड गर्न सक्नुहुन्छ। उदाहरणका लागि:
>
> ```python
> voice = 'hi-IN-SwaraNeural'
> ```
### कार्य - टेक्स्टलाई आवाजमा रूपान्तरण गर्नुहोस्
1. यसको तल, स्पीच सेवाबाट प्राप्त गर्नुपर्ने अडियो फर्म्याटको लागि एक स्थिरांक परिभाषित गर्नुहोस्। अडियो अनुरोध गर्दा, तपाईं विभिन्न फर्म्याटहरूमा गर्न सक्नुहुन्छ।
```python
playback_format = 'riff-48khz-16bit-mono-pcm'
```
तपाईंले प्रयोग गर्न सक्ने फर्म्याट तपाईंको हार्डवेयरमा निर्भर गर्दछ। यदि अडियो प्ले गर्दा तपाईंलाई `Invalid sample rate` त्रुटिहरू प्राप्त हुन्छ भने यसलाई अर्को मानमा परिवर्तन गर्नुहोस्। समर्थित मानहरूको सूची [Text to speech REST API documentation on Microsoft Docs](https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-text-to-speech?WT.mc_id=academic-17441-jabenn#audio-outputs) मा फेला पार्न सकिन्छ। तपाईंले `riff` फर्म्याट अडियो प्रयोग गर्नुपर्नेछ, र प्रयास गर्नुपर्ने मानहरू `riff-16khz-16bit-mono-pcm`, `riff-24khz-16bit-mono-pcm``riff-48khz-16bit-mono-pcm` हुन्।
1. यसको तल, `get_speech` नामक फङ्क्सन घोषणा गर्नुहोस्, जसले स्पीच सेवा REST API प्रयोग गरेर टेक्स्टलाई आवाजमा रूपान्तरण गर्नेछ:
```python
def get_speech(text):
```
1. `get_speech` फङ्क्सनमा, कल गर्नुपर्ने URL र पास गर्नुपर्ने हेडरहरू परिभाषित गर्नुहोस्:
```python
url = f'https://{location}.tts.speech.microsoft.com/cognitiveservices/v1'
headers = {
'Authorization': 'Bearer ' + get_access_token(),
'Content-Type': 'application/ssml+xml',
'X-Microsoft-OutputFormat': playback_format
}
```
यसले हेडरहरू सेट गर्छ, जसले उत्पन्न गरिएको एक्सेस टोकन प्रयोग गर्छ, सामग्रीलाई SSML मा सेट गर्छ, र आवश्यक अडियो फर्म्याट परिभाषित गर्छ।
1. यसको तल, REST API मा पठाउनुपर्ने SSML परिभाषित गर्नुहोस्:
```python
ssml = f'<speak version=\'1.0\' xml:lang=\'{language}\'>'
ssml += f'<voice xml:lang=\'{language}\' name=\'{voice}\'>'
ssml += text
ssml += '</voice>'
ssml += '</speak>'
```
यो SSML ले प्रयोग गर्नुपर्ने भाषा र आवाज सेट गर्छ, साथै रूपान्तरण गर्नुपर्ने टेक्स्ट पनि।
1. अन्ततः, यस फङ्क्सनमा REST अनुरोध गर्न र बाइनरी अडियो डेटा फर्काउन कोड थप्नुहोस्:
```python
response = requests.post(url, headers=headers, data=ssml.encode('utf-8'))
return io.BytesIO(response.content)
```
### कार्य - अडियो प्ले गर्नुहोस्
1. `get_speech` फङ्क्सनको तल, REST API कलबाट फर्काइएको अडियो प्ले गर्न नयाँ फङ्क्सन परिभाषित गर्नुहोस्:
```python
def play_speech(speech):
```
1. यस फङ्क्सनमा पास गरिएको `speech` REST API बाट फर्काइएको बाइनरी अडियो डेटा हुनेछ। यसलाई वेभ फाइलको रूपमा खोल्न र PyAudio मार्फत अडियो प्ले गर्न निम्न कोड प्रयोग गर्नुहोस्:
```python
def play_speech(speech):
with wave.open(speech, 'rb') as wave_file:
stream = audio.open(format=audio.get_format_from_width(wave_file.getsampwidth()),
channels=wave_file.getnchannels(),
rate=wave_file.getframerate(),
output_device_index=speaker_card_number,
output=True)
data = wave_file.readframes(4096)
while len(data) > 0:
stream.write(data)
data = wave_file.readframes(4096)
stream.stop_stream()
stream.close()
```
यो कोडले PyAudio स्ट्रिम प्रयोग गर्छ, जसले अडियो क्याप्चर गर्ने जस्तै काम गर्छ। यहाँ फरक के छ भने स्ट्रिमलाई आउटपुट स्ट्रिमको रूपमा सेट गरिएको छ, र अडियो डेटा बाट पढेर स्ट्रिममा पठाइन्छ।
स्ट्रिम विवरणहरू जस्तै स्याम्पल रेट हार्ड कोड गर्ने सट्टा, यो अडियो डेटा बाट पढिन्छ।
1. `say` फङ्क्सनको सामग्रीलाई निम्नमा परिवर्तन गर्नुहोस्:
```python
speech = get_speech(text)
play_speech(speech)
```
यो कोडले टेक्स्टलाई बाइनरी अडियो डेटा रूपमा रूपान्तरण गर्छ, र अडियो प्ले गर्छ।
1. एप चलाउनुहोस्, र सुनिश्चित गर्नुहोस् कि फङ्क्सन एप पनि चलिरहेको छ। केही टाइमर सेट गर्नुहोस्, र तपाईंले सुन्नुहुनेछ कि तपाईंको टाइमर सेट भएको छ भन्ने बोलेको प्रतिक्रिया, त्यसपछि टाइमर पूरा हुँदा अर्को बोलेको प्रतिक्रिया।
यदि तपाईंलाई `Invalid sample rate` त्रुटिहरू प्राप्त हुन्छ भने, माथि वर्णन गरिएको अनुसार `playback_format` परिवर्तन गर्नुहोस्।
> 💁 तपाईं यो कोड [code-spoken-response/pi](../../../../../6-consumer/lessons/3-spoken-feedback/code-spoken-response/pi) फोल्डरमा फेला पार्न सक्नुहुन्छ।
😀 तपाईंको टाइमर प्रोग्राम सफल भयो!
---
**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।