IoT-For-Beginners/translations/mr/6-consumer/lessons/1-speech-recognition/README.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "6d6aa1be033625d201a190fc9c5cbfb4",
  "translation_date": "2025-08-27T14:03:49+00:00",
  "source_file": "6-consumer/lessons/1-speech-recognition/README.md",
  "language_code": "mr"
}
-->
# IoT डिव्हाइससह भाषण ओळखणे

![या धड्याचा स्केच नोट आढावा](../../../../../translated_images/lesson-21.e34de51354d6606fb5ee08d8c89d0222eea0a2a7aaf744a8805ae847c4f69dc4.mr.jpg)

> स्केच नोट [नित्या नरसिंहन](https://github.com/nitya) यांनी तयार केले आहे. मोठ्या आवृत्तीसाठी प्रतिमेवर क्लिक करा.

या व्हिडिओमध्ये Azure भाषण सेवांचा आढावा दिला आहे, जो या धड्यात समाविष्ट केला जाईल:

[![मायक्रोसॉफ्ट Azure YouTube चॅनेलवरून तुमच्या Cognitive Services Speech संसाधनाचा वापर कसा सुरू करायचा](https://img.youtube.com/vi/iW0Fw0l3mrA/0.jpg)](https://www.youtube.com/watch?v=iW0Fw0l3mrA)

> 🎥 वरील प्रतिमेवर क्लिक करून व्हिडिओ पहा

## व्याख्यानपूर्व प्रश्नमंजुषा

[व्याख्यानपूर्व प्रश्नमंजुषा](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/41)

## परिचय

'अलेक्सा, 12 मिनिटांचा टाइमर सेट कर'

'अलेक्सा, टाइमरची स्थिती काय आहे?'

'अलेक्सा, 8 मिनिटांचा टाइमर सेट कर, ज्याला स्टीम ब्रोकोली म्हणतात'

स्मार्ट डिव्हाइस आता अधिकाधिक सर्वत्र दिसत आहेत. फक्त HomePods, Echos आणि Google Homes सारख्या स्मार्ट स्पीकर्सपुरते मर्यादित नाहीत, तर आपल्या फोन, घड्याळे, अगदी लाईट फिटिंग्ज आणि थर्मोस्टॅट्समध्येही समाविष्ट आहेत.

> 💁 माझ्या घरी किमान 19 डिव्हाइस आहेत ज्यामध्ये व्हॉइस असिस्टंट्स आहेत, आणि हे फक्त मला माहित असलेले आहेत!

व्हॉइस कंट्रोलमुळे मर्यादित हालचाली असलेल्या लोकांना डिव्हाइसशी संवाद साधणे सोपे होते. जन्मतः हात नसणे, तात्पुरती अपंगत्वे जसे की हात मोडणे, किंवा खरेदीच्या पिशव्या किंवा लहान मुलांनी हात भरलेले असणे, अशा परिस्थितीत हाताऐवजी आवाजाने आपले घर नियंत्रित करणे हा प्रवेशाचा एक नवीन मार्ग उघडतो. 'हे Siri, माझे गॅरेजचे दार बंद कर' असे ओरडणे, बाळाला सांभाळताना आणि चंचल लहान मुलाला शांत करताना, जीवनात एक लहान पण प्रभावी सुधारणा ठरू शकते.

व्हॉइस असिस्टंट्सचा एक लोकप्रिय उपयोग म्हणजे टाइमर सेट करणे, विशेषतः स्वयंपाकघरातील टाइमर. फक्त आपल्या आवाजाने अनेक टाइमर सेट करण्याची क्षमता स्वयंपाकघरात खूप मदत करते - पीठ मळणे, सूप ढवळणे किंवा हात स्वच्छ करण्याची गरज न पडता.

या धड्यात तुम्ही IoT डिव्हाइससाठी व्हॉइस रेकग्निशन तयार करण्याबद्दल शिकाल. तुम्ही मायक्रोफोन सेन्सर म्हणून कसे वापरायचे, IoT डिव्हाइसला जोडलेल्या मायक्रोफोनमधून ऑडिओ कसा कॅप्चर करायचा, आणि ऐकलेल्या गोष्टींना टेक्स्टमध्ये कसे रूपांतरित करायचे हे शिकाल. या प्रकल्पाच्या उर्वरित भागात तुम्ही एक स्मार्ट किचन टाइमर तयार कराल, जो अनेक भाषांमध्ये तुमच्या आवाजाने टाइमर सेट करू शकेल.

या धड्यात आपण शिकणार आहोत:

* [मायक्रोफोन](../../../../../6-consumer/lessons/1-speech-recognition)
* [तुमच्या IoT डिव्हाइसवरून ऑडिओ कॅप्चर करा](../../../../../6-consumer/lessons/1-speech-recognition)
* [स्पीच टू टेक्स्ट](../../../../../6-consumer/lessons/1-speech-recognition)
* [भाषणाचे टेक्स्टमध्ये रूपांतर करा](../../../../../6-consumer/lessons/1-speech-recognition)

## मायक्रोफोन

मायक्रोफोन हे अॅनालॉग सेन्सर आहेत जे ध्वनीलहरींना विद्युत सिग्नलमध्ये रूपांतरित करतात. हवेतील कंप मायक्रोफोनमधील घटकांना सूक्ष्म प्रमाणात हलवतात, ज्यामुळे विद्युत सिग्नलमध्ये लहान बदल होतात. हे बदल नंतर वाढवले जातात आणि विद्युत आउटपुट तयार होतो.

### मायक्रोफोन प्रकार

मायक्रोफोन विविध प्रकारांमध्ये उपलब्ध आहेत:

* डायनॅमिक - डायनॅमिक मायक्रोफोनमध्ये एका हालणाऱ्या डायाफ्रामला जोडलेला चुंबक असतो, जो वायरच्या कॉइलमध्ये हालतो आणि विद्युत प्रवाह निर्माण करतो. हे बहुतेक लाउडस्पीकर्सच्या उलट आहे, जे विद्युत प्रवाहाचा वापर करून चुंबक हलवतात आणि ध्वनी निर्माण करतात. याचा अर्थ स्पीकर्स डायनॅमिक मायक्रोफोन म्हणून वापरले जाऊ शकतात, आणि डायनॅमिक मायक्रोफोन स्पीकर्स म्हणून वापरले जाऊ शकतात. इंटरकॉमसारख्या डिव्हाइससाठी, जिथे वापरकर्ता ऐकत किंवा बोलत असतो, एकच डिव्हाइस स्पीकर आणि मायक्रोफोन म्हणून कार्य करू शकते.

    डायनॅमिक मायक्रोफोन कार्य करण्यासाठी वीजेची गरज नसते, विद्युत सिग्नल पूर्णपणे मायक्रोफोनमधून तयार होतो.

    ![पॅटी स्मिथ श्युर SM58 (डायनॅमिक कार्डिओइड प्रकार) मायक्रोफोनमध्ये गात आहे](../../../../../translated_images/dynamic-mic.8babac890a2d80dfb0874b5bf37d4b851fe2aeb9da6fd72945746176978bf3bb.mr.jpg)

* रिबन - रिबन मायक्रोफोन डायनॅमिक मायक्रोफोनसारखेच असतात, परंतु त्यात डायाफ्रामऐवजी धातूचा रिबन असतो. हा रिबन चुंबकीय क्षेत्रात हलतो आणि विद्युत प्रवाह निर्माण करतो. डायनॅमिक मायक्रोफोनप्रमाणे, रिबन मायक्रोफोन कार्य करण्यासाठी वीजेची गरज नसते.

    ![एडमंड लोवे, अमेरिकन अभिनेता, रेडिओ मायक्रोफोनसमोर उभा (NBC ब्लू नेटवर्कसाठी), स्क्रिप्ट हातात धरून, 1942](../../../../../translated_images/ribbon-mic.eacc8e092c7441caee6d7a81e2f40e1675bf36269848964c7c09c9a9acb05127.mr.jpg)

* कंडेन्सर - कंडेन्सर मायक्रोफोनमध्ये एक पातळ धातूचा डायाफ्राम आणि एक स्थिर धातूचा बॅकप्लेट असतो. दोन्हीवर वीज लागू केली जाते आणि डायाफ्राम कंपित झाल्यावर प्लेट्समधील स्थिर चार्ज बदलतो आणि सिग्नल तयार होतो. कंडेन्सर मायक्रोफोन कार्य करण्यासाठी वीज आवश्यक असते - याला *फॅंटम पॉवर* म्हणतात.

    ![AKG Acoustics चा C451B लहान डायाफ्राम कंडेन्सर मायक्रोफोन](../../../../../translated_images/condenser-mic.6f6ed5b76ca19e0ec3fd0c544601542d4479a6cb7565db336de49fbbf69f623e.mr.jpg)

* MEMS - मायक्रोइलेक्ट्रोमेकॅनिकल सिस्टीम मायक्रोफोन, किंवा MEMS, हे चिपवरचे मायक्रोफोन आहेत. त्यात सिलिकॉन चिपवर कोरलेला दाब-संवेदनशील डायाफ्राम असतो आणि ते कंडेन्सर मायक्रोफोनसारखेच कार्य करतात. हे मायक्रोफोन खूप लहान असू शकतात आणि सर्किट्रीमध्ये समाकलित केले जाऊ शकतात.

    ![सर्किट बोर्डवरील MEMS मायक्रोफोन](../../../../../translated_images/mems-microphone.80574019e1f5e4d9ee72fed720ecd25a39fc2969c91355d17ebb24ba4159e4c4.mr.png)

    वरील प्रतिमेत, **LEFT** लेबल असलेला चिप हा MEMS मायक्रोफोन आहे, ज्याचा डायाफ्राम एक मिलीमीटरपेक्षा कमी रुंद आहे.

✅ संशोधन करा: तुमच्या आजूबाजूला कोणते मायक्रोफोन आहेत - तुमच्या संगणकात, फोनमध्ये, हेडसेटमध्ये किंवा इतर डिव्हाइससाठी. ते कोणत्या प्रकारचे मायक्रोफोन आहेत?

### डिजिटल ऑडिओ

ऑडिओ हा अॅनालॉग सिग्नल आहे जो अतिशय सूक्ष्म माहिती वाहून नेतो. या सिग्नलला डिजिटलमध्ये रूपांतरित करण्यासाठी, ऑडिओला दर सेकंदाला हजारो वेळा सॅम्पल करणे आवश्यक आहे.

> 🎓 सॅम्पलिंग म्हणजे ऑडिओ सिग्नलला डिजिटल मूल्यामध्ये रूपांतरित करणे, जे त्या विशिष्ट क्षणी सिग्नलचे प्रतिनिधित्व करते.

![सिग्नल दर्शवणारा एक रेषीय चार्ट, निश्चित अंतरावर ठराविक बिंदूंसह](../../../../../translated_images/sampling.6f4fadb3f2d9dfe7618f9edfe75a350e6b3f74293ec84f02ab69c19d2afe3d73.mr.png)

डिजिटल ऑडिओ पल्स कोड मॉड्युलेशन (PCM) वापरून सॅम्पल केला जातो. PCM मध्ये सिग्नलचा व्होल्टेज वाचणे आणि परिभाषित आकाराचा वापर करून त्या व्होल्टेजच्या जवळच्या ठराविक मूल्याची निवड करणे समाविष्ट आहे.

> 💁 तुम्ही PCM ला पल्स विड्थ मॉड्युलेशन (PWM) च्या सेन्सर आवृत्तीप्रमाणे विचार करू शकता (PWM [प्रकल्पाच्या सुरुवातीच्या धड्यात](../../../1-getting-started/lessons/3-sensors-and-actuators/README.md#pulse-width-modulation) समाविष्ट केले होते). PCM अॅनालॉग सिग्नलला डिजिटलमध्ये रूपांतरित करते, तर PWM डिजिटल सिग्नलला अॅनालॉगमध्ये रूपांतरित करते.

उदाहरणार्थ, बहुतेक स्ट्रीमिंग म्युझिक सेवा 16-बिट किंवा 24-बिट ऑडिओ ऑफर करतात. याचा अर्थ ते व्होल्टेजला 16-बिट पूर्णांक किंवा 24-बिट पूर्णांकात बसणाऱ्या मूल्यामध्ये रूपांतरित करतात. 16-बिट ऑडिओ -32,768 ते 32,767 पर्यंतच्या श्रेणीतील मूल्यामध्ये बसतो, तर 24-बिट -8,388,608 ते 8,388,607 पर्यंतच्या श्रेणीतील असतो. जितके अधिक बिट्स, तितके सॅम्पल आपल्या कानांनी ऐकलेल्या मूळ ऑडिओच्या जवळ असते.

> 💁 तुम्ही 8-बिट ऑडिओबद्दल ऐकले असेल, ज्याला LoFi म्हणतात. हे फक्त 8-बिट्स वापरून सॅम्पल केलेले ऑडिओ आहे, म्हणजे -128 ते 127. पहिल्या संगणक ऑडिओला हार्डवेअर मर्यादांमुळे 8-बिट्सपुरते मर्यादित होते, त्यामुळे हे रेट्रो गेमिंगमध्ये अनेकदा दिसते.

हे सॅम्पल्स दर सेकंदाला हजारो वेळा घेतले जातात, KHz (प्रति सेकंद हजारो वाचन) मध्ये मोजल्या जाणाऱ्या ठराविक सॅम्पल दरांचा वापर करून. स्ट्रीमिंग म्युझिक सेवा बहुतेक ऑडिओसाठी 48KHz वापरतात, परंतु काही 'लॉसलेस' ऑडिओ 96KHz किंवा अगदी 192KHz पर्यंत वापरतात. सॅम्पल दर जितका जास्त, तितका मूळ ऑडिओच्या जवळ, एका मर्यादेपर्यंत. 48KHz पेक्षा जास्त फरक माणसांना कळतो का यावर वाद आहे.

✅ संशोधन करा: तुम्ही स्ट्रीमिंग म्युझिक सेवा वापरत असल्यास, ती कोणता सॅम्पल दर आणि आकार वापरते? तुम्ही CD वापरत असल्यास, CD ऑडिओचा सॅम्पल दर आणि आकार काय आहे?

ऑडिओ डेटासाठी अनेक वेगवेगळे स्वरूप आहेत. तुम्ही mp3 फाइल्सबद्दल ऐकले असेल - ऑडिओ डेटा जो गुणवत्ता न गमावता लहान करण्यासाठी संकुचित केला जातो. न संकुचित केलेला ऑडिओ अनेकदा WAV फाइल म्हणून संग्रहित केला जातो - ही 44 बाइट्सच्या हेडर माहितीची फाइल आहे, त्यानंतर कच्चा ऑडिओ डेटा असतो. हेडरमध्ये सॅम्पल दर (उदाहरणार्थ 16000 साठी 16KHz) आणि सॅम्पल आकार (16 साठी 16-बिट), आणि चॅनेलची संख्या यासारखी माहिती असते. हेडरनंतर, WAV फाइलमध्ये कच्चा ऑडिओ डेटा असतो.

> 🎓 चॅनेल म्हणजे ऑडिओ बनवणाऱ्या वेगवेगळ्या ऑडिओ प्रवाहांची संख्या. उदाहरणार्थ, डाव्या आणि उजव्या असलेल्या स्टीरिओ ऑडिओसाठी 2 चॅनेल असतील. होम थिएटर सिस्टमसाठी 7.1 सराउंड साउंडसाठी हे 8 असेल.

### ऑडिओ डेटाचा आकार

ऑडिओ डेटा तुलनेने मोठा असतो. उदाहरणार्थ, 16-बिट ऑडिओ 16KHz वर न संकुचित स्वरूपात कॅप्चर करणे (स्पीच टू टेक्स्ट मॉडेलसाठी पुरेसा दर), प्रत्येक सेकंदासाठी 32KB डेटा घेतो:

* 16-बिट म्हणजे प्रति सॅम्पल 2 बाइट्स (1 बाइट म्हणजे 8 बिट्स).
* 16KHz म्हणजे दर सेकंदाला 16,000 सॅम्पल्स.
* 16,000 x 2 बाइट्स = 32,000 बाइट्स प्रति सेकंद.

हे डेटा प्रमाण लहान वाटते, परंतु जर तुम्ही मर्यादित मेमरी असलेल्या मायक्रोकंट्रोलरसह काम करत असाल, तर हे खूप असू शकते. उदाहरणार्थ, Wio Terminal मध्ये 192KB मेमरी आहे, आणि त्यात प्रोग्राम कोड आणि व्हेरिएबल्स साठवले जातात. जरी तुमचा प्रोग्राम कोड लहान असला तरी, तुम्ही 5 सेकंदांपेक्षा जास्त ऑडिओ कॅप्चर करू शकत नाही.

मायक्रोकंट्रोलर अतिरिक्त स्टोरेजमध्ये प्रवेश करू शकतात, जसे की SD कार्ड्स किंवा फ्लॅश मेमरी. ऑडिओ कॅप्चर करणारे IoT डिव्हाइस तयार करताना तुम्हाला केवळ अतिरिक्त स्टोरेजच नाही, तर तुमचा कोड मायक्रोफोनमधून कॅप्चर केलेला ऑडिओ थेट त्या स्टोरेजमध्ये लिहितो याची खात्री करावी लागेल. क्लाउडवर पाठवताना, तुम्ही स्टोरेजमधून वेब विनंतीसाठी थेट प्रवाह कराल. अशा प्रकारे तुम्ही संपूर्ण ऑडिओ डेटा ब्लॉक एकाच वेळी मेमरीमध्ये ठेवण्याचा प्रयत्न करून मेमरी संपण्यापासून वाचू शकता.

## तुमच्या IoT डिव्हाइसवरून ऑडिओ कॅप्चर करा

तुमचे IoT डिव्हाइस मायक्रोफोनशी जोडले जाऊ शकते, ऑडिओ कॅप्चर करण्यासाठी तयार, जो टेक्स्टमध्ये रूपांतरित केला जाईल. ते स्पीकर्सशी देखील जोडले जाऊ शकते, ऑडिओ आउटपुटसाठी. पुढील धड्यांमध्ये हे ऑडिओ फीडबॅक देण्यासाठी वापरले जाईल, परंतु मायक्रोफोनची चाचणी घेण्यासाठी स्पीकर्स आता सेट करणे उपयुक्त ठरेल.

### कार्य - तुमचा मायक्रोफोन आणि स्पीकर्स कॉन्फिगर करा

तुमच्या IoT डिव्हाइससाठी मायक्रोफोन आणि स्पीकर्स कॉन्फिगर करण्यासाठी संबंधित मार्गदर्शक पूर्ण करा:

* [Arduino - Wio Terminal](wio-terminal-microphone.md)
* [सिंगल-बोर्ड संगणक - रास्पबेरी पाय](pi-microphone.md)
* [सिंगल-बोर्ड संगणक - व्हर्च्युअल डिव्हाइस](virtual-device-microphone.md)

### कार्य - ऑडिओ कॅप्चर करा

तुमच्या IoT डिव्हाइसवर ऑडिओ कॅप्चर करण्यासाठी संबंधित मार्गदर्शक पूर्ण करा:

* [Arduino - Wio Terminal](wio-terminal-audio.md)
* [सिंगल-बोर्ड संगणक - रास्पबेरी पाय](pi-audio.md)
* [सिंगल-बोर्ड संगणक - व्हर्च्युअल डिव्हाइस](virtual-device-audio.md)

## स्पीच टू टेक्स्ट

स्पीच टू टेक्स्ट, किंवा भाषण ओळख, म्हणजे ऑडिओ सिग्नलमधील शब्द AI च्या मदतीने टेक्स्टमध्ये रूपांतरित करणे.

### भाषण ओळख मॉडेल्स

भाषणाचे टेक्स्टमध्ये रूपांतर करण्यासाठी, ऑडिओ सिग्नलमधील सॅम्पल्स गटांमध्ये विभागले जातात आणि पुनरावृत्ती तंत्रिका नेटवर्क (RNN) आधारित मशीन लर्निंग मॉडेलमध्ये फीड केले जातात. हे मशीन लर्निंग मॉडेलचा एक प्रकार आहे जो येणाऱ्या डेटाबद्दल निर्णय घेण्यासाठी मागील डेटा वापरू शकतो. उदाहरणार्थ, RNN एका ऑडिओ सॅम्पल ब्लॉकला 'Hel' असा आवाज म्हणून ओळखू शकतो, आणि जेव्हा त्याला आणखी एक सॅम्पल मिळतो जो 'lo' असा आवाज आहे असे वाटते, तेव्हा तो मागील आवाजाशी एकत्र करू शकतो, 'Hello' हा वैध शब्द आहे हे शोधू शकतो आणि तो परिणाम म्हणून निवडू शकतो.

ML मॉडेल्स नेहमी प्रत्येक वेळी समान आकाराचा डेटा स्वीकारतात. तुम्ही पूर्वीच्या धड्यात तयार केलेला इमेज क्लासिफायर प्रतिमा निश्चित आकारात बदलतो आणि त्यावर प्रक्रिया करतो. भाषण मॉडेल्ससाठीही तेच लागू होते, त्यांना निश्चित आकाराचे ऑडिओ तुकडे प्रक्रिया करावे लागतात. भाषण मॉडेल्सला अनेक अंदाजांचे परिणाम
💁 काही भाषण सेवा अशा प्रकारच्या वातावरणात चांगले कार्य करण्यासाठी सानुकूलन करण्याची परवानगी देतात जसे की कारखाने किंवा विशिष्ट उद्योगातील शब्दांसाठी जसे रासायनिक नावे. या सानुकूलनासाठी नमुना ऑडिओ आणि त्याचे लिप्यंतरण प्रदान करून प्रशिक्षण दिले जाते आणि ट्रान्सफर लर्निंगचा वापर करून कार्य करते, जसे तुम्ही पूर्वीच्या धड्यात काही प्रतिमा वापरून इमेज क्लासिफायर प्रशिक्षित केला होता.
### गोपनीयता

ग्राहक IoT उपकरणांमध्ये भाषण ते मजकूर वापरताना, गोपनीयता अत्यंत महत्त्वाची असते. हे उपकरणे सतत ऑडिओ ऐकतात, त्यामुळे ग्राहक म्हणून तुम्हाला तुमचे प्रत्येक बोलणे क्लाउडवर पाठवून मजकूरात रूपांतरित होण्याची इच्छा नसते. यामुळे केवळ इंटरनेट बँडविड्थचा मोठ्या प्रमाणात वापर होणार नाही, तर याचे मोठे गोपनीयता परिणाम होतात, विशेषतः जेव्हा काही स्मार्ट उपकरण निर्माते त्यांच्या मॉडेल सुधारण्यासाठी [माणसांकडून ऑडिओ आणि तयार केलेल्या मजकूराची पडताळणी करण्यासाठी निवड करतात](https://www.theverge.com/2019/4/10/18305378/amazon-alexa-ai-voice-assistant-annotation-listen-private-recordings).

तुम्हाला तुमचे स्मार्ट उपकरण फक्त तेव्हा ऑडिओ क्लाउडवर पाठवावे असे वाटते जेव्हा तुम्ही ते वापरत आहात, घरातील ऑडिओ ऐकताना नाही, ज्यामध्ये खाजगी बैठक किंवा वैयक्तिक संवाद समाविष्ट असू शकतो. बहुतेक स्मार्ट उपकरणे *wake word* वापरून काम करतात, जसे की "Alexa", "Hey Siri", किंवा "OK Google", जे उपकरणाला 'जागे' होऊन तुम्ही बोलत असलेल्या गोष्टी ऐकण्यास सुरुवात करण्यास प्रवृत्त करते, जोपर्यंत तुमच्या भाषणात खंड आढळत नाही, ज्यामुळे तुम्ही उपकरणाशी बोलणे पूर्ण केले आहे असे सूचित होते.

> 🎓 Wake word detection ला *Keyword spotting* किंवा *Keyword recognition* असेही म्हणतात.

हे wake words उपकरणावर शोधले जातात, क्लाउडवर नाही. हे स्मार्ट उपकरणे लहान AI मॉडेल्स वापरतात जे उपकरणावर चालतात आणि wake word ऐकण्यासाठी सतत ऐकतात, आणि ते आढळल्यावर ऑडिओ क्लाउडवर ओळखीसाठी स्ट्रीम करतात. ही मॉडेल्स खूप विशिष्ट असतात आणि फक्त wake word ऐकण्यासाठी तयार केलेली असतात.

> 💁 काही तंत्रज्ञान कंपन्या त्यांच्या उपकरणांमध्ये अधिक गोपनीयता जोडत आहेत आणि भाषण ते मजकूर रूपांतरण उपकरणावरच करत आहेत. Apple ने 2021 iOS आणि macOS अपडेट्सचा भाग म्हणून उपकरणावर भाषण ते मजकूर रूपांतरण करण्याचे समर्थन जाहीर केले आहे, आणि क्लाउड वापरण्याची गरज नसलेल्या अनेक विनंत्या हाताळण्यास सक्षम आहेत. हे त्यांच्या उपकरणांमध्ये शक्तिशाली प्रोसेसर असल्यामुळे शक्य झाले आहे, जे ML मॉडेल्स चालवू शकतात.

✅ तुमच्या मते क्लाउडवर पाठवलेल्या ऑडिओचे संग्रहण करण्याचे गोपनीयता आणि नैतिक परिणाम काय आहेत? हे ऑडिओ संग्रहित केले पाहिजे का, आणि असल्यास कसे? कायद्याच्या अंमलबजावणीसाठी रेकॉर्डिंगचा वापर गोपनीयतेच्या नुकसानीसाठी चांगला पर्याय आहे का?

Wake word detection सहसा TinyML नावाच्या तंत्राचा वापर करते, ज्यामध्ये ML मॉडेल्स मायक्रोकंट्रोलर्सवर चालवण्यासाठी रूपांतरित केले जातात. ही मॉडेल्स आकाराने लहान असतात आणि चालवण्यासाठी खूप कमी ऊर्जा वापरतात.

Wake word मॉडेल प्रशिक्षण आणि वापरण्याच्या गुंतागुंतीपासून टाळण्यासाठी, तुम्ही या धड्यात तयार करत असलेल्या स्मार्ट टाइमरमध्ये भाषण ओळख चालू करण्यासाठी बटण वापरणार आहात.

> 💁 जर तुम्हाला Wio Terminal किंवा Raspberry Pi वर चालवण्यासाठी wake word detection मॉडेल तयार करायचे असेल, तर Edge Impulse च्या [तुमच्या आवाजाला प्रतिसाद देण्याच्या ट्यूटोरियल](https://docs.edgeimpulse.com/docs/responding-to-your-voice) वर एक नजर टाका. जर तुम्हाला तुमच्या संगणकाचा वापर करून हे करायचे असेल, तर Microsoft Docs वरील [Custom Keyword quickstart](https://docs.microsoft.com/azure/cognitive-services/speech-service/keyword-recognition-overview?WT.mc_id=academic-17441-jabenn) वापरून पहा.

## भाषण ते मजकूर रूपांतरण करा

![Speech services logo](../../../../../translated_images/azure-speech-logo.a1f08c4befb0159f2cb5d692d3baf5b599e7b44759d316da907bda1508f46a4a.mr.png)

पूर्वीच्या प्रकल्पातील प्रतिमा वर्गीकरणासारखेच, पूर्व-निर्मित AI सेवा आहेत ज्या ऑडिओ फाइल म्हणून भाषण घेऊन ते मजकूरात रूपांतरित करू शकतात. अशा सेवांपैकी एक म्हणजे Speech Service, Cognitive Services चा भाग, पूर्व-निर्मित AI सेवा ज्याचा तुम्ही तुमच्या अ‍ॅप्समध्ये वापर करू शकता.

### कार्य - भाषण AI संसाधन कॉन्फिगर करा

1. या प्रकल्पासाठी `smart-timer` नावाचा Resource Group तयार करा.

1. खालील कमांड वापरून एक मोफत भाषण संसाधन तयार करा:

    ```sh
    az cognitiveservices account create --name smart-timer \
                                        --resource-group smart-timer \
                                        --kind SpeechServices \
                                        --sku F0 \
                                        --yes \
                                        --location <location>
    ```

    Resource Group तयार करताना वापरलेल्या `<location>` ची जागा घ्या.

1. तुमच्या कोडमधून भाषण संसाधनाचा प्रवेश करण्यासाठी तुम्हाला API key आवश्यक असेल. Key मिळवण्यासाठी खालील कमांड चालवा:

    ```sh
    az cognitiveservices account keys list --name smart-timer \
                                           --resource-group smart-timer \
                                           --output table
    ```

    Key पैकी एकाची प्रत घ्या.

### कार्य - भाषण ते मजकूर रूपांतरण करा

तुमच्या IoT उपकरणावर भाषण ते मजकूर रूपांतरण करण्यासाठी संबंधित मार्गदर्शकाचा अभ्यास करा:

* [Arduino - Wio Terminal](wio-terminal-speech-to-text.md)
* [Single-board computer - Raspberry Pi](pi-speech-to-text.md)
* [Single-board computer - Virtual device](virtual-device-speech-to-text.md)

---

## 🚀 आव्हान

भाषण ओळख बराच काळापासून अस्तित्वात आहे आणि सतत सुधारत आहे. सध्याच्या क्षमतांचा अभ्यास करा आणि त्या कालांतराने कशा विकसित झाल्या आहेत याची तुलना करा, ज्यामध्ये मानवी ट्रान्सक्रिप्शनच्या तुलनेत मशीन ट्रान्सक्रिप्शन किती अचूक आहे हे समाविष्ट आहे.

तुमच्या मते भाषण ओळखीसाठी भविष्यात काय आहे?

## व्याख्यानानंतरचा प्रश्नमंजूषा

[व्याख्यानानंतरचा प्रश्नमंजूषा](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/42)

## पुनरावलोकन आणि स्व-अभ्यास

* विविध मायक्रोफोन प्रकारांबद्दल वाचा आणि ते कसे कार्य करतात याबद्दल [Musician's HQ वरील dynamic आणि condenser microphones मधील फरक](https://musicianshq.com/whats-the-difference-between-dynamic-and-condenser-microphones/) लेख वाचा.
* Microsoft Docs वरील [speech service documentation](https://docs.microsoft.com/azure/cognitive-services/speech-service/?WT.mc_id=academic-17441-jabenn) वर Cognitive Services भाषण सेवेबद्दल अधिक वाचा.
* Microsoft Docs वरील [keyword recognition documentation](https://docs.microsoft.com/azure/cognitive-services/speech-service/keyword-recognition-overview?WT.mc_id=academic-17441-jabenn) वर keyword spotting बद्दल वाचा.

## असाइनमेंट

[](assignment.md)

---

**अस्वीकरण**:
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.