# IoT उपकरणसँग आवाज चिन्ने ![यस पाठको स्केच नोटको अवलोकन](../../../../../translated_images/lesson-21.e34de51354d6606fb5ee08d8c89d0222eea0a2a7aaf744a8805ae847c4f69dc4.ne.jpg) > स्केच नोट [नित्या नरसिंहन](https://github.com/nitya) द्वारा। ठूलो संस्करणको लागि तस्बिरमा क्लिक गर्नुहोस्। यो भिडियोले Azure Speech Service को अवलोकन दिन्छ, जुन विषय यस पाठमा समेटिनेछ: [![Microsoft Azure YouTube च्यानलबाट आफ्नो Cognitive Services Speech स्रोत प्रयोग गर्न कसरी सुरु गर्ने](https://img.youtube.com/vi/iW0Fw0l3mrA/0.jpg)](https://www.youtube.com/watch?v=iW0Fw0l3mrA) > 🎥 माथिको तस्बिरमा क्लिक गरेर भिडियो हेर्नुहोस् ## पाठ अघि क्विज [पाठ अघि क्विज](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/41) ## परिचय 'एलेक्सा, १२ मिनेटको टाइमर सेट गर' 'एलेक्सा, टाइमरको स्थिति' 'एलेक्सा, ८ मिनेटको टाइमर सेट गर जसलाई ब्रोकली स्टीम भनिन्छ' स्मार्ट उपकरणहरू दिन प्रतिदिन बढी प्रचलित हुँदै गइरहेका छन्। केवल HomePods, Echos, र Google Homes जस्ता स्मार्ट स्पिकरहरू मात्र होइन, तर हाम्रो फोन, घडीहरू, र यहाँसम्म कि बत्तीको फिटिङ र थर्मोस्टेटहरूमा पनि। > 💁 मेरो घरमा कम्तीमा १९ उपकरणहरू छन् जसमा आवाज सहायकहरू छन्, र ती मात्र हुन् जुन मलाई थाहा छ! आवाज नियन्त्रणले पहुँचयोग्यता बढाउँछ, जसले सीमित गतिशीलता भएका व्यक्तिहरूलाई उपकरणहरूसँग अन्तरक्रिया गर्न अनुमति दिन्छ। चाहे यो स्थायी अपाङ्गता हो, जस्तै हात बिना जन्मिएको, अस्थायी अपाङ्गता जस्तै हात भाँचिएको, वा किनमेलको झोला वा साना बच्चाहरूले हात भरिएको अवस्थामा, हाम्रो घरलाई हातको सट्टा आवाजबाट नियन्त्रण गर्न सक्नुले पहुँचको नयाँ संसार खोल्छ। 'हे सिरी, मेरो ग्यारेजको ढोका बन्द गर' भनेर चिच्याउनु, बच्चा परिवर्तन र शरारती बच्चासँग व्यवहार गर्दा जीवनमा सानो तर प्रभावकारी सुधार हुन सक्छ। आवाज सहायकहरूको लागि सबैभन्दा लोकप्रिय प्रयोगहरू मध्ये एक टाइमर सेट गर्नु हो, विशेष गरी भान्साको टाइमर। केवल आफ्नो आवाज प्रयोग गरेर धेरै टाइमर सेट गर्न सक्नु भान्सामा ठूलो सहयोग हो - आटा मोल्ने, सूप चलाउने, वा आफ्नो हातबाट डम्पलिङको भराइ सफा नगरी शारीरिक टाइमर प्रयोग गर्न आवश्यक छैन। यस पाठमा तपाईं IoT उपकरणहरूमा आवाज पहिचान निर्माण गर्ने बारे सिक्नुहुनेछ। तपाईं माइक्रोफोनलाई सेन्सरको रूपमा, IoT उपकरणमा जोडिएको माइक्रोफोनबाट अडियो कसरी क्याप्चर गर्ने, र सुनेको कुरा टेक्स्टमा रूपान्तरण गर्न AI कसरी प्रयोग गर्ने भन्ने कुरा सिक्नुहुनेछ। यस परियोजनाको बाँकी भागमा तपाईं एक स्मार्ट भान्साको टाइमर निर्माण गर्नुहुनेछ, जसले धेरै भाषाहरूमा आवाज प्रयोग गरेर टाइमर सेट गर्न सक्नेछ। यस पाठमा हामी निम्न विषयहरू समेट्नेछौं: * [माइक्रोफोनहरू](../../../../../6-consumer/lessons/1-speech-recognition) * [तपाईंको IoT उपकरणबाट अडियो क्याप्चर गर्नुहोस्](../../../../../6-consumer/lessons/1-speech-recognition) * [आवाजलाई टेक्स्टमा रूपान्तरण गर्नुहोस्](../../../../../6-consumer/lessons/1-speech-recognition) * [आवाजलाई टेक्स्टमा रूपान्तरण गर्नुहोस्](../../../../../6-consumer/lessons/1-speech-recognition) ## माइक्रोफोनहरू माइक्रोफोनहरू एनालग सेन्सरहरू हुन् जसले ध्वनि तरंगलाई विद्युत संकेतमा रूपान्तरण गर्छन्। हावामा कम्पनले माइक्रोफोनका कम्पोनेन्टहरूलाई सानो मात्रामा चलाउँछ, र यसले विद्युत संकेतमा सानो परिवर्तन ल्याउँछ। यी परिवर्तनहरूलाई प्रवर्धन गरेर विद्युत आउटपुट उत्पन्न गरिन्छ। ### माइक्रोफोनका प्रकार माइक्रोफोनहरू विभिन्न प्रकारका हुन्छन्: * डायनामिक - डायनामिक माइक्रोफोनहरूमा एक चलायमान डायाफ्राममा चुम्बक जोडिएको हुन्छ, जसले तारको कुण्डलमा चल्दा विद्युत प्रवाह उत्पन्न गर्छ। यो अधिकांश लाउडस्पिकरहरूको विपरीत हो, जसले विद्युत प्रवाहलाई चुम्बक चलाउन प्रयोग गर्छ, जसले डायाफ्रामलाई चलाएर ध्वनि उत्पन्न गर्छ। यसले स्पिकरहरूलाई डायनामिक माइक्रोफोनको रूपमा प्रयोग गर्न सकिन्छ, र डायनामिक माइक्रोफोनलाई स्पिकरको रूपमा प्रयोग गर्न सकिन्छ। जस्तै इन्टरकम जस्ता उपकरणहरूमा जहाँ प्रयोगकर्ता सुन्दै वा बोल्दै हुन्छ, तर दुवै होइन, एक उपकरणले स्पिकर र माइक्रोफोनको रूपमा काम गर्न सक्छ। डायनामिक माइक्रोफोनहरू काम गर्न पावर आवश्यक पर्दैन, विद्युत संकेत पूर्ण रूपमा माइक्रोफोनबाट उत्पन्न हुन्छ। ![प्याटी स्मिथले Shure SM58 (डायनामिक कार्डियोइड प्रकार) माइक्रोफोनमा गाइरहेको](../../../../../translated_images/dynamic-mic.8babac890a2d80dfb0874b5bf37d4b851fe2aeb9da6fd72945746176978bf3bb.ne.jpg) * रिबन - रिबन माइक्रोफोनहरू डायनामिक माइक्रोफोनहरू जस्तै हुन्छन्, तर तिनीहरूमा डायाफ्रामको सट्टा धातुको रिबन हुन्छ। यो रिबन चुम्बकीय क्षेत्रमा चल्दा विद्युत प्रवाह उत्पन्न गर्छ। डायनामिक माइक्रोफोनहरू जस्तै, रिबन माइक्रोफोनहरू काम गर्न पावर आवश्यक पर्दैन। ![एडमन्ड लो, अमेरिकी अभिनेता, रेडियो माइक्रोफोनमा उभिएको (NBC ब्लू नेटवर्कको लागि लेबल गरिएको), स्क्रिप्ट समात्दै, १९४२](../../../../../translated_images/ribbon-mic.eacc8e092c7441caee6d7a81e2f40e1675bf36269848964c7c09c9a9acb05127.ne.jpg) * कन्डेन्सर - कन्डेन्सर माइक्रोफोनहरूमा पातलो धातुको डायाफ्राम र स्थिर धातुको ब्याकप्लेट हुन्छ। यी दुवैमा विद्युत प्रवाह लागू गरिन्छ, र डायाफ्राम कम्पन हुँदा प्लेटहरू बीचको स्थिर चार्ज परिवर्तन हुन्छ, जसले संकेत उत्पन्न गर्छ। कन्डेन्सर माइक्रोफोनहरू काम गर्न पावर आवश्यक पर्दछ - जसलाई *फ्यान्टम पावर* भनिन्छ। ![AKG Acoustics द्वारा C451B सानो डायाफ्राम कन्डेन्सर माइक्रोफोन](../../../../../translated_images/condenser-mic.6f6ed5b76ca19e0ec3fd0c544601542d4479a6cb7565db336de49fbbf69f623e.ne.jpg) * MEMS - माइक्रोइलेक्ट्रोमेकानिकल प्रणाली माइक्रोफोनहरू, वा MEMS, चिपमा माइक्रोफोनहरू हुन्। तिनीहरूमा सिलिकन चिपमा कुँदिएको दबाव संवेदनशील डायाफ्राम हुन्छ, र कन्डेन्सर माइक्रोफोन जस्तै काम गर्छ। यी माइक्रोफोनहरू साना हुन सक्छन्, र सर्किटरीमा एकीकृत गर्न सकिन्छ। ![सर्किट बोर्डमा MEMS माइक्रोफोन](../../../../../translated_images/mems-microphone.80574019e1f5e4d9ee72fed720ecd25a39fc2969c91355d17ebb24ba4159e4c4.ne.png) माथिको तस्बिरमा, **LEFT** लेबल गरिएको चिप एक MEMS माइक्रोफोन हो, जसको डायाफ्राम एक मिलिमिटरभन्दा कम चौडाइको छ। ✅ अनुसन्धान गर्नुहोस्: तपाईंको वरिपरि के माइक्रोफोनहरू छन् - चाहे तपाईंको कम्प्युटर, फोन, हेडसेट वा अन्य उपकरणहरूमा। ती माइक्रोफोनहरू कुन प्रकारका हुन्? ### डिजिटल अडियो अडियो एक एनालग संकेत हो जसले धेरै सूक्ष्म जानकारी बोक्छ। यो संकेतलाई डिजिटलमा रूपान्तरण गर्न, अडियोलाई प्रति सेकेन्ड हजारौं पटक नमूना गर्न आवश्यक छ। > 🎓 नमूना भनेको अडियो संकेतलाई डिजिटल मानमा रूपान्तरण गर्नु हो, जसले समयको सो बिन्दुमा संकेतलाई प्रतिनिधित्व गर्छ। ![एक लाइन चार्टले संकेत देखाउँदै, निश्चित अन्तरालमा छुट्टै बिन्दुहरू सहित](../../../../../translated_images/sampling.6f4fadb3f2d9dfe7618f9edfe75a350e6b3f74293ec84f02ab69c19d2afe3d73.ne.png) डिजिटल अडियोलाई पल्स कोड मोडुलेशन, वा PCM, प्रयोग गरेर नमूना गरिन्छ। PCM ले संकेतको भोल्टेज पढ्छ, र परिभाषित आकार प्रयोग गरेर सो भोल्टेजको नजिकको छुट्टै मान चयन गर्छ। > 💁 तपाईं PCM लाई पल्स चौडाइ मोडुलेशन, वा PWM को सेन्सर संस्करणको रूपमा सोच्न सक्नुहुन्छ (PWM [शुरुआती परियोजनाको पाठ ३](../../../1-getting-started/lessons/3-sensors-and-actuators/README.md#pulse-width-modulation) मा समेटिएको थियो)। PCM एनालग संकेतलाई डिजिटलमा रूपान्तरण गर्न समावेश गर्दछ, PWM डिजिटल संकेतलाई एनालगमा रूपान्तरण गर्न समावेश गर्दछ। उदाहरणका लागि, अधिकांश स्ट्रिमिङ संगीत सेवाहरूले १६-बिट वा २४-बिट अडियो प्रदान गर्छन्। यसको मतलब तिनीहरूले भोल्टेजलाई १६-बिट इन्टिजर, वा २४-बिट इन्टिजरमा फिट हुने मानमा रूपान्तरण गर्छन्। १६-बिट अडियोले मानलाई -३२,७६८ देखि ३२,७६७ को दायरामा फिट गर्छ, २४-बिट -८,३८८,६०८ देखि ८,३८८,६०७ को दायरामा। बिटहरू जति धेरै हुन्छन्, नमूना हाम्रो कानले वास्तवमा सुन्ने कुराको नजिक हुन्छ। > 💁 तपाईंले ८-बिट अडियो सुन्नुभएको हुन सक्छ, जसलाई प्रायः LoFi भनिन्छ। यो केवल ८-बिट प्रयोग गरेर नमूना गरिएको अडियो हो, त्यसैले -१२८ देखि १२७। पहिलो कम्प्युटर अडियो हार्डवेयर सीमितताका कारण ८-बिटमा सीमित थियो, त्यसैले यो प्रायः रेट्रो गेमिङमा देखिन्छ। यी नमूनाहरू प्रति सेकेन्ड हजारौं पटक लिइन्छ, राम्रोसँग परिभाषित नमूना दरहरू प्रयोग गरेर, जसलाई KHz (प्रति सेकेन्ड हजारौं रिडिङ) मा मापन गरिन्छ। स्ट्रिमिङ संगीत सेवाहरूले अधिकांश अडियोका लागि ४८KHz प्रयोग गर्छन्, तर केही 'लसलेस' अडियोले ९६KHz वा १९२KHz सम्म प्रयोग गर्छ। नमूना दर जति उच्च हुन्छ, अडियो मूलको नजिक हुन्छ, एक बिन्दु सम्म। मानिसहरूले ४८KHz भन्दा माथि फरक छुट्याउन सक्ने वा नसक्ने भन्ने विषयमा बहस छ। ✅ अनुसन्धान गर्नुहोस्: यदि तपाईं स्ट्रिमिङ संगीत सेवा प्रयोग गर्नुहुन्छ भने, यसले कुन नमूना दर र आकार प्रयोग गर्छ? यदि तपाईं CD प्रयोग गर्नुहुन्छ भने, CD अडियोको नमूना दर र आकार के हो? अडियो डाटाका लागि विभिन्न ढाँचाहरू छन्। तपाईंले mp3 फाइलहरूको बारेमा सुन्नुभएको हुन सक्छ - अडियो डाटा जुन गुणस्तर गुमाउनु बिना सानो बनाउन कम्प्रेस गरिएको हुन्छ। अनकम्प्रेस गरिएको अडियो प्रायः WAV फाइलको रूपमा भण्डारण गरिन्छ - यो ४४ बाइटको हेडर जानकारी भएको फाइल हो, त्यसपछि कच्चा अडियो डाटा। हेडरमा नमूना दर (जस्तै १६००० को लागि १६KHz), नमूना आकार (१६ को लागि १६-बिट), र च्यानलहरूको संख्या जस्ता जानकारी समावेश हुन्छ। हेडर पछि, WAV फाइलमा कच्चा अडियो डाटा हुन्छ। > 🎓 च्यानलहरू अडियो बनाउने विभिन्न अडियो स्ट्रिमहरूको संख्या हो। उदाहरणका लागि, स्टेरियो अडियोका लागि बायाँ र दायाँ च्यानलहरू हुनेछन्। होम थिएटर प्रणालीको लागि ७.१ सराउन्ड साउन्डका लागि यो ८ च्यानल हुनेछ। ### अडियो डाटा आकार अडियो डाटा तुलनात्मक रूपमा ठूलो हुन्छ। उदाहरणका लागि, १६-बिट अडियोलाई १६KHz मा अनकम्प्रेस गरेर क्याप्चर गर्दा (स्पीच टु टेक्स्ट मोडेलसँग प्रयोग गर्न पर्याप्त दर), प्रति सेकेन्ड ३२KB डाटा लाग्छ: * १६-बिटले प्रति नमूना २ बाइट्स लिन्छ (१ बाइट ८-बिट हो)। * १६KHz भनेको प्रति सेकेन्ड १६,००० नमूना हो। * १६,००० x २ बाइट्स = ३२,००० बाइट्स प्रति सेकेन्ड। यो सानो डाटा जस्तो लाग्छ, तर यदि तपाईं सीमित मेमोरी भएको माइक्रोकन्ट्रोलर प्रयोग गर्दै हुनुहुन्छ भने, यो धेरै हुन सक्छ। उदाहरणका लागि, Wio Terminal मा १९२KB मेमोरी छ, र त्यसले प्रोग्राम कोड र भेरिएबलहरू भण्डारण गर्नुपर्छ। तपाईंको प्रोग्राम कोड सानो भए पनि, तपाईं ५ सेकेन्डभन्दा बढी अडियो क्याप्चर गर्न सक्नुहुन्न। माइक्रोकन्ट्रोलरहरूले अतिरिक्त भण्डारण पहुँच गर्न सक्छन्, जस्तै SD कार्ड वा फ्ल्यास मेमोरी। अडियो क्याप्चर गर्ने IoT उपकरण निर्माण गर्दा तपाईंले सुनिश्चित गर्नुपर्छ कि तपाईंसँग अतिरिक्त भण्डारण मात्र छैन, तर तपाईंको कोडले माइक्रोफोनबाट क्याप्चर गरिएको अडियोलाई सो भण्डारणमा सीधा लेख्छ, र क्लाउडमा पठाउँदा, तपाईं भण्डारणबाट वेब अनुरोधमा स्ट्रिम गर्नुहुन्छ। यसरी तपाईंले सम्पूर्ण अडियो डाटालाई एकैपटक मेमोरीमा राखेर मेमोरी सकिने समस्या टार्न सक्नुहुन्छ। ## तपाईंको IoT उपकरणबाट अडियो क्याप्चर गर्नुहोस् तपाईंको IoT उपकरणलाई माइक्रोफोनसँग जडान गरेर अडियो क्याप्चर गर्न सकिन्छ, टेक्स्टमा रूपान्तरणको लागि तयार। यसलाई स्पिकरहरूसँग पनि जडान गर्न सकिन्छ अडियो आउटपुटका लागि। पछि पाठहरूमा यो अडियो प्रतिक्रिया दिन प्रयोग गरिनेछ, तर माइक्रोफोन परीक्षण गर्न स्पिकरहरू सेटअप गर्नु उपयोगी हुन्छ। ### कार्य - तपाईंको माइक्रोफोन र स्पिकरहरू कन्फिगर गर्नुहोस् तपाईंको IoT उपकरणका लागि माइक्रोफोन र स्पिकरहरू कन्फिगर गर्न सम्बन्धित मार्गदर्शन पूरा गर्नुहोस्: * [Arduino - Wio Terminal](wio-terminal-microphone.md) * [Single-board computer - Raspberry Pi](pi-microphone.md) * [Single-board computer - Virtual device](virtual-device-microphone.md) ### कार्य - अडियो क्याप्चर गर्नुहोस् तपाईंको IoT उपकरणमा अडियो क्याप्चर गर्न सम्बन्धित मार्गदर्शन पूरा गर्नुहोस्: * [Arduino - Wio Terminal](wio-terminal-audio.md) * [Single-board computer - Raspberry Pi](pi-audio.md) * [Single-board computer - Virtual device](virtual-device-audio.md) ## आवाजलाई टेक्स्टमा रूपान्तरण गर्नुहोस् आवाजलाई टेक्स्टमा रूपान्तरण गर्नु, वा आवाज पहिचान, AI प्रयोग गरेर अडियो संकेतमा भएका शब्दहरूलाई टेक्स्टमा बदल्ने प्रक्रिया हो। ### आवाज पहिचान मोडेलहरू आवाजलाई टेक्स्टमा रूपान्तरण गर्न, अडियो संकेतका नमूनाहरूलाई समूह बनाएर Recurrent Neural Network (RNN) आधारित मेसिन लर्निङ मोडेलमा पठाइन्छ। यो मेसिन लर्निङ मोडेलको प्रकार हो जसले अघिल्लो डाटालाई प्रयोग गरेर आउने डाटाको निर्णय गर्न सक्छ। उदाहरणका लागि, RNN ले अडियो नमूनाको एक ब्लकलाई 'Hel' ध्वनि भनेर पत्ता लगाउन सक्छ, र अर्को ब्लकलाई 'lo' ध्वनि भनेर पत्ता लगाउँदा, यसलाई अघिल्लो ध्वनिसँग मिलाएर 'Hello' एक मान्य शब्द हो भनेर चयन गर्न सक्छ। ML मोडेलहरूले हरेक पटक समान आकारको डाटा स्वीकार गर्छन्। तपाईंले अघिल्लो पाठमा निर्माण गरेको इमेज क्लासिफायरले छविहरूलाई निश्चित आकारमा पुन: आकार दिन्छ र तिनीहरूलाई प्रक्रिया गर्छ। आवाज मोडेलहरू पनि त्यस्तै हुन्, तिनीहरूले निश्चित आकारका अडियो टुक्राहरू प्रक्रिया गर्नुपर्छ। आवाज मोडेलहरूले धेरै भविष्यवाणीहरूको आउटपुटलाई सही उत्तर प्राप्त गर्न संयोजन गर्न सक्षम हुनुपर्छ, जसले 'Hi' र 'Highway', वा 'flock' र 'floccinaucinihilipilification' बीच छुट्याउन अनुमति दिन्छ। आवाज मोडेलहरू यति उन्नत छन् कि तिनीहरूले सन्दर्भलाई बुझ्न सक्छन्, र थप ध्वनि प्रक्रिया गर्दा पत्ता लगाएका शब्दहरूलाई सुधार गर्न सक्छन्। उदाहरणका लागि, यदि तपाईंले "म पसलमा दुई केरा र एउटा स्याउ पनि किन्न गएँ" भने, तपाईंले तीन शब्दहरू प्रयोग गर्नुहुनेछ जुन उस्तै सुनिन्छ तर फरक लेखिन्छ - to, two र too। आवाज मोडेलहरूले सन्दर्भलाई बुझ्न सक्छन् र शब्दको उपयुक्त वर्तनी प्रयोग गर्न सक्छन्। 💁 केही भाषण सेवाहरूले कारखानाहरू जस्ता आवाजयुक्त वातावरणमा राम्रोसँग काम गर्न, वा रसायनिक नामहरू जस्ता उद्योग-विशेष शब्दहरूको लागि अनुकूलनको अनुमति दिन्छन्। यी अनुकूलनहरू नमूना अडियो र प्रतिलिपि प्रदान गरेर प्रशिक्षित गरिन्छन्, र ट्रान्सफर लर्निङ प्रयोग गरेर काम गर्छन्, ठीक त्यस्तै जसरी तपाईंले अघिल्लो पाठमा केही मात्र तस्बिरहरू प्रयोग गरेर छवि वर्गीकरणकर्ता प्रशिक्षण गर्नुभएको थियो। ### गोपनीयता उपभोक्ता IoT उपकरणमा स्पीच टु टेक्स्ट प्रयोग गर्दा गोपनीयता अत्यन्त महत्त्वपूर्ण हुन्छ। यी उपकरणहरूले निरन्तर अडियो सुन्छन्, त्यसैले उपभोक्ताको रूपमा तपाईंले भनेको सबै कुरा क्लाउडमा पठाएर टेक्स्टमा रूपान्तरण गरिनु चाहनुहुन्न। यसले मात्र धेरै इन्टरनेट ब्यान्डविथ प्रयोग गर्दैन, यसले ठूलो गोपनीयता समस्या पनि निम्त्याउँछ, विशेष गरी जब केही स्मार्ट उपकरण निर्माताहरूले [आफ्नो मोडेल सुधार गर्न मानिसहरूले टेक्स्टसँग तुलना गर्न अडियो चयन गर्छन्](https://www.theverge.com/2019/4/10/18305378/amazon-alexa-ai-voice-assistant-annotation-listen-private-recordings)। तपाईं चाहनुहुन्छ कि तपाईंको स्मार्ट उपकरणले मात्र अडियो क्लाउडमा पठाओस् जब तपाईं यसलाई प्रयोग गर्दै हुनुहुन्छ, नकि तपाईंको घरमा कुनै अडियो सुनेपछि, जसमा निजी बैठकहरू वा व्यक्तिगत कुराकानीहरू समावेश हुन सक्छ। अधिकांश स्मार्ट उपकरणहरूले *वेक वर्ड* प्रयोग गरेर काम गर्छन्, जस्तै "Alexa", "Hey Siri", वा "OK Google" जस्ता मुख्य वाक्यांशहरूले उपकरणलाई 'जाग्ने' र तपाईंले भनेको कुरा सुन्न सुरु गराउँछ, जबसम्म तपाईंको बोलीमा ब्रेक पत्ता लाग्दैन, जसले तपाईंले उपकरणसँग कुरा गर्न समाप्त गर्नुभएको संकेत दिन्छ। > 🎓 वेक वर्ड डिटेक्शनलाई *कीवर्ड स्पटिङ* वा *कीवर्ड रिकग्निशन* पनि भनिन्छ। यी वेक वर्डहरू उपकरणमै पत्ता लगाइन्छन्, क्लाउडमा होइन। यी स्मार्ट उपकरणहरूमा साना AI मोडेलहरू हुन्छन्, जसले उपकरणमै वेक वर्ड सुन्ने काम गर्छन्, र यो पत्ता लागेपछि अडियो क्लाउडमा पठाउन सुरु गर्छन्। यी मोडेलहरू धेरै विशेषीकृत हुन्छन् र केवल वेक वर्ड सुन्ने काम गर्छन्। > 💁 केही प्रविधि कम्पनीहरूले आफ्ना उपकरणहरूमा थप गोपनीयता थप्दै छन् र स्पीच टु टेक्स्ट रूपान्तरण उपकरणमै गरिरहेका छन्। एप्पलले 2021 को iOS र macOS अपडेटको भागको रूपमा उपकरणमै स्पीच टु टेक्स्ट रूपान्तरण समर्थन गर्ने घोषणा गरेको छ, जसले धेरै अनुरोधहरू क्लाउड प्रयोग नगरी नै ह्यान्डल गर्न सक्छ। यो तिनीहरूको उपकरणमा शक्तिशाली प्रोसेसरहरू भएको कारण सम्भव भएको हो, जसले ML मोडेलहरू चलाउन सक्छ। ✅ तपाईंको विचारमा क्लाउडमा पठाइएको अडियो भण्डारण गर्दा गोपनीयता र नैतिकताका के प्रभावहरू पर्छन्? के यो अडियो भण्डारण गरिनु पर्छ? यदि हो भने, कसरी? के तपाईंलाई लाग्छ कि कानून कार्यान्वयनका लागि रेकर्डिङहरूको प्रयोग गोपनीयताको हानिको लागि राम्रो सम्झौता हो? वेक वर्ड डिटेक्शन सामान्यतया TinyML नामक प्रविधि प्रयोग गरेर गरिन्छ, जसले ML मोडेलहरूलाई माइक्रोकन्ट्रोलरहरूमा चलाउन मिल्ने बनाउँछ। यी मोडेलहरू साना आकारका हुन्छन् र चलाउन धेरै कम ऊर्जा खपत गर्छन्। यस पाठमा तपाईंले निर्माण गर्न लागेको स्मार्ट टाइमरले वेक वर्ड मोडेल प्रशिक्षण र प्रयोग गर्ने जटिलता टार्न स्पीच रिकग्निशन अन गर्न बटन प्रयोग गर्नेछ। > 💁 यदि तपाईं Wio Terminal वा Raspberry Pi मा चलाउन वेक वर्ड डिटेक्शन मोडेल बनाउन चाहनुहुन्छ भने, [Edge Impulse को यो ट्युटोरियल](https://docs.edgeimpulse.com/docs/responding-to-your-voice) हेर्नुहोस्। यदि तपाईं आफ्नो कम्प्युटर प्रयोग गर्न चाहनुहुन्छ भने, [Microsoft Docs मा Custom Keyword को क्विकस्टार्ट](https://docs.microsoft.com/azure/cognitive-services/speech-service/keyword-recognition-overview?WT.mc_id=academic-17441-jabenn) प्रयास गर्न सक्नुहुन्छ। ## स्पीचलाई टेक्स्टमा रूपान्तरण गर्नुहोस् ![स्पीच सेवाहरूको लोगो](../../../../../translated_images/azure-speech-logo.a1f08c4befb0159f2cb5d692d3baf5b599e7b44759d316da907bda1508f46a4a.ne.png) पहिलेको प्रोजेक्टमा इमेज क्लासिफिकेसन जस्तै, त्यस्ता पूर्व-निर्मित AI सेवाहरू छन्, जसले अडियो फाइललाई टेक्स्टमा रूपान्तरण गर्न सक्छ। यस्तै एउटा सेवा हो स्पीच सेवा, जुन Cognitive Services को भाग हो, जसलाई तपाईं आफ्नो एप्समा प्रयोग गर्न सक्नुहुन्छ। ### कार्य - स्पीच AI स्रोत कन्फिगर गर्नुहोस् 1. यस प्रोजेक्टका लागि `smart-timer` नामक एक Resource Group बनाउनुहोस्। 1. निम्न आदेश प्रयोग गरेर निःशुल्क स्पीच स्रोत बनाउनुहोस्: ```sh az cognitiveservices account create --name smart-timer \ --resource-group smart-timer \ --kind SpeechServices \ --sku F0 \ --yes \ --location ``` `` लाई Resource Group बनाउँदा प्रयोग गरिएको स्थानले प्रतिस्थापन गर्नुहोस्। 1. तपाईंलाई आफ्नो कोडबाट स्पीच स्रोतमा पहुँच गर्न API key आवश्यक पर्छ। निम्न आदेश चलाएर key प्राप्त गर्नुहोस्: ```sh az cognitiveservices account keys list --name smart-timer \ --resource-group smart-timer \ --output table ``` key मध्ये एउटा प्रतिलिपि गर्नुहोस्। ### कार्य - स्पीचलाई टेक्स्टमा रूपान्तरण गर्नुहोस् आफ्नो IoT उपकरणमा स्पीचलाई टेक्स्टमा रूपान्तरण गर्न सम्बन्धित गाइड पूरा गर्नुहोस्: * [Arduino - Wio Terminal](wio-terminal-speech-to-text.md) * [Single-board computer - Raspberry Pi](pi-speech-to-text.md) * [Single-board computer - Virtual device](virtual-device-speech-to-text.md) --- ## 🚀 चुनौती स्पीच रिकग्निशन धेरै समयदेखि चलिरहेको छ, र यो निरन्तर सुधार भइरहेको छ। हालका क्षमताहरूको अनुसन्धान गर्नुहोस् र यी समयसँग कसरी विकसित भएका छन् तुलना गर्नुहोस्, जसमा मेसिन ट्रान्सक्रिप्सनहरू मानवको तुलनामा कति सटीक छन् भन्ने कुरा समावेश छ। तपाईंलाई के लाग्छ, स्पीच रिकग्निशनको भविष्य कस्तो हुनेछ? ## पोस्ट-लेक्चर क्विज [पोस्ट-लेक्चर क्विज](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/42) ## समीक्षा र आत्म-अध्ययन * विभिन्न प्रकारका माइक्रोफोनहरू र तिनीहरू कसरी काम गर्छन् भन्ने बारेमा [Musician's HQ मा रहेको यो लेख](https://musicianshq.com/whats-the-difference-between-dynamic-and-condenser-microphones/) पढ्नुहोस्। * Microsoft Docs मा रहेको [स्पीच सेवा डकुमेन्टेसन](https://docs.microsoft.com/azure/cognitive-services/speech-service/?WT.mc_id=academic-17441-jabenn) मा Cognitive Services स्पीच सेवाबारे थप पढ्नुहोस्। * Microsoft Docs मा रहेको [कीवर्ड रिकग्निशन डकुमेन्टेसन](https://docs.microsoft.com/azure/cognitive-services/speech-service/keyword-recognition-overview?WT.mc_id=academic-17441-jabenn) मा कीवर्ड स्पटिङबारे पढ्नुहोस्। ## असाइनमेन्ट [](assignment.md) --- **अस्वीकरण**: यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।