You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
IoT-For-Beginners/translations/mr/6-consumer/lessons/3-spoken-feedback
co-op-translator[bot] 9508c7b48a
🌐 Update translations via Co-op Translator (#545)
4 weeks ago
..
README.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
pi-text-to-speech.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
single-board-computer-set-timer.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
virtual-device-text-to-speech.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
wio-terminal-set-timer.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago
wio-terminal-text-to-speech.md 🌐 Update translations via Co-op Translator (#545) 4 weeks ago

README.md

टाइमर सेट करा आणि बोलून फीडबॅक द्या

या धड्याचा स्केच नोट्सचा आढावा

स्केच नोट्स नित्य नरसिंहन यांनी तयार केले. मोठ्या आवृत्तीसाठी प्रतिमेवर क्लिक करा.

व्याख्यानपूर्व प्रश्नमंजूषा

व्याख्यानपूर्व प्रश्नमंजूषा

परिचय

स्मार्ट सहाय्यक हे एकतर्फी संवाद साधणारी उपकरणे नाहीत. तुम्ही त्यांच्याशी बोलता आणि ते प्रतिसाद देतात:

"अलेक्सा, ३ मिनिटांचा टाइमर सेट करा"

"ठीक आहे, तुमचा टाइमर ३ मिनिटांसाठी सेट केला आहे"

गेल्या दोन धड्यांमध्ये तुम्ही शिकले की भाषणाचे टेक्स्टमध्ये रूपांतर कसे करायचे आणि त्या टेक्स्टमधून टाइमर सेट करण्याची विनंती कशी काढायची. या धड्यात तुम्ही शिकाल की IoT उपकरणावर टाइमर कसा सेट करायचा, वापरकर्त्याला त्यांच्या टाइमरची पुष्टी देणारे शब्द बोलून प्रतिसाद द्यायचा आणि टाइमर संपल्यावर त्यांना सतर्क करायचे.

या धड्यात आपण कव्हर करू:

टेक्स्ट ते भाषण

टेक्स्ट ते भाषण, नावाप्रमाणेच, टेक्स्टचे ऑडिओमध्ये रूपांतर करण्याची प्रक्रिया आहे ज्यामध्ये टेक्स्ट बोललेल्या शब्दांप्रमाणे असते. मूलभूत तत्त्व म्हणजे टेक्स्टमधील शब्दांचे घटक ध्वनींमध्ये (ज्याला फोनीम्स म्हणतात) विभाजन करणे आणि त्या ध्वनींसाठी ऑडिओ एकत्र करणे, प्री-रेकॉर्ड केलेल्या ऑडिओचा वापर करून किंवा AI मॉडेल्सद्वारे ऑडिओ तयार करून.

टेक्स्ट ते भाषण प्रणालींच्या सामान्य तीन टप्प्यांचे चित्रण

टेक्स्ट ते भाषण प्रणालींमध्ये सामान्यतः ३ टप्पे असतात:

  • टेक्स्ट विश्लेषण
  • भाषिक विश्लेषण
  • वेव्ह-फॉर्म निर्मिती

टेक्स्ट विश्लेषण

टेक्स्ट विश्लेषणामध्ये दिलेला टेक्स्ट घेऊन तो भाषण तयार करण्यासाठी वापरता येणाऱ्या शब्दांमध्ये रूपांतरित करणे समाविष्ट आहे. उदाहरणार्थ, जर तुम्ही "Hello world" चे रूपांतर केले, तर कोणतेही टेक्स्ट विश्लेषण आवश्यक नाही, हे दोन शब्द भाषणात रूपांतरित करता येतील. परंतु जर तुम्ही "1234" चे रूपांतर केले, तर ते "One thousand, two hundred thirty four" किंवा "One, two, three, four" मध्ये रूपांतरित करावे लागेल, संदर्भानुसार. "I have 1234 apples" साठी ते "One thousand, two hundred thirty four" असेल, परंतु "The child counted 1234" साठी ते "One, two, three, four" असेल.

शब्द केवळ भाषेसाठीच नव्हे तर त्या भाषेच्या स्थानिक स्वरूपासाठीही बदलतात. उदाहरणार्थ, अमेरिकन इंग्रजीमध्ये 120 हे "One hundred twenty" असेल, तर ब्रिटिश इंग्रजीमध्ये ते "One hundred and twenty" असेल, ज्यामध्ये "and" चा वापर शंभरानंतर होतो.

काही इतर उदाहरणे ज्यांना टेक्स्ट विश्लेषण आवश्यक आहे ती म्हणजे "in" हे inch चे संक्षिप्त रूप आणि "st" हे saint आणि street चे संक्षिप्त रूप. तुमच्या भाषेत संदर्भाशिवाय अस्पष्ट असलेल्या शब्दांची इतर उदाहरणे तुम्ही विचार करू शकता का?

एकदा शब्द निश्चित झाल्यावर ते भाषिक विश्लेषणासाठी पाठवले जातात.

भाषिक विश्लेषण

भाषिक विश्लेषण शब्दांना फोनीम्समध्ये विभाजित करते. फोनीम्स केवळ वापरलेल्या अक्षरांवरच आधारित नसतात, तर शब्दातील इतर अक्षरांवरही आधारित असतात. उदाहरणार्थ, इंग्रजीमध्ये 'car' आणि 'care' मधील 'a' चा ध्वनी वेगळा आहे. इंग्रजी भाषेत 26 अक्षरांसाठी 44 वेगवेगळे फोनीम्स आहेत, काही वेगवेगळ्या अक्षरांद्वारे सामायिक केले जातात, जसे 'circle' आणि 'serpent' च्या सुरुवातीस वापरलेला समान फोनीम.

संशोधन करा: तुमच्या भाषेसाठी फोनीम्स काय आहेत?

एकदा शब्द फोनीम्समध्ये रूपांतरित झाले की, संदर्भानुसार टोन किंवा कालावधी समायोजित करण्यासाठी फोनीम्सना अतिरिक्त डेटा आवश्यक असतो. एक उदाहरण म्हणजे इंग्रजीमध्ये पिच वाढवून वाक्याला प्रश्नात रूपांतरित करता येते, शेवटच्या शब्दासाठी वाढलेला पिच प्रश्न सूचित करतो.

उदाहरणार्थ - "You have an apple" हे वाक्य एक विधान आहे जे सांगते की तुमच्याकडे एक सफरचंद आहे. जर शेवटी पिच वाढले, विशेषतः 'apple' साठी, तर ते "You have an apple?" असा प्रश्न बनतो, विचारत आहे की तुमच्याकडे सफरचंद आहे का. भाषिक विश्लेषणाला शेवटी असलेल्या प्रश्नचिन्हाचा वापर करून पिच वाढवायचे आहे.

एकदा फोनीम्स तयार झाल्यावर, ऑडिओ आउटपुट तयार करण्यासाठी ते वेव्ह-फॉर्म निर्मितीसाठी पाठवले जातात.

वेव्ह-फॉर्म निर्मिती

पहिल्या इलेक्ट्रॉनिक टेक्स्ट ते भाषण प्रणालींनी प्रत्येक फोनीमसाठी एकल ऑडिओ रेकॉर्डिंग वापरले, ज्यामुळे अतिशय एकसंध, रोबोटिक आवाज निर्माण झाले. भाषिक विश्लेषण फोनीम्स तयार करेल, हे फोनीम्स ऑडिओ डेटाबेसमधून लोड केले जातील आणि ऑडिओ तयार करण्यासाठी एकत्र केले जातील.

संशोधन करा: सुरुवातीच्या भाषण संश्लेषण प्रणालींचे काही ऑडिओ रेकॉर्डिंग शोधा. आधुनिक भाषण संश्लेषणाशी तुलना करा, जसे स्मार्ट सहाय्यकांमध्ये वापरले जाते.

अधिक आधुनिक वेव्ह-फॉर्म निर्मिती डीप लर्निंग वापरून तयार केलेल्या ML मॉडेल्सचा वापर करते (म्हणजे मोठ्या न्यूरल नेटवर्क्स जे मेंदूतील न्यूरॉन्ससारखे कार्य करतात) जे अधिक नैसर्गिक आवाज तयार करतात, जे मानवांपासून वेगळे ओळखता येत नाहीत.

💁 या ML मॉडेल्सना ट्रान्सफर लर्निंग वापरून वास्तविक लोकांसारखे आवाज तयार करण्यासाठी पुन्हा प्रशिक्षण दिले जाऊ शकते. याचा अर्थ असा की आवाज सुरक्षा प्रणाली म्हणून वापरणे, जे बँका वाढत्या प्रमाणात वापरत आहेत, चांगली कल्पना नाही कारण तुमच्या आवाजाच्या काही मिनिटांच्या रेकॉर्डिंगसह कोणीही तुमची नक्कल करू शकतो.

हे मोठे ML मॉडेल्स तीन टप्प्यांना एकत्र करून एंड-टू-एंड भाषण संश्लेषक तयार करण्यासाठी प्रशिक्षण घेत आहेत.

टाइमर सेट करा

टाइमर सेट करण्यासाठी, तुमच्या IoT उपकरणाला तुम्ही तयार केलेल्या सर्व्हरलेस कोडचा REST एंडपॉइंट कॉल करावा लागेल, आणि परिणामी सेकंदांचा वापर करून टाइमर सेट करावा लागेल.

कार्य - सर्व्हरलेस फंक्शन कॉल करून टाइमर वेळ मिळवा

तुमच्या IoT उपकरणावरून REST एंडपॉइंट कॉल करण्यासाठी आणि आवश्यक वेळेसाठी टाइमर सेट करण्यासाठी संबंधित मार्गदर्शक अनुसरण करा:

टेक्स्टचे भाषणात रूपांतर करा

तुम्ही भाषणाचे टेक्स्टमध्ये रूपांतर करण्यासाठी वापरलेली तीच भाषण सेवा टेक्स्ट परत भाषणात रूपांतर करण्यासाठी वापरली जाऊ शकते, आणि हे ऑडिओ तुमच्या IoT उपकरणावर स्पीकरद्वारे प्ले केले जाऊ शकते. रूपांतरित करण्यासाठी टेक्स्ट भाषण सेवेला पाठवले जाते, ऑडिओ प्रकारासह (जसे नमुना दर), आणि ऑडिओ असलेला बायनरी डेटा परत केला जातो.

जेव्हा तुम्ही ही विनंती पाठवता, तेव्हा तुम्ही Speech Synthesis Markup Language (SSML) वापरून पाठवता, जे भाषण संश्लेषण अनुप्रयोगांसाठी XML-आधारित मार्कअप भाषा आहे. हे केवळ रूपांतरित करण्यासाठी टेक्स्टच नाही तर टेक्स्टची भाषा, वापरण्यासाठी आवाज, आणि काही किंवा सर्व शब्दांसाठी गती, आवाज, आणि पिच देखील परिभाषित करू शकते.

उदाहरणार्थ, हे SSML "Your 3 minute 5 second time has been set" टेक्स्टला ब्रिटिश इंग्रजी आवाज en-GB-MiaNeural वापरून भाषणात रूपांतरित करण्याची विनंती परिभाषित करते.

<speak version='1.0' xml:lang='en-GB'>
    <voice xml:lang='en-GB' name='en-GB-MiaNeural'>
        Your 3 minute 5 second time has been set
    </voice>
</speak>

💁 बहुतेक टेक्स्ट ते भाषण प्रणालींमध्ये वेगवेगळ्या भाषांसाठी अनेक आवाज असतात, संबंधित उच्चारांसह जसे ब्रिटिश इंग्रजी आवाज इंग्रजी उच्चारांसह आणि न्यूझीलंड इंग्रजी आवाज न्यूझीलंड उच्चारांसह.

कार्य - टेक्स्टचे भाषणात रूपांतर करा

तुमच्या IoT उपकरणाचा वापर करून टेक्स्टचे भाषणात रूपांतर करण्यासाठी संबंधित मार्गदर्शक अनुसरण करा:


🚀 आव्हान

SSML मध्ये शब्द कसे बोलले जातात ते बदलण्याचे मार्ग आहेत, जसे काही शब्दांवर जोर देणे, विराम जोडणे, किंवा पिच बदलणे. हे वापरून पहा, तुमच्या IoT उपकरणावरून वेगवेगळे SSML पाठवा आणि आउटपुटची तुलना करा. SSML बद्दल अधिक वाचा, ज्यामध्ये शब्द कसे बोलले जातात ते बदलण्याचे मार्ग Speech Synthesis Markup Language (SSML) Version 1.1 specification from the World Wide Web consortium मध्ये दिले आहेत.

व्याख्यानोत्तर प्रश्नमंजूषा

व्याख्यानोत्तर प्रश्नमंजूषा

पुनरावलोकन आणि स्व-अभ्यास

असाइनमेंट

टाइमर रद्द करा


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने युक्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.