You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
IoT-For-Beginners/translations/sr/6-consumer/lessons/3-spoken-feedback
co-op-translator[bot] 1bda9532dc
🌐 Update translations via Co-op Translator (#555)
4 weeks ago
..
README.md 🌐 Update translations via Co-op Translator (#555) 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator (#555) 4 weeks ago
pi-text-to-speech.md 🌐 Update translations via Co-op Translator (#555) 4 weeks ago
single-board-computer-set-timer.md 🌐 Update translations via Co-op Translator (#555) 4 weeks ago
virtual-device-text-to-speech.md 🌐 Update translations via Co-op Translator (#555) 4 weeks ago
wio-terminal-set-timer.md 🌐 Update translations via Co-op Translator (#555) 4 weeks ago
wio-terminal-text-to-speech.md 🌐 Update translations via Co-op Translator (#555) 4 weeks ago

README.md

Поставите тајмер и пружите усмене повратне информације

Преглед лекције у виду скице

Скица од Nitya Narasimhan. Кликните на слику за већу верзију.

Квиз пре предавања

Квиз пре предавања

Увод

Паметни асистенти нису уређаји за једносмерну комуникацију. Ви разговарате са њима, а они одговарају:

"Alexa, постави тајмер на 3 минута"

"У реду, ваш тајмер је постављен на 3 минута"

У претходне две лекције научили сте како да претворите говор у текст, а затим из текста извучете захтев за постављање тајмера. У овој лекцији ћете научити како да поставите тајмер на IoT уређају, одговорите кориснику усменим речима које потврђују његов тајмер и обавестите га када тајмер истекне.

У овој лекцији обрадићемо:

Текст у говор

Текст у говор, како назив сугерише, је процес претварања текста у аудио који садржи текст као изговорене речи. Основни принцип је да се речи у тексту разложе на њихове саставне звуке (познате као фонеме) и да се ти звуци споје у аудио, било коришћењем унапред снимљеног аудио материјала или аудио материјала генерисаног помоћу AI модела.

Три фазе типичних система за текст у говор

Системи за текст у говор обично имају 3 фазе:

  • Анализа текста
  • Лингвистичка анализа
  • Генерисање звучног таласа

Анализа текста

Анализа текста подразумева узимање датог текста и његово претварање у речи које се могу користити за генерисање говора. На пример, ако претварате "Hello world", није потребна анализа текста, те две речи могу се директно претворити у говор. Међутим, ако имате "1234", то можда треба претворити у речи "One thousand, two hundred thirty four" или "One, two, three, four" у зависности од контекста. За "I have 1234 apples", то би било "One thousand, two hundred thirty four", али за "The child counted 1234" то би било "One, two, three, four".

Речи које се генеришу варирају не само у зависности од језика, већ и од локалитета тог језика. На пример, у америчком енглеском, 120 би било "One hundred twenty", док би у британском енглеском било "One hundred and twenty", са употребом "and" после стотина.

Неки други примери који захтевају анализу текста укључују "in" као скраћеницу за инч и "st" као скраћеницу за светог или улицу. Можете ли смислити друге примере у вашем језику где су речи двосмислене без контекста?

Када су речи дефинисане, шаљу се на лингвистичку анализу.

Лингвистичка анализа

Лингвистичка анализа разлаже речи на фонеме. Фонеме се заснивају не само на коришћеним словима, већ и на другим словима у речи. На пример, у енглеском језику звук 'a' у 'car' и 'care' је различит. Енглески језик има 44 различите фонеме за 26 слова у абецеди, неке од њих деле различита слова, као што је иста фонема која се користи на почетку речи 'circle' и 'serpent'.

Урадите истраживање: Које су фонеме за ваш језик?

Када се речи претворе у фонеме, овим фонемама је потребно додатно подешавање за интонацију, прилагођавање тона или трајања у зависности од контекста. Један пример је у енглеском језику где се повећање висине тона може користити за претварање реченице у питање, при чему повишен тон на последњој речи имплицира питање.

На пример - реченица "You have an apple" је изјава која каже да имате јабуку. Ако се тон повећа на крају, повећавајући се за реч "apple", она постаје питање "You have an apple?", питајући да ли имате јабуку. Лингвистичка анализа мора користити знак питања на крају да би одлучила да повећа тон.

Када се фонеме генеришу, шаљу се на генерисање звучног таласа за производњу аудио излаза.

Генерисање звучног таласа

Први електронски системи за текст у говор користили су појединачне аудио снимке за сваку фонему, што је доводило до веома монотоних, роботских гласова. Лингвистичка анализа би произвела фонеме, оне би се учитавале из базе података звукова и спајале за прављење аудио материјала.

Урадите истраживање: Пронађите аудио снимке из раних система за синтезу говора. Упоредите их са модерном синтезом говора, као што је она која се користи у паметним асистентима.

Модерније генерисање звучног таласа користи ML моделе изграђене помоћу дубоког учења (веома великих неуронских мрежа које функционишу на сличан начин као неурони у мозгу) за производњу природнијих гласова који могу бити неразлучиви од људских.

💁 Неки од ових ML модела могу се поново обучити помоћу трансфер учења да звуче као стварни људи. То значи да коришћење гласа као система безбедности, што банке све више покушавају, више није добра идеја јер свако ко има снимак вашег гласа од неколико минута може вас имитирати.

Ови велики ML модели се обучавају да комбинују све три фазе у системе за синтезу говора од краја до краја.

Постављање тајмера

Да би поставио тајмер, ваш IoT уређај треба да позове REST крајњу тачку коју сте креирали помоћу серверлес кода, а затим да користи добијени број секунди за постављање тајмера.

Задатак - позовите серверлес функцију за добијање времена за тајмер

Пратите релевантни водич за позивање REST крајње тачке са вашег IoT уређаја и поставите тајмер за потребно време:

Претварање текста у говор

Иста услуга за говор коју сте користили за претварање говора у текст може се користити за претварање текста назад у говор, а овај говор се може репродуковати преко звучника на вашем IoT уређају. Текст који треба претворити шаље се услузи за говор, заједно са типом потребног аудио материјала (као што је узорак фреквенције), а бинарни подаци који садрже аудио се враћају.

Када шаљете овај захтев, шаљете га користећи Језик за означавање синтезе говора (SSML), XML-базирани језик за означавање за апликације синтезе говора. Овај језик дефинише не само текст који треба претворити, већ и језик текста, глас који треба користити, а може се чак користити за дефинисање брзине, јачине и висине тона за неке или све речи у тексту.

На пример, овај SSML дефинише захтев за претварање текста "Your 3 minute 5 second time has been set" у говор користећи британски енглески глас назван en-GB-MiaNeural

<speak version='1.0' xml:lang='en-GB'>
    <voice xml:lang='en-GB' name='en-GB-MiaNeural'>
        Your 3 minute 5 second time has been set
    </voice>
</speak>

💁 Већина система за текст у говор има више гласова за различите језике, са релевантним акцентима као што су британски енглески глас са енглеским акцентом и новозеландски енглески глас са новозеландским акцентом.

Задатак - претворите текст у говор

Прођите кроз релевантни водич за претварање текста у говор помоћу вашег IoT уређаја:


🚀 Изазов

SSML има начине да промени начин на који се речи изговарају, као што је додавање нагласка на одређене речи, додавање пауза или промена висине тона. Испробајте неке од ових опција, шаљући различите SSML са вашег IoT уређаја и упоређујући резултате. Можете прочитати више о SSML-у, укључујући како да промените начин на који се речи изговарају у Спецификацији верзије 1.1 језика за означавање синтезе говора (SSML) од World Wide Web конзорцијума.

Квиз после предавања

Квиз после предавања

Преглед и самостално учење

Задатак

Откажите тајмер


Одрицање од одговорности:
Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције Co-op Translator. Иако се трудимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода.