9.6 KiB

Raw Permalink Blame History

Weka kipima muda na toa maoni kwa sauti

Sketchnote na Nitya Narasimhan. Bofya picha kwa toleo kubwa zaidi.

Jaribio la kabla ya somo

Utangulizi

Wasidizi mahiri si vifaa vya mawasiliano vya njia moja. Unazungumza nao, na wanajibu:

"Alexa, weka kipima muda cha dakika 3"

"Sawa, kipima muda chako kimewekwa kwa dakika 3"

Katika masomo mawili yaliyopita ulijifunza jinsi ya kuchukua sauti na kuunda maandishi, kisha kutoa ombi la kuweka kipima muda kutoka kwa maandishi hayo. Katika somo hili utajifunza jinsi ya kuweka kipima muda kwenye kifaa cha IoT, ukijibu mtumiaji kwa maneno ya sauti yanayothibitisha kipima muda chao, na kuwaarifu kipima muda wao kinapomalizika.

Katika somo hili tutashughulikia:

Maandishi hadi sauti

Maandishi hadi sauti, kama jina linavyopendekeza, ni mchakato wa kubadilisha maandishi kuwa sauti inayojumuisha maneno yaliyosemwa. Kanuni ya msingi ni kuvunja maneno katika maandishi kuwa sauti zake za kimsingi (zinazojulikana kama fonimu), na kushona pamoja sauti za fonimu hizo, ama kwa kutumia sauti zilizorekodiwa awali au sauti zinazozalishwa na mifano ya AI.

Mifumo ya maandishi hadi sauti kwa kawaida ina hatua 3:

Uchambuzi wa maandishi
Uchambuzi wa kiisimu
Uzalishaji wa mawimbi ya sauti

Uchambuzi wa maandishi

Uchambuzi wa maandishi unahusisha kuchukua maandishi yaliyotolewa, na kuyabadilisha kuwa maneno yanayoweza kutumika kuzalisha sauti. Kwa mfano, ukibadilisha "Hello world", hakuna uchambuzi wa maandishi unaohitajika, maneno hayo mawili yanaweza kubadilishwa kuwa sauti moja kwa moja. Ikiwa una "1234" hata hivyo, basi hii inaweza kuhitaji kubadilishwa kuwa maneno "Elfu moja mia mbili thelathini na nne" au "Moja, mbili, tatu, nne" kulingana na muktadha. Kwa "Nina maapulo 1234", basi itakuwa "Elfu moja mia mbili thelathini na nne", lakini kwa "Mtoto alihesabu 1234" basi itakuwa "Moja, mbili, tatu, nne".

Maneno yanayoundwa hutofautiana si tu kwa lugha, bali pia kwa eneo la lugha hiyo. Kwa mfano, katika Kiingereza cha Marekani, 120 itakuwa "One hundred twenty", katika Kiingereza cha Uingereza itakuwa "One hundred and twenty", na matumizi ya "and" baada ya mamia.

✅ Mifano mingine inayohitaji uchambuzi wa maandishi ni pamoja na "in" kama kifupi cha inchi, na "st" kama kifupi cha mtakatifu au mtaa. Je, unaweza kufikiria mifano mingine katika lugha yako ya maneno ambayo ni yenye utata bila muktadha?

Baada ya maneno kufafanuliwa, yanatumwa kwa uchambuzi wa kiisimu.

Uchambuzi wa kiisimu

Uchambuzi wa kiisimu huvunja maneno kuwa fonimu. Fonimu hazitegemei tu herufi zinazotumika, bali pia herufi nyingine katika neno. Kwa mfano, katika Kiingereza sauti ya 'a' katika 'car' na 'care' ni tofauti. Lugha ya Kiingereza ina fonimu 44 tofauti kwa herufi 26 za alfabeti, baadhi zikishirikiwa na herufi tofauti, kama fonimu ile ile inayotumika mwanzoni mwa 'circle' na 'serpent'.

✅ Fanya utafiti: Fonimu za lugha yako ni zipi?

Baada ya maneno kubadilishwa kuwa fonimu, fonimu hizi zinahitaji data ya ziada kusaidia intonasheni, kurekebisha toni au muda kulingana na muktadha. Mfano mmoja ni katika Kiingereza, kuongeza sauti kunaweza kutumika kubadilisha sentensi kuwa swali, ambapo sauti ya juu kwa neno la mwisho inaashiria swali.

Kwa mfano - sentensi "You have an apple" ni taarifa inayosema una tofaa. Ikiwa sauti inapanda mwishoni, ikiongezeka kwa neno "apple", inakuwa swali "You have an apple?", ikiuliza kama una tofaa. Uchambuzi wa kiisimu unahitaji kutumia alama ya swali mwishoni kuamua kuongeza sauti.

Baada ya fonimu kuzalishwa, zinaweza kutumwa kwa uzalishaji wa mawimbi ya sauti ili kutoa sauti ya mwisho.

Uzalishaji wa mawimbi ya sauti

Mifumo ya kwanza ya kielektroniki ya maandishi hadi sauti ilitumia rekodi za sauti moja kwa kila fonimu, na kusababisha sauti za kimonotoni, kama roboti. Uchambuzi wa kiisimu ungezalisha fonimu, hizi zingepakiwa kutoka kwenye hifadhidata ya sauti na kushonwa pamoja kutengeneza sauti.

✅ Fanya utafiti: Tafuta rekodi za sauti kutoka kwa mifumo ya awali ya usanisi wa sauti. Linganisha na usanisi wa sauti wa kisasa, kama ule unaotumika kwa wasaidizi mahiri.

Uzalishaji wa mawimbi ya kisasa zaidi hutumia mifano ya ML iliyojengwa kwa kujifunza kwa kina (mitandao mikubwa ya neva inayofanya kazi kwa njia sawa na neva za ubongo) kuzalisha sauti za asili zaidi ambazo zinaweza kuwa tofauti na za binadamu.

💁 Baadhi ya mifano hii ya ML inaweza kufundishwa upya kwa kutumia kujifunza kwa uhamisho ili kufanana na sauti za watu halisi. Hii inamaanisha kutumia sauti kama mfumo wa usalama, jambo ambalo benki zinajaribu zaidi, si wazo zuri tena kwani mtu yeyote aliye na rekodi ya dakika chache ya sauti yako anaweza kukufananisha.

Mifano hii mikubwa ya ML inafundishwa kuunganisha hatua zote tatu kuwa usanisi wa sauti wa mwisho hadi mwisho.

Weka kipima muda

Ili kuweka kipima muda, kifaa chako cha IoT kinahitaji kupiga endpoint ya REST uliyounda kwa kutumia msimbo wa serverless, kisha kutumia idadi ya sekunde inayopatikana kuweka kipima muda.

Kazi - piga kazi ya serverless kupata muda wa kipima muda

Fuata mwongozo husika kupiga endpoint ya REST kutoka kwa kifaa chako cha IoT na kuweka kipima muda kwa muda unaohitajika:

Badilisha maandishi kuwa sauti

Huduma ile ile ya sauti uliyotumia kubadilisha sauti kuwa maandishi inaweza kutumika kubadilisha maandishi kuwa sauti, na hii inaweza kuchezwa kupitia spika kwenye kifaa chako cha IoT. Maandishi ya kubadilisha yanatumwa kwa huduma ya sauti, pamoja na aina ya sauti inayohitajika (kama kiwango cha sampuli), na data ya binary inayojumuisha sauti inarudishwa.

Unapotuma ombi hili, unalituma kwa kutumia Speech Synthesis Markup Language (SSML), lugha ya alama inayotegemea XML kwa matumizi ya usanisi wa sauti. Hii haifafanui tu maandishi ya kubadilisha, bali pia lugha ya maandishi, sauti ya kutumia, na inaweza hata kutumika kufafanua kasi, sauti, na toni kwa baadhi au maneno yote katika maandishi.

Kwa mfano, SSML hii inafafanua ombi la kubadilisha maandishi "Your 3 minute 5 second time has been set" kuwa sauti kwa kutumia sauti ya Kiingereza cha Uingereza inayoitwa en-GB-MiaNeural

<speak version='1.0' xml:lang='en-GB'>
    <voice xml:lang='en-GB' name='en-GB-MiaNeural'>
        Your 3 minute 5 second time has been set
    </voice>
</speak>

💁 Mifumo mingi ya maandishi hadi sauti ina sauti nyingi kwa lugha tofauti, zikiwa na lafudhi husika kama sauti ya Kiingereza cha Uingereza yenye lafudhi ya Kiingereza na sauti ya Kiingereza cha New Zealand yenye lafudhi ya New Zealand.

Kazi - badilisha maandishi kuwa sauti

Fanya kazi kupitia mwongozo husika kubadilisha maandishi kuwa sauti kwa kutumia kifaa chako cha IoT:

🚀 Changamoto

SSML ina njia za kubadilisha jinsi maneno yanavyosemwa, kama kuongeza mkazo kwa maneno fulani, kuongeza mapumziko, au kubadilisha toni. Jaribu baadhi ya haya, ukituma SSML tofauti kutoka kwa kifaa chako cha IoT na kulinganisha matokeo. Unaweza kusoma zaidi kuhusu SSML, ikiwa ni pamoja na jinsi ya kubadilisha jinsi maneno yanavyosemwa katika maelezo ya Speech Synthesis Markup Language (SSML) Toleo la 1.1 kutoka kwa World Wide Web consortium.

Jaribio la baada ya somo

Mapitio na Kujisomea

Soma zaidi kuhusu usanisi wa sauti kwenye ukurasa wa usanisi wa sauti kwenye Wikipedia
Soma zaidi kuhusu njia ambazo wahalifu wanatumia usanisi wa sauti kuiba kwenye hadithi ya sauti bandia 'zinavyosaidia wahalifu wa mtandao kuiba pesa' kwenye BBC news
Jifunze zaidi kuhusu hatari kwa waigizaji wa sauti kutoka kwa matoleo yaliyosanifiwa ya sauti zao katika makala ya jinsi AI inavyowaumiza waigizaji wa sauti kwenye Vice

Kazi

Futa kipima muda

Kanusho:
Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI Co-op Translator. Ingawa tunajitahidi kuhakikisha usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inapendekezwa. Hatutawajibika kwa kutoelewana au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.

9.6 KiB Raw Permalink Blame History