8.4 KiB

Raw Permalink Blame History Unescape Escape

設定計時器並提供語音回饋

手繪筆記由 Nitya Narasimhan 提供。點擊圖片查看更大版本。

課前測驗

簡介

智慧助理並非單向的溝通設備。你對它說話，它會回應你：

「Alexa，設定一個3分鐘的計時器」

「好的，您的計時器已設定為3分鐘」

在前兩節課中，你學會了如何將語音轉換為文字，然後從文字中提取設定計時器的請求。在本課中，你將學習如何在物聯網設備上設定計時器，並以語音回應用戶確認計時器已設定，並在計時器結束時提醒用戶。

本課將涵蓋以下內容：

文字轉語音

顧名思義，文字轉語音是將文字轉換為包含語音的音頻的過程。其基本原理是將文字中的單詞分解為其組成的聲音（稱為音素），然後將這些聲音的音頻拼接在一起，這些音頻可以是預錄的，也可以是由人工智慧模型生成的。

文字轉語音系統通常有三個階段：

文字分析
語言學分析
波形生成

文字分析

文字分析是指將提供的文字轉換為可以用於生成語音的單詞。例如，如果你轉換「Hello world」，則不需要進行文字分析，這兩個單詞可以直接轉換為語音。但如果是「1234」，則可能需要根據上下文將其轉換為「一千二百三十四」或「一、二、三、四」。例如，「我有1234個蘋果」應該是「一千二百三十四」，而「孩子數到1234」則應該是「一、二、三、四」。

單詞的生成不僅取決於語言，還取決於該語言的地區。例如，在美式英語中，120是「One hundred twenty」，而在英式英語中則是「One hundred and twenty」，多了一個「and」。

✅ 其他需要文字分析的例子包括「in」作為英寸的縮寫，以及「st」作為聖徒或街道的縮寫。你能想到在你的語言中有哪些單詞在沒有上下文時會產生歧義嗎？

一旦單詞被定義，它們就會被送去進行語言學分析。

語言學分析

語言學分析將單詞分解為音素。音素不僅基於使用的字母，還基於單詞中的其他字母。例如，在英語中，「car」和「care」中的「a」發音是不同的。英語中有44個不同的音素，而字母表只有26個字母，有些音素由不同的字母共享，例如「circle」和「serpent」的開頭使用相同的音素。

✅ 做些研究：你的語言有哪些音素？

當單詞被轉換為音素後，這些音素需要額外的數據來支持語調，根據上下文調整音調或持續時間。例如，在英語中，音調的升高可以將一個句子轉換為疑問句，最後一個單詞的音調升高意味著這是一個問題。

例如，句子「You have an apple」是一個陳述句，表示你有一個蘋果。如果最後一個單詞的音調升高，變成「You have an apple?」，則成為一個詢問句，問你是否有一個蘋果。語言學分析需要使用句末的問號來決定是否提高音調。

一旦音素生成完成，它們就可以被送去波形生成以產生音頻輸出。

波形生成

最早的電子文字轉語音系統使用每個音素的單一音頻錄音，導致語音聽起來非常單調、機械化。語言學分析生成音素後，這些音素會從音頻數據庫中加載並拼接在一起生成音頻。

✅ 做些研究：找一些早期語音合成系統的音頻錄音。將其與現代語音合成（如智慧助理中使用的語音）進行比較。

更現代的波形生成使用基於深度學習的機器學習模型（非常大的神經網絡，類似於大腦中的神經元）來生成更自然的語音，這些語音甚至可以與人類無法區分。

💁 其中一些機器學習模型可以通過遷移學習重新訓練，模仿真實人物的聲音。這意味著使用聲音作為安全系統（例如銀行越來越多地嘗試這樣做）已不再是一個好主意，因為任何人只需幾分鐘的聲音錄音就可以模仿你。

這些大型機器學習模型正在被訓練以將所有三個步驟結合成端到端的語音合成器。