|
|
@ -31,11 +31,11 @@
|
|
|
|
|
|
|
|
|
|
|
|
#### 语音合成方法
|
|
|
|
#### 语音合成方法
|
|
|
|
|
|
|
|
|
|
|
|
**波形拼接** : 将各种语音单元拼接起来,需要考虑目标代价(目标语音单元和候选的语音单元匹配度)和连接代价(相邻语音单元之间的流畅度)
|
|
|
|
**波形拼接** : 将各种语音单元拼接起来,需要考虑目标代价(目标语音单元和候选的语音单元匹配度)和连接代价(相邻语音单元之间的流畅度)
|
|
|
|
|
|
|
|
|
|
|
|
**基于轨迹指导的拼接合成**
|
|
|
|
**基于轨迹指导的拼接合成**
|
|
|
|
|
|
|
|
|
|
|
|
**统计参数合成** : 帧级建模包括时长模型(音素序列->帧级文本特征)和声学模型(帧级文本特征->帧级语音输出)。主要方法是基于HMM 的 SPSS (Statistical Parametric Speech Synthesis), 可以用的工具包 HTS。
|
|
|
|
**统计参数合成** : 帧级建模包括时长模型(音素序列->帧级文本特征)和声学模型(帧级文本特征->帧级语音输出)。主要方法是基于HMM 的 SPSS (Statistical Parametric Speech Synthesis), 可以用的工具包 HTS。
|
|
|
|
|
|
|
|
|
|
|
|
**神经网络合成方法** : 目前许多商用场景下已经部署了基于神经网络的语音合成模型。目前基于神经网络的方法还不是纯端到端的,分为两个部分,输入文本类信息(音素,时长等)经过神经网络得到输出特征(LF0, UV, 谱特征, bap), 接着将这些特征放到声码器(vocoder) 中得到对应的语音波形。主流方法是 Tactron, Tactron2, 注意力机制,Transformer。正在朝着基于序列到序列的语音合成,纯端到端的语音合成方向发展。
|
|
|
|
**神经网络合成方法** : 目前许多商用场景下已经部署了基于神经网络的语音合成模型。目前基于神经网络的方法还不是纯端到端的,分为两个部分,输入文本类信息(音素,时长等)经过神经网络得到输出特征(LF0, UV, 谱特征, bap), 接着将这些特征放到声码器(vocoder) 中得到对应的语音波形。主流方法是 Tactron, Tactron2, 注意力机制,Transformer。正在朝着基于序列到序列的语音合成,纯端到端的语音合成方向发展。
|
|
|
|
|
|
|
|
|
|
|
@ -88,9 +88,9 @@
|
|
|
|
|
|
|
|
|
|
|
|
### 语音合成数据集
|
|
|
|
### 语音合成数据集
|
|
|
|
|
|
|
|
|
|
|
|
数据质量非常重要
|
|
|
|
数据质量非常重要
|
|
|
|
|
|
|
|
|
|
|
|
中文: 标贝DB-1,女性说话,1万句,10.3小时
|
|
|
|
中文: 标贝DB-1,女性说话,1万句,10.3小时
|
|
|
|
|
|
|
|
|
|
|
|
英文: VCTK, LJSpeech, LibriSpeech, LibriTTS
|
|
|
|
英文: VCTK, LJSpeech, LibriSpeech, LibriTTS
|
|
|
|
|
|
|
|
|
|
|
@ -100,7 +100,7 @@
|
|
|
|
|
|
|
|
|
|
|
|
目前非端到端的语音合成算法有两种,
|
|
|
|
目前非端到端的语音合成算法有两种,
|
|
|
|
|
|
|
|
|
|
|
|
1)**参数语音合成方法**,其中*声学模型*包括基于隐马尔可夫(HMM)的统计参数语音合成和基于神经网络(NN)的统计参数语音合成,而*声码器*包括基于源-滤波器的声码器和基于NN的声码器
|
|
|
|
1)**参数语音合成方法**,其中*声学模型*包括基于隐马尔可夫(HMM)的统计参数语音合成和基于神经网络(NN)的统计参数语音合成,而*声码器*包括基于源-滤波器的声码器和基于NN的声码器
|
|
|
|
|
|
|
|
|
|
|
|
2) **单元拼接语音合成方法** 简单地理解是有一个很大的语音库包含了许多词/音素的发音,用一些方法将各个单元拼接起来。
|
|
|
|
2) **单元拼接语音合成方法** 简单地理解是有一个很大的语音库包含了许多词/音素的发音,用一些方法将各个单元拼接起来。
|
|
|
|
|
|
|
|
|
|
|
@ -142,4 +142,4 @@ HMM 应用到 TTS 这里和 ASR 还是有些区别的。主要参考的论文是
|
|
|
|
|
|
|
|
|
|
|
|
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/09/26/TTS/
|
|
|
|
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/09/26/TTS/
|
|
|
|
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/25/TTS2/
|
|
|
|
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/25/TTS2/
|
|
|
|
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/12/04/TTS6/
|
|
|
|
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/12/04/TTS6/
|
|
|
|