pull/606/head
Hui Zhang 4 years ago
parent 57d3fde821
commit d2c0eed9b6

@ -97,12 +97,3 @@
## Add Punctuation ## Add Punctuation

@ -52,7 +52,7 @@ Please notice that the released language models only contain Chinese simplified
boost: boost:
yum install boost yum install boost
yum install boost-devel yum install boost-devel
zlib: zlib:
yum install zlib yum install zlib
yum install zlib-devel yum install zlib-devel
@ -87,4 +87,4 @@ Please notice that the released language models only contain Chinese simplified
build/bin/build_binary ./result/people2014corpus_words.arps ./result/people2014corpus_words.klm build/bin/build_binary ./result/people2014corpus_words.arps ./result/people2014corpus_words.klm
``` ```

@ -31,11 +31,11 @@
#### 语音合成方法 #### 语音合成方法
**波形拼接** : 将各种语音单元拼接起来,需要考虑目标代价(目标语音单元和候选的语音单元匹配度)和连接代价(相邻语音单元之间的流畅度) **波形拼接** : 将各种语音单元拼接起来,需要考虑目标代价(目标语音单元和候选的语音单元匹配度)和连接代价(相邻语音单元之间的流畅度)
**基于轨迹指导的拼接合成** **基于轨迹指导的拼接合成**
**统计参数合成** : 帧级建模包括时长模型(音素序列->帧级文本特征)和声学模型(帧级文本特征->帧级语音输出)。主要方法是基于HMM 的 SPSS (Statistical Parametric Speech Synthesis), 可以用的工具包 HTS。 **统计参数合成** : 帧级建模包括时长模型(音素序列->帧级文本特征)和声学模型(帧级文本特征->帧级语音输出)。主要方法是基于HMM 的 SPSS (Statistical Parametric Speech Synthesis), 可以用的工具包 HTS。
**神经网络合成方法** : 目前许多商用场景下已经部署了基于神经网络的语音合成模型。目前基于神经网络的方法还不是纯端到端的,分为两个部分,输入文本类信息(音素,时长等)经过神经网络得到输出特征(LF0, UV, 谱特征, bap), 接着将这些特征放到声码器(vocoder) 中得到对应的语音波形。主流方法是 Tactron, Tactron2, 注意力机制Transformer。正在朝着基于序列到序列的语音合成纯端到端的语音合成方向发展。 **神经网络合成方法** : 目前许多商用场景下已经部署了基于神经网络的语音合成模型。目前基于神经网络的方法还不是纯端到端的,分为两个部分,输入文本类信息(音素,时长等)经过神经网络得到输出特征(LF0, UV, 谱特征, bap), 接着将这些特征放到声码器(vocoder) 中得到对应的语音波形。主流方法是 Tactron, Tactron2, 注意力机制Transformer。正在朝着基于序列到序列的语音合成纯端到端的语音合成方向发展。
@ -88,9 +88,9 @@
### 语音合成数据集 ### 语音合成数据集
数据质量非常重要 数据质量非常重要
中文: 标贝DB-1女性说话1万句10.3小时 中文: 标贝DB-1女性说话1万句10.3小时
英文: VCTK, LJSpeech, LibriSpeech, LibriTTS 英文: VCTK, LJSpeech, LibriSpeech, LibriTTS
@ -100,7 +100,7 @@
目前非端到端的语音合成算法有两种, 目前非端到端的语音合成算法有两种,
1)**参数语音合成方法**,其中*声学模型*包括基于隐马尔可夫(HMM)的统计参数语音合成和基于神经网络(NN)的统计参数语音合成,而*声码器*包括基于源-滤波器的声码器和基于NN的声码器 1)**参数语音合成方法**,其中*声学模型*包括基于隐马尔可夫(HMM)的统计参数语音合成和基于神经网络(NN)的统计参数语音合成,而*声码器*包括基于源-滤波器的声码器和基于NN的声码器
2) **单元拼接语音合成方法** 简单地理解是有一个很大的语音库包含了许多词/音素的发音,用一些方法将各个单元拼接起来。 2) **单元拼接语音合成方法** 简单地理解是有一个很大的语音库包含了许多词/音素的发音,用一些方法将各个单元拼接起来。
@ -142,4 +142,4 @@ HMM 应用到 TTS 这里和 ASR 还是有些区别的。主要参考的论文是
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/09/26/TTS/ * https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/09/26/TTS/
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/25/TTS2/ * https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/25/TTS2/
* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/12/04/TTS6/ * https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/12/04/TTS6/

@ -14,14 +14,14 @@
* https://github.com/speechio/chinese_text_normalization * https://github.com/speechio/chinese_text_normalization
## Word Segmentation(分词) ## Word Segmentation(分词)
分词之所以重要可以通过这个例子来说明: 分词之所以重要可以通过这个例子来说明:
广州市长隆马戏欢迎你 -> 广州市 长隆 马戏 欢迎你 广州市长隆马戏欢迎你 -> 广州市 长隆 马戏 欢迎你
如果没有分词错误会导致句意完全不正确:  如果没有分词错误会导致句意完全不正确: 
广州 市长 隆马戏 欢迎你 广州 市长 隆马戏 欢迎你
分词常用方法分为最大前向匹配(基于字典)和基于CRF的分词方法。用CRF的方法相当于是把这个任务转换成了序列标注相比于基于字典的方法好处是对于歧义或者未登录词有较强的识别能力缺点是不能快速fix bug并且性能略低于词典。 分词常用方法分为最大前向匹配(基于字典)和基于CRF的分词方法。用CRF的方法相当于是把这个任务转换成了序列标注相比于基于字典的方法好处是对于歧义或者未登录词有较强的识别能力缺点是不能快速fix bug并且性能略低于词典。
@ -54,9 +54,9 @@
词性解释 词性解释
n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名 n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名
m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词 m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词
v/动词 a/形容词 d/副词 h/前接成分 k/后接成分 v/动词 a/形容词 d/副词 h/前接成分 k/后接成分
i/习语 j/简称 r/代词 c/连词 p/介词 u/助词 y/语气助词 i/习语 j/简称 r/代词 c/连词 p/介词 u/助词 y/语气助词
e/叹词 o/拟声词 g/语素 w/标点 x/其它 e/叹词 o/拟声词 g/语素 w/标点 x/其它
@ -121,11 +121,11 @@ LP -> LO -> L1(#1) -> L2(#2) -> L3(#3) -> L4(#4) -> L5 -> L6 -> L7
总结一下,文本分析各个模块的方法: 总结一下,文本分析各个模块的方法:
TN: 基于规则的方法 TN: 基于规则的方法
分词: 字典/CRF/BLSTM+CRF/BERT 分词: 字典/CRF/BLSTM+CRF/BERT
注音: ngram/CRF/BLSTM/seq2seq 注音: ngram/CRF/BLSTM/seq2seq
韵律: CRF/BLSTM + CRF/ BERT 韵律: CRF/BLSTM + CRF/ BERT
@ -136,4 +136,4 @@ TN: 基于规则的方法
## Reference ## Reference
* [Text Front End](https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/03/TTS1/) * [Text Front End](https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/03/TTS1/)

Loading…
Cancel
Save