diff --git a/docs/src/asr_postprocess.md b/docs/src/asr_postprocess.md index 8cc553146..772bf8b25 100644 --- a/docs/src/asr_postprocess.md +++ b/docs/src/asr_postprocess.md @@ -97,12 +97,3 @@ ## Add Punctuation - - - - - - - - - diff --git a/docs/src/ngram_lm.md b/docs/src/ngram_lm.md index fdd9ce248..4dc92cd9f 100644 --- a/docs/src/ngram_lm.md +++ b/docs/src/ngram_lm.md @@ -52,7 +52,7 @@ Please notice that the released language models only contain Chinese simplified boost: yum install boost yum install boost-devel - + zlib: yum install zlib yum install zlib-devel @@ -87,4 +87,4 @@ Please notice that the released language models only contain Chinese simplified build/bin/build_binary ./result/people2014corpus_words.arps ./result/people2014corpus_words.klm ``` - \ No newline at end of file + diff --git a/docs/src/speech_synthesis.md b/docs/src/speech_synthesis.md index 9e41a5c9d..dc36b911b 100644 --- a/docs/src/speech_synthesis.md +++ b/docs/src/speech_synthesis.md @@ -31,11 +31,11 @@ #### 语音合成方法 -**波形拼接** : 将各种语音单元拼接起来,需要考虑目标代价(目标语音单元和候选的语音单元匹配度)和连接代价(相邻语音单元之间的流畅度) +**波形拼接** : 将各种语音单元拼接起来,需要考虑目标代价(目标语音单元和候选的语音单元匹配度)和连接代价(相邻语音单元之间的流畅度) **基于轨迹指导的拼接合成** -**统计参数合成** : 帧级建模包括时长模型(音素序列->帧级文本特征)和声学模型(帧级文本特征->帧级语音输出)。主要方法是基于HMM 的 SPSS (Statistical Parametric Speech Synthesis), 可以用的工具包 HTS。 +**统计参数合成** : 帧级建模包括时长模型(音素序列->帧级文本特征)和声学模型(帧级文本特征->帧级语音输出)。主要方法是基于HMM 的 SPSS (Statistical Parametric Speech Synthesis), 可以用的工具包 HTS。 **神经网络合成方法** : 目前许多商用场景下已经部署了基于神经网络的语音合成模型。目前基于神经网络的方法还不是纯端到端的,分为两个部分,输入文本类信息(音素,时长等)经过神经网络得到输出特征(LF0, UV, 谱特征, bap), 接着将这些特征放到声码器(vocoder) 中得到对应的语音波形。主流方法是 Tactron, Tactron2, 注意力机制,Transformer。正在朝着基于序列到序列的语音合成,纯端到端的语音合成方向发展。 @@ -88,9 +88,9 @@ ### 语音合成数据集 -数据质量非常重要 +数据质量非常重要 -中文: 标贝DB-1,女性说话,1万句,10.3小时 +中文: 标贝DB-1,女性说话,1万句,10.3小时 英文: VCTK, LJSpeech, LibriSpeech, LibriTTS @@ -100,7 +100,7 @@ 目前非端到端的语音合成算法有两种, -1)**参数语音合成方法**,其中*声学模型*包括基于隐马尔可夫(HMM)的统计参数语音合成和基于神经网络(NN)的统计参数语音合成,而*声码器*包括基于源-滤波器的声码器和基于NN的声码器 +1)**参数语音合成方法**,其中*声学模型*包括基于隐马尔可夫(HMM)的统计参数语音合成和基于神经网络(NN)的统计参数语音合成,而*声码器*包括基于源-滤波器的声码器和基于NN的声码器 2) **单元拼接语音合成方法** 简单地理解是有一个很大的语音库包含了许多词/音素的发音,用一些方法将各个单元拼接起来。 @@ -142,4 +142,4 @@ HMM 应用到 TTS 这里和 ASR 还是有些区别的。主要参考的论文是 * https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/09/26/TTS/ * https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/25/TTS2/ -* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/12/04/TTS6/ \ No newline at end of file +* https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/12/04/TTS6/ diff --git a/docs/src/text_front_end.md b/docs/src/text_front_end.md index 16361c818..5d53f5137 100644 --- a/docs/src/text_front_end.md +++ b/docs/src/text_front_end.md @@ -14,14 +14,14 @@ * https://github.com/speechio/chinese_text_normalization - + ## Word Segmentation(分词) 分词之所以重要可以通过这个例子来说明: 广州市长隆马戏欢迎你 -> 广州市 长隆 马戏 欢迎你 如果没有分词错误会导致句意完全不正确:  -广州 市长 隆马戏 欢迎你 +广州 市长 隆马戏 欢迎你 分词常用方法分为最大前向匹配(基于字典)和基于CRF的分词方法。用CRF的方法相当于是把这个任务转换成了序列标注,相比于基于字典的方法好处是对于歧义或者未登录词有较强的识别能力,缺点是不能快速fix bug,并且性能略低于词典。 @@ -54,9 +54,9 @@ 词性解释 n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名 m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词 -v/动词 a/形容词 d/副词 h/前接成分 k/后接成分 +v/动词 a/形容词 d/副词 h/前接成分 k/后接成分 i/习语 j/简称 r/代词 c/连词 p/介词 u/助词 y/语气助词 -e/叹词 o/拟声词 g/语素 w/标点 x/其它 +e/叹词 o/拟声词 g/语素 w/标点 x/其它 @@ -121,11 +121,11 @@ LP -> LO -> L1(#1) -> L2(#2) -> L3(#3) -> L4(#4) -> L5 -> L6 -> L7 总结一下,文本分析各个模块的方法: -TN: 基于规则的方法 +TN: 基于规则的方法 -分词: 字典/CRF/BLSTM+CRF/BERT +分词: 字典/CRF/BLSTM+CRF/BERT -注音: ngram/CRF/BLSTM/seq2seq +注音: ngram/CRF/BLSTM/seq2seq 韵律: CRF/BLSTM + CRF/ BERT @@ -136,4 +136,4 @@ TN: 基于规则的方法 ## Reference -* [Text Front End](https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/03/TTS1/) \ No newline at end of file +* [Text Front End](https://slyne.github.io/%E5%85%AC%E5%BC%80%E8%AF%BE/2020/10/03/TTS1/)