You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
1.3 KiB
1.3 KiB
(简体中文|English)
Style FastSpeech2
简介
FastSpeech2 是用于语音合成的经典声学模型,它引入了可控语音输入,包括 phoneme duration 、 energy 和 pitch 。
在预测阶段,您可以更改这些变量以获得一些有趣的结果。
例如:
FastSpeech2中的duration可以控制音频的速度 ,并保持pitch。(在某些语音工具中,增加速度将增加音调,反之亦然。)- 当我们将一个句子的
pitch设置为平均值并将音素的tones设置为1时,我们将获得robot-style的音色。 - 当我们提高成年女性的
pitch(比例固定)时,我们会得到child-style的音色。
句子中不同音素的 duration 和 pitch 可以具有不同的比例。您可以设置不同的音阶比例来强调或削弱某些音素的发音。
运行
运行以下命令行开始:
./run.sh
在 run.sh, 会首先执行 source path.sh 去设置好环境变量。
如果您想尝试您的句子,请替换 sentences.txt中的句子。
更多的细节,请查看 style_syn.py。
语音样例可以在 style-control-in-fastspeech2 查看。