Style FastSpeech2

简介

FastSpeech2 是用于语音合成的经典声学模型，它引入了可控语音输入，包括 phoneme duration 、 energy 和 pitch 。

在预测阶段，您可以更改这些变量以获得一些有趣的结果。

例如:

句子中不同音素的 duration 和 pitch 可以具有不同的比例。您可以设置不同的音阶比例来强调或削弱某些音素的发音。

运行以下命令行开始：

./run.sh

在 run.sh, 会首先执行 source path.sh 去设置好环境变量。

如果您想尝试您的句子，请替换 sentences.txt中的句子。

更多的细节，请查看 style_syn.py。

语音样例可以在 style-control-in-fastspeech2 查看。