8.9 KiB

Raw Blame History Unescape Escape

(简体中文|English)

语音合成

介绍

语音合成是一种自然语言建模过程，其将文本转换为语音以进行音频演示。

这个 demo 是一个从给定文本生成音频的实现，它可以通过使用 PaddleSpeech 的单个命令或 python 中的几行代码来实现。

使用方法

1. 安装

请看安装文档。

你可以从 easy，medium，hard 三种方式中选择一种方式安装。

2. 准备输入

这个 demo 的输入是通过参数传递的特定语言的文本。

3. 使用方法

命令行 (推荐使用) 默认的声学模型是 Fastspeech2，默认的声码器是 HiFiGAN，默认推理方式是动态图推理。

中文

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！"

批处理

echo -e "1 欢迎光临。\n2 谢谢惠顾。" | paddlespeech tts

中文，使用 SpeedySpeech 作为声学模型

paddlespeech tts --am speedyspeech_csmsc --input "你好，欢迎使用百度飞桨深度学习框架！"

中文，多说话人

你可以改变 spk_id。

paddlespeech tts --am fastspeech2_aishell3 --voc pwgan_aishell3 --input "你好，欢迎使用百度飞桨深度学习框架！" --spk_id 0

英文

paddlespeech tts --am fastspeech2_ljspeech --voc pwgan_ljspeech --lang en --input "hello world"

英文，多说话人

你可以改变 spk_id。

paddlespeech tts --am fastspeech2_vctk --voc pwgan_vctk --input "hello, boys" --lang en --spk_id 0

中英文混合，多说话人你可以改变 spk_id。

# The `am` must be `fastspeech2_mix`!
# The `lang` must be `mix`!
# The voc must be chinese datasets' voc now!
# spk 174 is csmcc, spk 175 is ljspeech
paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "热烈欢迎您在 Discussions 中提交问题，并在 Issues 中指出发现的 bug。此外，我们非常希望您参与到 Paddle Speech 的开发中！" --spk_id 174 --output mix_spk174.wav
paddlespeech tts --am fastspeech2_mix --voc hifigan_aishell3 --lang mix --input "热烈欢迎您在 Discussions 中提交问题，并在 Issues 中指出发现的 bug。此外，我们非常希望您参与到 Paddle Speech 的开发中！" --spk_id 174 --output mix_spk174_aishell3.wav
paddlespeech tts --am fastspeech2_mix --voc pwgan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175_pwgan.wav
paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175.wav

使用 ONNXRuntime 推理：

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output default.wav --use_onnx True
paddlespeech tts --am speedyspeech_csmsc --input "你好，欢迎使用百度飞桨深度学习框架！" --output ss.wav --use_onnx True
paddlespeech tts --voc mb_melgan_csmsc --input "你好，欢迎使用百度飞桨深度学习框架！" --output mb.wav --use_onnx True
paddlespeech tts --voc pwgan_csmsc --input "你好，欢迎使用百度飞桨深度学习框架！" --output pwgan.wav --use_onnx True
paddlespeech tts --am fastspeech2_aishell3 --voc pwgan_aishell3 --input "你好，欢迎使用百度飞桨深度学习框架！" --spk_id 0 --output aishell3_fs2_pwgan.wav --use_onnx True
paddlespeech tts --am fastspeech2_aishell3 --voc hifigan_aishell3 --input "你好，欢迎使用百度飞桨深度学习框架！" --spk_id 0 --output aishell3_fs2_hifigan.wav --use_onnx True
paddlespeech tts --am fastspeech2_ljspeech --voc pwgan_ljspeech --lang en --input "Life was like a box of chocolates, you never know what you're gonna get." --output lj_fs2_pwgan.wav --use_onnx True
paddlespeech tts --am fastspeech2_ljspeech --voc hifigan_ljspeech --lang en --input "Life was like a box of chocolates, you never know what you're gonna get." --output lj_fs2_hifigan.wav --use_onnx True
paddlespeech tts --am fastspeech2_vctk --voc pwgan_vctk --input "Life was like a box of chocolates, you never know what you're gonna get." --lang en --spk_id 0 --output vctk_fs2_pwgan.wav --use_onnx True
paddlespeech tts --am fastspeech2_vctk --voc hifigan_vctk --input "Life was like a box of chocolates, you never know what you're gonna get." --lang en --spk_id 0 --output vctk_fs2_hifigan.wav --use_onnx True

使用方法：

paddlespeech tts --help

参数：

input(必须输入)：用于合成音频的文本。
am：TTS 任务的声学模型，默认值：fastspeech2_csmsc。
am_config：声学模型的配置文件，若不设置则使用默认配置，默认值：None。
am_ckpt：声学模型的参数文件，若不设置则下载预训练模型使用，默认值：None。
am_stat：训练声学模型时用于正则化 mel 频谱图的均值标准差文件，默认值：None。
phones_dict：音素词表文件，默认值：None。
tones_dict：声调词表文件，默认值：None。
speaker_dict：说话人词表文件，默认值：None。
spk_id：说话人 id，默认值： 0。
voc：TTS 任务的声码器，默认值： pwgan_csmsc。
voc_config：声码器的配置文件，若不设置则使用默认配置，默认值：None。
voc_ckpt：声码器的参数文件，若不设置则下载预训练模型使用，默认值：None。
voc_stat：训练声码器时用于正则化 mel 频谱图的均值标准差文件，默认值：None。
lang：TTS 任务的语言，默认值：zh。
device：执行预测的设备，默认值：当前系统下 paddlepaddle 的默认 device。
output：输出音频的路径，默认值：output.wav。
use_onnx: 是否使用 ONNXRuntime 进行推理。
fs: 使用特定 ONNX 模型时的采样率。

输出：

[2021-12-09 20:49:58,955] [    INFO] [log.py] [L57] - Wave file has been generated: output.wav

Python API

动态图推理:

import paddle
from paddlespeech.cli.tts import TTSExecutor
tts_executor = TTSExecutor()
wav_file = tts_executor(
    text='今天的天气不错啊',
    output='output.wav',
    am='fastspeech2_csmsc',
    am_config=None,
    am_ckpt=None,
    am_stat=None,
    spk_id=0,
    phones_dict=None,
    tones_dict=None,
    speaker_dict=None,
    voc='pwgan_csmsc',
    voc_config=None,
    voc_ckpt=None,
    voc_stat=None,
    lang='zh',
    device=paddle.get_device())
print('Wave file has been generated: {}'.format(wav_file))

ONNXRuntime 推理:

from paddlespeech.cli.tts import TTSExecutor
tts_executor = TTSExecutor()
wav_file = tts_executor(
    text='对数据集进行预处理',
    output='output.wav',
    am='fastspeech2_csmsc',
    voc='hifigan_csmsc',
    lang='zh',
    use_onnx=True,
    cpu_threads=2)

输出：

Wave file has been generated: output.wav

4. 预训练模型

以下是 PaddleSpeech 提供的可以被命令行和 python API 使用的预训练模型列表：

声学模型

模型	语言
speedyspeech_csmsc	zh
fastspeech2_csmsc	zh
fastspeech2_ljspeech	en
fastspeech2_aishell3	zh
fastspeech2_vctk	en
fastspeech2_cnndecoder_csmsc	zh
fastspeech2_mix	mix
tacotron2_csmsc	zh
tacotron2_ljspeech	en

声码器

模型	语言
pwgan_csmsc	zh
pwgan_ljspeech	en
pwgan_aishell3	zh
pwgan_vctk	en
mb_melgan_csmsc	zh
style_melgan_csmsc	zh
hifigan_csmsc	zh
hifigan_ljspeech	en
hifigan_aishell3	zh
hifigan_vctk	en
wavernn_csmsc	zh

8.9 KiB Raw Blame History Unescape Escape