|
|
(简体中文|[English](./quick_start.md))
|
|
|
# 语音合成快速开始
|
|
|
这些PaddleSpeech中的样例主要按数据集分类,我们主要使用的TTS数据集有:
|
|
|
|
|
|
* CSMCS (普通话单发音人)
|
|
|
* AISHELL3 (普通话多发音人)
|
|
|
* LJSpeech (英文单发音人)
|
|
|
* VCTK (英文多发音人)
|
|
|
|
|
|
PaddleSpeech 的 TTS 模型具有以下映射关系:
|
|
|
|
|
|
* tts0 - Tactron2
|
|
|
* tts1 - TransformerTTS
|
|
|
* tts2 - SpeedySpeech
|
|
|
* tts3 - FastSpeech2
|
|
|
* voc0 - WaveFlow
|
|
|
* voc1 - Parallel WaveGAN
|
|
|
* voc2 - MelGAN
|
|
|
* voc3 - MultiBand MelGAN
|
|
|
* voc4 - Style MelGAN
|
|
|
* voc5 - HiFiGAN
|
|
|
* vc0 - Tactron2 Voice Clone with GE2E
|
|
|
* vc1 - FastSpeech2 Voice Clone with GE2E
|
|
|
|
|
|
## 快速开始
|
|
|
|
|
|
让我们以 FastSpeech2 + Parallel WaveGAN 和 CSMSC 数据集 为例. [examples/csmsc](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/csmsc)
|
|
|
|
|
|
### 用 CSMSC 数据集训练 Parallel WaveGAN
|
|
|
|
|
|
- 进入目录
|
|
|
```bash
|
|
|
cd examples/csmsc/voc1
|
|
|
```
|
|
|
- 设置环境变量
|
|
|
```bash
|
|
|
source path.sh
|
|
|
```
|
|
|
**在你开始做任何事情之前,必须先做这步**
|
|
|
将 `MAIN_ROOT` 设置为项目目录. 使用 `parallelwave_gan` 模型作为 `MODEL`.
|
|
|
|
|
|
- 运行
|
|
|
```bash
|
|
|
bash run.sh
|
|
|
```
|
|
|
这只是一个演示,请确保源数据已经准备好,并且在下一个 `step` 之前每个 `step` 都运行正常.
|
|
|
### 用CSMSC数据集训练FastSpeech2
|
|
|
|
|
|
- 进入目录
|
|
|
```bash
|
|
|
cd examples/csmsc/tts3
|
|
|
```
|
|
|
|
|
|
- 设置环境变量
|
|
|
```bash
|
|
|
source path.sh
|
|
|
```
|
|
|
**在你开始做任何事情之前,必须先做这步**
|
|
|
将 `MAIN_ROOT` 设置为项目目录. 使用 `fastspeech2` 模型作为 `MODEL` 。
|
|
|
|
|
|
- 运行
|
|
|
```bash
|
|
|
bash run.sh
|
|
|
```
|
|
|
这只是一个演示,请确保源数据已经准备好,并且在下一个 `step` 之前每个 `step` 都运行正常。
|
|
|
|
|
|
`run.sh` 中主要包括以下步骤:
|
|
|
|
|
|
- 设置路径。
|
|
|
- 预处理数据集,
|
|
|
- 训练模型。
|
|
|
- 从 `metadata.jsonl` 中合成波形
|
|
|
- 从文本文件合成波形。(在声学模型中)
|
|
|
- 使用静态模型进行推理。(可选)
|
|
|
|
|
|
有关更多详细信息,请参见 examples 中的 `README.md`
|
|
|
|
|
|
## TTS 流水线
|
|
|
本节介绍如何使用 TTS 提供的预训练模型,并对其进行推理。
|
|
|
|
|
|
TTS中的预训练模型在压缩包中提供。将其解压缩以获得如下文件夹:
|
|
|
**Acoustic Models:**
|
|
|
|
|
|
```text
|
|
|
checkpoint_name
|
|
|
├── default.yaml
|
|
|
├── snapshot_iter_*.pdz
|
|
|
├── speech_stats.npy
|
|
|
├── phone_id_map.txt
|
|
|
├── spk_id_map.txt (optimal)
|
|
|
└── tone_id_map.txt (optimal)
|
|
|
```
|
|
|
**Vocoders:**
|
|
|
```text
|
|
|
checkpoint_name
|
|
|
├── default.yaml
|
|
|
├── snapshot_iter_*.pdz
|
|
|
└── stats.npy
|
|
|
```
|
|
|
- `default.yaml` 存储用于训练模型的配置。
|
|
|
- `snapshot_iter_*.pdz` 是检查点文件,其中`*`是它经过训练的步骤。
|
|
|
- `*_stats.npy` 是特征的统计文件,如果它在训练前已被标准化。
|
|
|
- `phone_id_map.txt` 是音素到音素 ID 的映射关系。
|
|
|
- `tone_id_map.txt` 是在训练声学模型之前分割音调和拼音时,音调到音调 ID 的映射关系。(例如在 csmsc/speedyspeech 的示例中)
|
|
|
- `spk_id_map.txt` 是多发音人声学模型中 "发音人" 到 "spk_ids" 的映射关系。
|
|
|
|
|
|
下面的示例代码显示了如何使用模型进行预测。
|
|
|
### Acoustic Models 声学模型(文本到频谱图)
|
|
|
下面的代码显示了如何使用 `FastSpeech2` 模型。加载预训练模型后,使用它和 normalizer 对象构建预测对象,然后使用 `fastspeech2_inferencet(phone_ids)` 生成频谱图,频谱图可进一步用于使用声码器合成原始音频。
|
|
|
|
|
|
```python
|
|
|
from pathlib import Path
|
|
|
import numpy as np
|
|
|
import paddle
|
|
|
import yaml
|
|
|
from yacs.config import CfgNode
|
|
|
from paddlespeech.t2s.models.fastspeech2 import FastSpeech2
|
|
|
from paddlespeech.t2s.models.fastspeech2 import FastSpeech2Inference
|
|
|
from paddlespeech.t2s.modules.normalizer import ZScore
|
|
|
# examples/fastspeech2/baker/frontend.py
|
|
|
from frontend import Frontend
|
|
|
|
|
|
# 加载预训练模型
|
|
|
checkpoint_dir = Path("fastspeech2_nosil_baker_ckpt_0.4")
|
|
|
with open(checkpoint_dir / "phone_id_map.txt", "r") as f:
|
|
|
phn_id = [line.strip().split() for line in f.readlines()]
|
|
|
vocab_size = len(phn_id)
|
|
|
with open(checkpoint_dir / "default.yaml") as f:
|
|
|
fastspeech2_config = CfgNode(yaml.safe_load(f))
|
|
|
odim = fastspeech2_config.n_mels
|
|
|
model = FastSpeech2(
|
|
|
idim=vocab_size, odim=odim, **fastspeech2_config["model"])
|
|
|
model.set_state_dict(
|
|
|
paddle.load(args.fastspeech2_checkpoint)["main_params"])
|
|
|
model.eval()
|
|
|
|
|
|
# 加载特征文件
|
|
|
stat = np.load(checkpoint_dir / "speech_stats.npy")
|
|
|
mu, std = stat
|
|
|
mu = paddle.to_tensor(mu)
|
|
|
std = paddle.to_tensor(std)
|
|
|
fastspeech2_normalizer = ZScore(mu, std)
|
|
|
|
|
|
# 构建预测对象
|
|
|
fastspeech2_inference = FastSpeech2Inference(fastspeech2_normalizer, model)
|
|
|
|
|
|
# load Chinese Frontend
|
|
|
frontend = Frontend(checkpoint_dir / "phone_id_map.txt")
|
|
|
|
|
|
# 构建一个中文前端
|
|
|
sentence = "你好吗?"
|
|
|
input_ids = frontend.get_input_ids(sentence, merge_sentences=True)
|
|
|
phone_ids = input_ids["phone_ids"]
|
|
|
flags = 0
|
|
|
# 构建预测对象加载中文前端,对中文文本前端的输出进行分段
|
|
|
for part_phone_ids in phone_ids:
|
|
|
with paddle.no_grad():
|
|
|
temp_mel = fastspeech2_inference(part_phone_ids)
|
|
|
if flags == 0:
|
|
|
mel = temp_mel
|
|
|
flags = 1
|
|
|
else:
|
|
|
mel = paddle.concat([mel, temp_mel])
|
|
|
```
|
|
|
|
|
|
### Vcoder声码器(谱图到波形)
|
|
|
下面的代码显示了如何使用 `Parallel WaveGAN` 模型。像上面的例子一样,加载预训练模型后,使用它和 normalizer 对象构建预测对象,然后使用 `pwg_inference(mel)` 生成原始音频( wav 格式)。
|
|
|
|
|
|
```python
|
|
|
from pathlib import Path
|
|
|
import numpy as np
|
|
|
import paddle
|
|
|
import soundfile as sf
|
|
|
import yaml
|
|
|
from yacs.config import CfgNode
|
|
|
from paddlespeech.t2s.models.parallel_wavegan import PWGGenerator
|
|
|
from paddlespeech.t2s.models.parallel_wavegan import PWGInference
|
|
|
from paddlespeech.t2s.modules.normalizer import ZScore
|
|
|
|
|
|
# 加载预训练模型
|
|
|
checkpoint_dir = Path("parallel_wavegan_baker_ckpt_0.4")
|
|
|
with open(checkpoint_dir / "pwg_default.yaml") as f:
|
|
|
pwg_config = CfgNode(yaml.safe_load(f))
|
|
|
vocoder = PWGGenerator(**pwg_config["generator_params"])
|
|
|
vocoder.set_state_dict(paddle.load(args.pwg_params))
|
|
|
vocoder.remove_weight_norm()
|
|
|
vocoder.eval()
|
|
|
|
|
|
# 加载特征文件
|
|
|
stat = np.load(checkpoint_dir / "pwg_stats.npy")
|
|
|
mu, std = stat
|
|
|
mu = paddle.to_tensor(mu)
|
|
|
std = paddle.to_tensor(std)
|
|
|
pwg_normalizer = ZScore(mu, std)
|
|
|
|
|
|
# 加载预训练模型构造预测对象
|
|
|
pwg_inference = PWGInference(pwg_normalizer, vocoder)
|
|
|
|
|
|
# 频谱图到波形
|
|
|
wav = pwg_inference(mel)
|
|
|
sf.write(
|
|
|
audio_path,
|
|
|
wav.numpy(),
|
|
|
samplerate=fastspeech2_config.fs)
|
|
|
```
|