PP-TTS

1. 简介

PP-TTS 是 PaddleSpeech 自研的流式语音合成系统。在实现前沿算法的基础上，使用了更快的推理引擎，实现了流式语音合成技术，使其满足商业语音交互场景的需求。

语音合成基本流程如下图所示：

PP-TTS 默认提供基于 FastSpeech2 声学模型和 HiFiGAN 声码器的中文流式语音合成系统：

开源领先的中文语音合成系统
使用 ONNXRuntime 推理引擎优化模型推理性能
唯一开源的流式语音合成系统
易拆卸性：可以很方便地更换不同语种上的不同声学模型和声码器、使用不同的推理引擎（Paddle 动态图、PaddleInference 和 ONNXRuntime 等）、使用不同的网络服务（HTTP、Websocket）

PaddleSpeech TTS 模型之间的性能对比，请查看 TTS-Benchmark。

Default FastSpeech2：tts3/run.sh

一键式实现语音合成：text_to_speech

个性化语音合成 - 基于 FastSpeech2 模型的个性化语音合成：style_fs2

会说话的故事书 - 基于 OCR 和语音合成的会说话的故事书：story_talker

元宇宙 - 基于语音合成的 2D 增强现实：metaverse

一键式搭建非流式语音合成服务：speech_server

一键式搭建流式语音合成服务：streaming_tts_server

更多教程，包括模型设计、模型训练、推理部署等，请参考 AIStudio 教程：PP-TTS：流式语音合成原理及服务部署