PaddleSpeech

24 KiB

Raw Blame History Unescape Escape

(简体中文|English)

快速开始 | 教程文档 | 模型列表

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型，一些典型的应用示例如下：

语音识别

输入音频	识别结果
	I knocked at the door on the ancient side of the building.
	我认为跑步最重要的就是给我带来了身体健康。

语音翻译 (英译中)

输入音频	翻译结果
	我在这栋建筑的古老门上敲门。

语音合成

输入文本	合成音频
Life was like a box of chocolates, you never know what you're gonna get.
早上好，今天是2020/10/29，最低温度是-3°C。
季姬寂，集鸡，鸡即棘鸡。棘鸡饥叽，季姬及箕稷济鸡。鸡既济，跻姬笈，季姬忌，急咭鸡，鸡急，继圾几，季姬急，即籍箕击鸡，箕疾击几伎，伎即齑，鸡叽集几基，季姬急极屐击鸡，鸡既殛，季姬激，即记《季姬击鸡记》。

更多合成音频，可以参考 PaddleSpeech 语音合成音频示例。

标点恢复

输入文本	输出文本
今天的天气真不错啊你下午有空吗我想约你一起去吃饭	今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

⭐ 应用案例

PaddleBoBo: 使用 PaddleSpeech 的语音合成模块生成虚拟人的声音。

🔥 热门活动

2021.12.21~12.24

4 日直播课: 深度解读 PaddleSpeech 语音技术!

直播回放与课件资料: https://aistudio.baidu.com/aistudio/education/group/info/25130

特性

本项目采用了易用、高效、灵活以及可扩展的实现，旨在为工业应用、学术研究提供更好的支持，实现的功能包含训练、推断以及测试模块，以及部署过程，主要包括

📦 易用性: 安装门槛低，可使用 CLI 快速开始。
🏆 对标 SoTA: 提供了高速、轻量级模型，且借鉴了最前沿的技术。
💯 基于规则的中文前端: 我们的前端包含文本正则化和字音转换（G2P）。此外，我们使用自定义语言规则来适应中文语境。
多种工业界以及学术界主流功能支持:
- 🛎️ 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成等任务的实现。
- 🔬 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块，并且采用了主流数据集如 LibriSpeech、LJSpeech、AIShell、CSMSC，详情请见模型列表。
- 🧩 级联模型应用: 作为传统语音任务的扩展，我们结合了自然语言处理、计算机视觉等任务，实现更接近实际需求的产业级应用。

近期更新

🤗 2021.12.14: 我们在 Hugging Face Spaces 上的 ASR 以及 TTS Demos 上线啦!
👏🏻 2021.12.10: PaddleSpeech CLI 上线！覆盖了声音分类、语音识别、语音翻译（英译中）以及语音合成。

技术交流群

微信扫描二维码（好友申请通过后回复【语音】）加入官方交流群，获得更高效的问题答疑，与各行各业开发者充分交流，期待您的加入。

安装

我们强烈建议用户在 Linux 环境下，3.7 以上版本的 python 上安装 PaddleSpeech。目前为止，Linux 支持声音分类、语音识别、语音合成和语音翻译四种功能，Mac OSX、 Windows 下暂不支持语音翻译功能。想了解具体安装细节，可以参考安装文档。

快速开始

安装完成后，开发者可以通过命令行快速开始，改变 --input 可以尝试用自己的音频或文本测试。

声音分类

paddlespeech cls --input input.wav

语音识别

paddlespeech asr --lang zh --input input_16k.wav

语音翻译 (English to Chinese)

paddlespeech st --input input_16k.wav

语音合成

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output output.wav

语音合成的 web demo 已经集成进了 Huggingface Spaces. 请参考: TTS Demo

文本后处理

标点恢复

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

更多命令行命令请参考 demos

Note: 如果需要训练或者微调，请查看语音识别，语音合成。

模型列表

PaddleSpeech 支持很多主流的模型，并提供了预训练模型，详情请见模型列表。

PaddleSpeech 的 语音转文本 包含语音识别声学模型、语音识别语言模型和语音翻译, 详情如下：

语音转文本模块类型	数据集	模型种类	链接
语音识别	Aishell	DeepSpeech2 RNN + Conv based Models	deepspeech2-aishell
	Aishell	Transformer based Attention Models	u2.transformer.conformer-aishell
	Librispeech	Transformer based Attention Models	deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech
	TIMIT	Unified Streaming & Non-streaming Two-pass	u2-timit
对齐	THCHS30	MFA	mfa-thchs30
语言模型	Ngram 语言模型		kenlm
语音翻译（英译中）	TED En-Zh	Transformer + ASR MTL	transformer-ted
语音翻译（英译中）	TED En-Zh	FAT + Transformer + ASR MTL	fat-st-ted

PaddleSpeech 的 语音合成 主要包含三个模块：文本前端、声学模型和声码器。声学模型和声码器模型如下：

语音合成模块类型	模型种类	数据集	链接
文本前端			tn / g2p
声学模型	Tacotron2	LJSpeech	tacotron2-ljspeech
	Transformer TTS	LJSpeech	transformer-ljspeech
	SpeedySpeech	CSMSC	speedyspeech-csmsc
	FastSpeech2	AISHELL-3 / VCTK / LJSpeech / CSMSC	fastspeech2-aishell3 / fastspeech2-vctk / fastspeech2-ljspeech / fastspeech2-csmsc
声码器	WaveFlow	LJSpeech	waveflow-ljspeech
	Parallel WaveGAN	LJSpeech / VCTK / CSMSC	PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc
	Multi Band MelGAN	CSMSC	Multi Band MelGAN-csmsc
	Style MelGAN	CSMSC	Style MelGAN-csmsc
	HiFiGAN	CSMSC	HiFiGAN-csmsc
声音克隆	GE2E	Librispeech, etc.	ge2e
	GE2E + Tactron2	AISHELL-3	ge2e-tactron2-aishell3
	GE2E + FastSpeech2	AISHELL-3	ge2e-fastspeech2-aishell3

声音分类

任务	数据集	模型种类	链接
声音分类	ESC-50	PANN	pann-esc50

标点恢复

任务	数据集	模型种类	链接
标点恢复	IWLST2012_zh	Ernie Linear	iwslt2012-punc0

教程文档

对于 PaddleSpeech 的所关注的任务，以下指南有助于帮助开发者快速入门，了解语音相关核心思想。

语音合成模块最初被称为 Parakeet，现在与此仓库合并。如果您对该任务的学术研究感兴趣，请参阅 TTS 研究概述。此外，模型介绍是了解语音合成流程的一个很好的指南。

引用

要引用 PaddleSpeech 进行研究，请使用以下格式进行引用。

@misc{ppspeech2021,
title={PaddleSpeech, a toolkit for audio processing based on PaddlePaddle.},
author={PaddlePaddle Authors},
howpublished = {\url{https://github.com/PaddlePaddle/PaddleSpeech}},
year={2021}
}

参与 PaddleSpeech 的开发

热烈欢迎您在Discussions 中提交问题，并在Issues 中指出发现的 bug。此外，我们非常希望您参与到 PaddleSpeech 的开发中！

贡献者

致谢

非常感谢 yeyupiaoling/PPASR/PaddlePaddle-DeepSpeech/VoiceprintRecognition-PaddlePaddle/AudioClassification-PaddlePaddle 多年来的关注和建议，以及在诸多问题上的帮助。
非常感谢 AK391 在 Huggingface Spaces 上使用 Gradio 对我们的语音合成功能进行网页版演示。
非常感谢 mymagicpower 采用PaddleSpeech 对 ASR 的短语音及长语音进行 Java 实现。
非常感谢 JiehangXie/PaddleBoBo 采用 PaddleSpeech 语音合成功能实现 Virtual Uploader(VUP)/Virtual YouTuber(VTuber) 虚拟主播。
非常感谢 745165806/PaddleSpeechTask 贡献标点重建相关模型。

此外，PaddleSpeech 依赖于许多开源存储库。有关更多信息，请参阅 references。

License

PaddleSpeech 在 Apache-2.0 许可下提供。

24 KiB Raw Blame History Unescape Escape

快速开始 | 教程文档 | 模型列表

语音识别

语音翻译 (英译中)

语音合成

标点恢复

⭐ 应用案例

🔥 热门活动

特性

近期更新

技术交流群

安装

快速开始

模型列表

教程文档

引用

参与 PaddleSpeech 的开发

贡献者

致谢

License

24 KiB

Raw Blame History Unescape Escape