From 0a2d8f03af265d68ebdd0df260f4281747c96bfa Mon Sep 17 00:00:00 2001 From: grasswolfs Date: Thu, 16 Dec 2021 21:35:27 +0800 Subject: [PATCH] test=update_readme, test=doc_fix --- README.md | 19 ++- README_cn.md | 462 +++++++++++++++++++++++++++++++++++++++++++++++++++ 2 files changed, 476 insertions(+), 5 deletions(-) create mode 100644 README_cn.md diff --git a/README.md b/README.md index b9410eec..f24bfcb7 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,5 @@ +([简体中文](./README_cn.md)|English) +

@@ -11,10 +13,17 @@ ------------------------------------------------------------------------------------ -![License](https://img.shields.io/badge/license-Apache%202-red.svg) -![python version](https://img.shields.io/badge/python-3.7+-orange.svg) -![support os](https://img.shields.io/badge/os-linux-yellow.svg) -![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue) + +

+ + + + + + + + +

+ +**PaddleSpeech** 是基于飞桨 [PaddlePaddle](https://github.com/PaddlePaddle/Paddle) 深度学习开源框架平台上的一个开源模型库,用于语音和音频中的各种关键任务的开发,包含大量前沿和有影响力的模型,一些典型的应用示例如下: +##### 语音识别 + +
+ + + + + + + + + + + + + + + + + + +
输入音频 识别结果
+ +
+
I knocked at the door on the ancient side of the building.
+ +
+
我认为跑步最重要的就是给我带来了身体健康。
+ +
+ +##### 语音翻译 (英译中) + +
+ + + + + + + + + + + + + +
输入音频 翻译结果
+ +
+
我 在 这栋 建筑 的 古老 门上 敲门。
+ +
+ +##### 文本转语音 +
+ + + + + + + + + + + + + + + + + +
输入文本 合成音频
Life was like a box of chocolates, you never know what you're gonna get. + +
+
早上好,今天是2020/10/29,最低温度是-3°C。 + +
+
+ +
+ +更多合成音频,可以参考 [PaddleSpeech文本转语音样本](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html)。 + +### 特性: + +本项目采用了易用、高效、灵活以及可扩展的实现,旨在为工业应用、学术研究提供更好的支持,实现的功能包含训练、推断以及测试模块,以及部署过程,主要包括 +- 📦 **易用性**: 安装门槛低,可使用[CLI](#quick-start)快速开始。 +- 🏆 **对标SoTA**: 提供了高速、轻量级模型,且借鉴了最前沿的技术。 +- 💯 **基于规则的中文前端**: 我们的前端包含文本正则化和字音转换(G2P)。此外,我们使用自定义语言规则来适应中文语境。 +- **多种工业界以及学术界主流功能支持**: + - 🛎️ 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成等任务的实现。 + - 🔬 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块,并且采用了主流数据集如LibriSpeech、LJSpeech、AIShell、CSMSC,详情请见 [模型列表](#model-list)。 + - 🧩 级联模型应用: 作为传统语音任务的扩展,我们结合了自然与语言处理、计算机视觉等任务,实现更接近实际需求的产业级应用。 + +### 近期更新: + + +- 🤗 2021.12.14: 我们在 PaddleSpeech [ASR](https://huggingface.co/spaces/KPatrick/PaddleSpeechASR) 以及 [TTS](https://huggingface.co/spaces/akhaliq/paddlespeech) 上的 Demos 上线啦! +- 👏🏻 2021.12.10: PaddleSpeech CLI 上线!覆盖了声音分类、语音识别、语音翻译(英译中)以及语音合成。 + +### 交流 +欢迎加入以下微信群,直接和我们 PaddleSpeech 团队进行交流! + +
+ + +
+ +## 安装 + +我们强烈建议我们的用户在 **Linux** 环境下,*3.7*以上版本的 *python* 来安装我们的PaddleSpeech。这种情况我们的`paddlespeech`安装只需要一条`pip`命令: +```python +pip install paddlepaddle paddlespeech +``` +目前为止,对于**Mac OSX、 LiNUX** 支持声音分类、语音识别、语音合成和语音翻译四种功能,**Windows** 下暂不支持语音翻译功能。 想了解更多安装细节,可以参考[安装文档](./docs/source/install.md)。 + +## 快速开始 + +安装完成后,开发者可以通过命令行快速开始,改变`--input `可以尝试用自己的音频或文本测试。 + +**声音分类** +```shell +paddlespeech cls --input input.wav +``` +**语音识别** +```shell +paddlespeech asr --lang zh --input input_16k.wav +``` +**语音翻译** (English to Chinese) +```shell +paddlespeech st --input input_16k.wav +``` +**语音合成** +```shell +paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav +``` +> Note: 如果需要训练或者微调,请查看[语音识别](./docs/source/asr/quick_start.md), [语音合成](./docs/source/tts/quick_start.md)。 + +## 模型列表 + +PaddleSpeech 支持很多主流的模型,并提供了预训练模型,详情请见[模型列表](./docs/source/released_model.md)。 + +**语音转文本** 包含声学模型和语言模型, 详情如下: + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
语音转文本模块种类数据集模型种类链接
语音识别AishellDeepSpeech2 RNN + Conv based Models + deepspeech2-aishell +
基于Transformer的Attention模型 + u2.transformer.conformer-aishell +
Librispeech基于Transformer的Attention模型 + deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech +
对齐THCHS30MFA + mfa-thchs30 +
语言模型Ngram 语言模型 + kenlm +
TIMITUnified Streaming & Non-streaming Two-pass + u2-timit +
语音翻译(英译中)TED En-ZhTransformer + ASR MTL + transformer-ted +
FAT + Transformer + ASR MTL + fat-st-ted +
+ +PaddleSpeech 中的 **文本转语音** 主要包含三个模块:*文本前端*、*声学模型* 和 *声码器*。声学模型和声码器模型如下: + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
文字转语音模块类型 模型种类 数据集 链接
文本前端 + tn / g2p +
声学模型Tacotron2LJSpeech + tacotron2-ljspeech +
Transformer TTS + transformer-ljspeech +
SpeedySpeechCSMSC + speedyspeech-csmsc +
FastSpeech2AISHELL-3 / VCTK / LJSpeech / CSMSC + fastspeech2-aishell3 / fastspeech2-vctk / fastspeech2-ljspeech / fastspeech2-csmsc +
VocoderWaveFlowLJSpeech + waveflow-ljspeech +
Parallel WaveGANLJSpeech / VCTK / CSMSC + PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc +
Multi Band MelGANCSMSC + Multi Band MelGAN-csmsc +
Voice CloningGE2ELibrispeech, etc. + ge2e +
GE2E + Tactron2AISHELL-3 + ge2e-tactron2-aishell3 +
GE2E + FastSpeech2AISHELL-3 + ge2e-fastspeech2-aishell3 +
+ +**声音分类** + + + + + + + + + + + + + + + + + + + + +
任务 数据集 模型种类 链接
Audio ClassificationESC-50PANN + pann-esc50 +
+ +## 文档 + +[语音 SoTA](https://paperswithcode.com/area/speech)、[声音 SoTA](https://paperswithcode.com/area/audio)、[音乐 SoTA](https://paperswithcode.com/area/music) 概述了相关领域的热门学术话题。对于 PaddleSpeech 的所关注的任务,以下指南有助于掌握核心思想。 + +- [安装](./docs/source/install.md) +- Tutorials + - [语音识别](./docs/source/asr/quick_start.md) + - [简介](./docs/source/asr/models_introduction.md) + - [数据准备](./docs/source/asr/data_preparation.md) + - [数据增强](./docs/source/asr/augmentation.md) + - [Ngram 语言模型](./docs/source/asr/ngram_lm.md) + - [语音合成](./docs/source/tts/quick_start.md) + - [简介](./docs/source/tts/models_introduction.md) + - [进阶用法](./docs/source/tts/advanced_usage.md) + - [中文文本前端](./docs/source/tts/zh_text_frontend.md) + - [测试语音样本](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html) + - 声音分类 + - 语音翻译 +- [模型](./docs/source/released_model.md) + + +语音合成模块最初被称为 [Parakeet](https://github.com/PaddlePaddle/Parakeet),现在与此存库合并。如果您改任务的学术研究感兴趣,请参阅[TTS 研究概述](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/docs/source/tts#overview)。此外,[模型介绍](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/tts/models_introduction.md) 是了解语音合成流程的一个很好的指南。 + +## 引用 + +要引用 PaddleSpeech 进行研究,请使用以下格式进行引用。 +```tex +@misc{ppspeech2021, +title={PaddleSpeech, a toolkit for audio processing based on PaddlePaddle.}, +author={PaddlePaddle Authors}, +howpublished = {\url{https://github.com/PaddlePaddle/PaddleSpeech}}, +year={2021} +} +``` + +## 参与PaddleSpeech的开发 + + +热烈欢迎您在[讨论](https://github.com/PaddlePaddle/PaddleSpeech/discussions) 中提交问题,并在[问题](https://github.com/PaddlePaddle/PaddleSpeech/issues) 中指出发现的bug。此外,我们非常希望您愿意参与到PaddleSpeech的开发中! + +### 贡献者 +

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

+ +## 致谢 + +- 非常感谢 [yeyupiaoling](https://github.com/yeyupiaoling) 多年来的关注和建议,以及在诸多问题上的帮助。 +- 非常感谢 [AK391](https://github.com/AK391) 在 Huggingface Spaces 上使用 Gradio 对我们的语音合成功能进行网页版演示。 + +此外,PaddleSpeech 依赖于许多开源存储库。有关更多信息,请参阅 [references](./docs/source/reference.md)。 + +## License + +PaddleSpeech 在 [Apache-2.0 许可](./LICENSE) 下提供。