(简体中文|[English](./README.md))
------------------------------------------------------------------------------------ **PaddleSpeech** 是基于飞桨 [PaddlePaddle](https://github.com/PaddlePaddle/Paddle) 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,一些典型的应用示例如下: ##### 语音识别 ##### 语音翻译 (英译中) ##### 语音合成
输入文本 | 输出文本 |
---|---|
今天的天气真不错啊你下午有空吗我想约你一起去吃饭 | 今天的天气真不错啊!你下午有空吗?我想约你一起去吃饭。 |
语音转文本模块类型 | 数据集 | 模型种类 | 链接 |
---|---|---|---|
语音识别 | Aishell | DeepSpeech2 RNN + Conv based Models | deepspeech2-aishell |
Transformer based Attention Models | u2.transformer.conformer-aishell | ||
Librispeech | Transformer based Attention Models | deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech | |
TIMIT | Unified Streaming & Non-streaming Two-pass | u2-timit | |
对齐 | THCHS30 | MFA | mfa-thchs30 |
语言模型 | Ngram 语言模型 | kenlm | |
语音翻译(英译中) | TED En-Zh | Transformer + ASR MTL | transformer-ted |
FAT + Transformer + ASR MTL | fat-st-ted |
语音合成模块类型 | 模型种类 | 数据集 | 链接 |
---|---|---|---|
文本前端 | tn / g2p | ||
声学模型 | Tacotron2 | LJSpeech | tacotron2-ljspeech |
Transformer TTS | transformer-ljspeech | ||
SpeedySpeech | CSMSC | speedyspeech-csmsc | |
FastSpeech2 | AISHELL-3 / VCTK / LJSpeech / CSMSC | fastspeech2-aishell3 / fastspeech2-vctk / fastspeech2-ljspeech / fastspeech2-csmsc | |
声码器 | WaveFlow | LJSpeech | waveflow-ljspeech |
Parallel WaveGAN | LJSpeech / VCTK / CSMSC | PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc | |
Multi Band MelGAN | CSMSC | Multi Band MelGAN-csmsc | |
Style MelGAN | CSMSC | Style MelGAN-csmsc | |
HiFiGAN | CSMSC | HiFiGAN-csmsc | |
声音克隆 | GE2E | Librispeech, etc. | ge2e |
GE2E + Tactron2 | AISHELL-3 | ge2e-tactron2-aishell3 | |
GE2E + FastSpeech2 | AISHELL-3 | ge2e-fastspeech2-aishell3 |
任务 | 数据集 | 模型种类 | 链接 |
---|---|---|---|
声音分类 | ESC-50 | PANN | pann-esc50 |
任务 | 数据集 | 模型种类 | 链接 |
---|---|---|---|
标点恢复 | IWLST2012_zh | Ernie Linear | iwslt2012-punc0 |