From b86ac883feec8ff8e9a3db86117ab6e747edfd95 Mon Sep 17 00:00:00 2001 From: Jackwaterveg <87408988+Jackwaterveg@users.noreply.github.com> Date: Fri, 13 May 2022 17:41:14 +0800 Subject: [PATCH 1/4] add PPASR --- docs/source/asr/PPASR_cn.md | 74 +++++++++++++++++++++++++++++++++++++ 1 file changed, 74 insertions(+) create mode 100644 docs/source/asr/PPASR_cn.md diff --git a/docs/source/asr/PPASR_cn.md b/docs/source/asr/PPASR_cn.md new file mode 100644 index 00000000..ee65c278 --- /dev/null +++ b/docs/source/asr/PPASR_cn.md @@ -0,0 +1,74 @@ +## 目录 +- [1. 简介](#1) +- [2. 特点](#2) +- [3. 使用教程](#3) + - [3.1 预训练模型](#31) + - [3.2 模型训练](#32) + - [3.3 模型推理](#33) + - [3.4 服务部署](#33) + - [3.5 支持个性化场景部署](#33) +- [4. 快速开始](#4) + + +## 1. 简介 + +PPASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文的模型,支持模型的训练,并且支持使用命令行的方式进行模型的推理。 PPASR也支持流式模型的部署,以及个性化场景的部署。 + + +## 2. 特点 +PPASR 的主要特点如下: +- 提供在中英文开源数据集 aishell (中文),wenetspeech(中文),librispeech (英文)上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。 +- 支持中英文的模型训练功能。 +- 支持命令行方式的模型推理, `paddlespeech asr --input xxx.wav` 方式调用各个预训练模型进行推理。 +- 支持流式 ASR 的服务部署,也支持输出时间戳。 +- 支持个性化场景的部署。 + +## 3. 使用教程 + + +## 3.1 预训练模型 +支持的预训练模型列表:[released_model.md](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/released_model.md)。 +其中效果较好的模型为 Ds2 Online Wenetspeech ASR0 Model 以及 Conformer Online Wenetspeech ASR1 Model。 两个模型都支持流式 ASR。 + + + +## 3.2 模型训练 + +模型的训练的参考脚本存放在 examples 中,并按照 `examples/数据集/模型` 存放,数据集主要支持 aishell 和 librispeech,模型支持 deepspeech2 模型和 u2 (conformer/transformer) 模型。 +具体的执行脚本的步骤记录在 run.sh 当中。具体可参考[这里](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/aishell/asr1) + + + +## 3.3 模型推理 + +PPASR 支持在使用`pip install paddlespeech`后 使用命令行的方式来使用预训练模型进行推理。 + +具体支持的功能包括: + +- 对单条音频进行预测 +- 使用管道的方式对多条音频进行预测 +- 支持 RTF 的计算 + +具体的使用方式可以参考[这里](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/demos/speech_recognition/README_cn.md) + + + +## 3.4 服务部署 + +PPASR 支持流式ASR的服务部署。支持 语音识别 + 标点处理两个功能同时使用。 + +server 的 demo [链接](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server) + +![image](https://user-images.githubusercontent.com/87408988/168255342-1fc790c0-16f4-4540-a861-db239076727c.png) + + +## 3.5 支持个性化场景部署 + +针对个性化场景部署,提供了 特征提取(fbank) => 推理模型(打分库)=> TLG(WFST, token, lexion, grammer)的 C++ 程序。具体参考[这里](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/speechx) + + +## 4. 快速开始 + +关于如果使用 PPASR,可以看这里的[安装文档](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/install_cn.md),其中提供了 **简单**、**中等**、**困难 ** 三种安装方式。如果想体验paddlespeech 的推理功能,可以用 **简单** 安装方式。 + + From 8c9182b2031076dffff0ff890fcd324209dfab03 Mon Sep 17 00:00:00 2001 From: Jackwaterveg <87408988+Jackwaterveg@users.noreply.github.com> Date: Fri, 13 May 2022 17:41:31 +0800 Subject: [PATCH 2/4] Update PPASR_cn.md --- docs/source/asr/PPASR_cn.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/asr/PPASR_cn.md b/docs/source/asr/PPASR_cn.md index ee65c278..526db47a 100644 --- a/docs/source/asr/PPASR_cn.md +++ b/docs/source/asr/PPASR_cn.md @@ -69,6 +69,6 @@ server 的 demo [链接](https://github.com/PaddlePaddle/PaddleSpeech/tree/devel ## 4. 快速开始 -关于如果使用 PPASR,可以看这里的[安装文档](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/install_cn.md),其中提供了 **简单**、**中等**、**困难 ** 三种安装方式。如果想体验paddlespeech 的推理功能,可以用 **简单** 安装方式。 +关于如果使用 PPASR,可以看这里的[安装文档](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/install_cn.md),其中提供了 **简单**、**中等**、**困难** 三种安装方式。如果想体验paddlespeech 的推理功能,可以用 **简单** 安装方式。 From 999f16739ab48d0d812fa16e30a7ee6810b0c431 Mon Sep 17 00:00:00 2001 From: Jackwaterveg <87408988+Jackwaterveg@users.noreply.github.com> Date: Fri, 13 May 2022 17:59:39 +0800 Subject: [PATCH 3/4] add pipeline, test=asr --- docs/source/asr/PPASR_cn.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/docs/source/asr/PPASR_cn.md b/docs/source/asr/PPASR_cn.md index 526db47a..8cc700b0 100644 --- a/docs/source/asr/PPASR_cn.md +++ b/docs/source/asr/PPASR_cn.md @@ -16,6 +16,10 @@ PPASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文 ## 2. 特点 +语音识别的基本流程如下图所示: +
+ + PPASR 的主要特点如下: - 提供在中英文开源数据集 aishell (中文),wenetspeech(中文),librispeech (英文)上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。 - 支持中英文的模型训练功能。 @@ -23,6 +27,7 @@ PPASR 的主要特点如下: - 支持流式 ASR 的服务部署,也支持输出时间戳。 - 支持个性化场景的部署。 + ## 3. 使用教程 From 3d81e95ce6a161fdcf921e7bd96ac24580667396 Mon Sep 17 00:00:00 2001 From: Jackwaterveg <87408988+Jackwaterveg@users.noreply.github.com> Date: Fri, 13 May 2022 20:04:02 +0800 Subject: [PATCH 4/4] test=asr --- docs/source/asr/PPASR_cn.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/docs/source/asr/PPASR_cn.md b/docs/source/asr/PPASR_cn.md index 8cc700b0..1f72f1b9 100644 --- a/docs/source/asr/PPASR_cn.md +++ b/docs/source/asr/PPASR_cn.md @@ -12,7 +12,7 @@ ## 1. 简介 -PPASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文的模型,支持模型的训练,并且支持使用命令行的方式进行模型的推理。 PPASR也支持流式模型的部署,以及个性化场景的部署。 +PP-ASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文的模型,支持模型的训练,并且支持使用命令行的方式进行模型的推理。 PP-ASR也支持流式模型的部署,以及个性化场景的部署。 ## 2. 特点 @@ -20,9 +20,9 @@ PPASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文
-PPASR 的主要特点如下: -- 提供在中英文开源数据集 aishell (中文),wenetspeech(中文),librispeech (英文)上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。 -- 支持中英文的模型训练功能。 +PP-ASR 的主要特点如下: +- 提供在中/英文开源数据集 aishell (中文),wenetspeech(中文),librispeech (英文)上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。 +- 支持中/英文的模型训练功能。 - 支持命令行方式的模型推理, `paddlespeech asr --input xxx.wav` 方式调用各个预训练模型进行推理。 - 支持流式 ASR 的服务部署,也支持输出时间戳。 - 支持个性化场景的部署。