You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
PaddleSpeech/docs/source/asr/PPASR_cn.md

3.2 KiB

目录

1. 简介

PPASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文的模型,支持模型的训练,并且支持使用命令行的方式进行模型的推理。 PPASR也支持流式模型的部署以及个性化场景的部署。

2. 特点

PPASR 的主要特点如下:

  • 提供在中英文开源数据集 aishell 中文wenetspeech中文librispeech (英文)上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。
  • 支持中英文的模型训练功能。
  • 支持命令行方式的模型推理, paddlespeech asr --input xxx.wav 方式调用各个预训练模型进行推理。
  • 支持流式 ASR 的服务部署,也支持输出时间戳。
  • 支持个性化场景的部署。

3. 使用教程

3.1 预训练模型

支持的预训练模型列表:released_model.md。 其中效果较好的模型为 Ds2 Online Wenetspeech ASR0 Model 以及 Conformer Online Wenetspeech ASR1 Model。 两个模型都支持流式 ASR。

3.2 模型训练

模型的训练的参考脚本存放在 examples 中,并按照 examples/数据集/模型 存放,数据集主要支持 aishell 和 librispeech模型支持 deepspeech2 模型和 u2 (conformer/transformer) 模型。 具体的执行脚本的步骤记录在 run.sh 当中。具体可参考这里

3.3 模型推理

PPASR 支持在使用pip install paddlespeech后 使用命令行的方式来使用预训练模型进行推理。

具体支持的功能包括:

  • 对单条音频进行预测
  • 使用管道的方式对多条音频进行预测
  • 支持 RTF 的计算

具体的使用方式可以参考这里

3.4 服务部署

PPASR 支持流式ASR的服务部署。支持 语音识别 + 标点处理两个功能同时使用。

server 的 demo 链接

image

3.5 支持个性化场景部署

针对个性化场景部署,提供了 特征提取fbank => 推理模型(打分库)=> TLGWFST token, lexion, grammer的 C++ 程序。具体参考这里

4. 快速开始

关于如果使用 PPASR可以看这里的安装文档,其中提供了 简单中等、**困难 ** 三种安装方式。如果想体验paddlespeech 的推理功能,可以用 简单 安装方式。