Merge pull request #851 from Jackwaterveg/release_model

Optimize the 1xt2x code
4 years ago · 88a198972f
parent 09d5209ff9 30b3e237e2
commit 88a198972f
24 changed files with 96 additions and 119 deletions
--- a/deepspeech/frontend/featurizer/text_featurizer.py
+++ b/deepspeech/frontend/featurizer/text_featurizer.py
@ -199,7 +199,6 @@ class TextFeaturizer():
        """Load vocabulary from file."""
        vocab_list = load_dict(vocab_filepath, maskctc)
        assert vocab_list is not None
-        assert SPACE in vocab_list

        id2token = dict(
            [(idx, token) for (idx, token) in enumerate(vocab_list)])
--- a/examples/1xt2x/aishell/.gitignore
+++ b/examples/1xt2x/aishell/.gitignore
@ -2,3 +2,4 @@ exp
 data
 *log
 tmp
+nohup*
--- a/examples/1xt2x/aishell/local/data.sh
+++ b/examples/1xt2x/aishell/local/data.sh
@ -1,4 +1,10 @@
 #!/bin/bash
+if [ $# != 1 ];then
+    echo "usage: ${0} ckpt_dir"
+    exit -1
+fi
+
+ckpt_dir=$1

 stage=-1
 stop_stage=100
@ -9,17 +15,16 @@ mkdir -p data
 TARGET_DIR=${MAIN_ROOT}/examples/dataset
 mkdir -p ${TARGET_DIR}

-bash local/download_model.sh
+bash local/download_model.sh ${ckpt_dir}
 if [ $? -ne 0 ]; then
   exit 1
 fi

+cd ${ckpt_dir}
 tar xzvf aishell_model_v1.8_to_v2.x.tar.gz
-mv aishell_v1.8.pdparams exp/deepspeech2/checkpoints/
-mv README.md exp/deepspeech2/
-mv mean_std.npz data/
-mv vocab.txt data/
-rm aishell_model_v1.8_to_v2.x.tar.gz -f
+cd -
+mv ${ckpt_dir}/mean_std.npz data/
+mv ${ckpt_dir}/vocab.txt data/


 if [ ${stage} -le -1 ] && [ ${stop_stage} -ge -1 ]; then
@ -39,27 +44,6 @@ if [ ${stage} -le -1 ] && [ ${stop_stage} -ge -1 ]; then
 fi


-if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
-    # compute mean and stddev for normalizer
-    num_workers=$(nproc)
-    python3 ${MAIN_ROOT}/utils/compute_mean_std.py \
-    --manifest_path="data/manifest.train.raw" \
-    --specgram_type="linear" \
-    --delta_delta=false \
-    --stride_ms=10.0 \
-    --window_ms=20.0 \
-    --sample_rate=16000 \
-    --use_dB_normalization=True \
-    --num_samples=2000 \
-    --num_workers=${num_workers} \
-    --output_path="data/mean_std.json"
-
-    if [ $? -ne 0 ]; then
-        echo "Compute mean and stddev failed. Terminated."
-        exit 1
-    fi
-fi
-

 if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    # format manifest with tokenids, vocab size
@ -67,7 +51,7 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    {
        python3 ${MAIN_ROOT}/utils/format_data.py \
                --feat_type "raw" \
-                --cmvn_path "data/mean_std.json" \
+                --cmvn_path "data/mean_std.npz" \
                --unit_type "char" \
                --vocab_path="data/vocab.txt" \
                --manifest_path="data/manifest.${dataset}.raw" \
--- a/examples/1xt2x/aishell/local/download_model.sh
+++ b/examples/1xt2x/aishell/local/download_model.sh
@ -1,10 +1,17 @@
 #! /usr/bin/env bash

+if [ $# != 1 ];then
+    echo "usage: ${0} ckpt_dir"
+    exit -1
+fi
+
+ckpt_dir=$1
+
 . ${MAIN_ROOT}/utils/utility.sh

 URL='https://deepspeech.bj.bcebos.com/mandarin_models/aishell_model_v1.8_to_v2.x.tar.gz'
-MD5=4ade113c69ea291b8ce5ec6a03296659
-TARGET=./aishell_model_v1.8_to_v2.x.tar.gz
+MD5=87e7577d4bea737dbf3e8daab37aa808
+TARGET=${ckpt_dir}/aishell_model_v1.8_to_v2.x.tar.gz


 echo "Download Aishell model ..."
@ -13,7 +20,6 @@ if [ $? -ne 0 ]; then
    echo "Fail to download Aishell model!"
    exit 1
 fi
-tar -zxvf $TARGET


 exit 0
--- a/examples/1xt2x/aishell/path.sh
+++ b/examples/1xt2x/aishell/path.sh
@ -12,5 +12,5 @@ export PYTHONPATH=${LOCAL_DEEPSPEECH2}:${PYTHONPATH}
 export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/lib/

 MODEL=deepspeech2
-export BIN_DIR=${LOCAL_DEEPSPEECH2}/deepspeech2x/bin
+export BIN_DIR=${LOCAL_DEEPSPEECH2}/src_deepspeech2x/bin
 echo "BIN_DIR "${BIN_DIR}
--- a/examples/1xt2x/aishell/run.sh
+++ b/examples/1xt2x/aishell/run.sh
@ -7,6 +7,7 @@ stop_stage=100
 conf_path=conf/deepspeech2.yaml
 avg_num=1
 model_type=offline
+gpus=2

 source ${MAIN_ROOT}/utils/parse_options.sh || exit 1;

@ -17,11 +18,11 @@ echo "checkpoint name ${ckpt}"
 if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    # prepare data
    mkdir -p exp/${ckpt}/checkpoints
-    bash ./local/data.sh || exit -1
+    bash ./local/data.sh exp/${ckpt}/checkpoints || exit -1
 fi

 if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    # test ckpt avg_n
-    CUDA_VISIBLE_DEVICES=1 ./local/test.sh ${conf_path} exp/${ckpt}/checkpoints/${v18_ckpt} ${model_type}|| exit -1
+    CUDA_VISIBLE_DEVICES=${gpus} ./local/test.sh ${conf_path} exp/${ckpt}/checkpoints/${v18_ckpt} ${model_type}|| exit -1
 fi

--- a/examples/1xt2x/baidu_en8k/.gitignore
+++ b/examples/1xt2x/baidu_en8k/.gitignore
@ -2,3 +2,4 @@ exp
 data
 *log
 tmp
+nohup*
--- a/examples/1xt2x/baidu_en8k/local/data.sh
+++ b/examples/1xt2x/baidu_en8k/local/data.sh
@ -1,7 +1,14 @@
 #!/bin/bash
+if [ $# != 1 ];then
+    echo "usage: ${0} ckpt_dir"
+    exit -1
+fi
+
+ckpt_dir=$1

 stage=-1
 stop_stage=100
+unit_type=char

 source ${MAIN_ROOT}/utils/parse_options.sh

@ -10,17 +17,17 @@ TARGET_DIR=${MAIN_ROOT}/examples/dataset
 mkdir -p ${TARGET_DIR}


-bash local/download_model.sh
+bash local/download_model.sh ${ckpt_dir}
 if [ $? -ne 0 ]; then
   exit 1
 fi

+cd ${ckpt_dir}
 tar xzvf baidu_en8k_v1.8_to_v2.x.tar.gz
-mv baidu_en8k_v1.8.pdparams exp/deepspeech2/checkpoints/
-mv README.md exp/deepspeech2/
-mv mean_std.npz data/
-mv vocab.txt data/
-rm baidu_en8k_v1.8_to_v2.x.tar.gz -f
+cd -
+mv ${ckpt_dir}/mean_std.npz data/
+mv ${ckpt_dir}/vocab.txt data/
+

 if [ ${stage} -le -1 ] && [ ${stop_stage} -ge -1 ]; then
    # download data, generate manifests
@ -53,35 +60,13 @@ if [ ${stage} -le -1 ] && [ ${stop_stage} -ge -1 ]; then
 fi


-if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
-    # compute mean and stddev for normalizer
-    num_workers=$(nproc)
-    python3 ${MAIN_ROOT}/utils/compute_mean_std.py \
-    --manifest_path="data/manifest.train.raw" \
-    --num_samples=2000 \
-    --specgram_type="linear" \
-    --delta_delta=false \
-    --sample_rate=16000 \
-    --stride_ms=10.0 \
-    --window_ms=20.0 \
-    --use_dB_normalization=True \
-    --num_workers=${num_workers} \
-    --output_path="data/mean_std.json"
-
-    if [ $? -ne 0 ]; then
-        echo "Compute mean and stddev failed. Terminated."
-        exit 1
-    fi
-fi
-
-
 if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    # format manifest with tokenids, vocab size
    for set in train dev test dev-clean dev-other test-clean test-other; do
    {
        python3 ${MAIN_ROOT}/utils/format_data.py \
        --feat_type "raw" \
-        --cmvn_path "data/mean_std.json" \
+        --cmvn_path "data/mean_std.npz" \
        --unit_type ${unit_type} \
        --vocab_path="data/vocab.txt" \
        --manifest_path="data/manifest.${set}.raw" \
--- a/examples/1xt2x/baidu_en8k/local/download_model.sh
+++ b/examples/1xt2x/baidu_en8k/local/download_model.sh
@ -1,10 +1,17 @@
 #! /usr/bin/env bash
+if [ $# != 1 ];then
+    echo "usage: ${0} ckpt_dir"
+    exit -1
+fi
+
+ckpt_dir=$1
+

 . ${MAIN_ROOT}/utils/utility.sh

 URL='https://deepspeech.bj.bcebos.com/eng_models/baidu_en8k_v1.8_to_v2.x.tar.gz'
-MD5=fdabeb6c96963ac85d9188f0275c6a1b
-TARGET=./baidu_en8k_v1.8_to_v2.x.tar.gz
+MD5=c1676be8505cee436e6f312823e9008c
+TARGET=${ckpt_dir}/baidu_en8k_v1.8_to_v2.x.tar.gz


 echo "Download BaiduEn8k model ..."
@ -13,7 +20,6 @@ if [ $? -ne 0 ]; then
    echo "Fail to download BaiduEn8k model!"
    exit 1
 fi
-tar -zxvf $TARGET


 exit 0
--- a/examples/1xt2x/baidu_en8k/path.sh
+++ b/examples/1xt2x/baidu_en8k/path.sh
@ -12,5 +12,5 @@ export PYTHONPATH=${LOCAL_DEEPSPEECH2}:${PYTHONPATH}
 export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/lib/

 MODEL=deepspeech2
-export BIN_DIR=${LOCAL_DEEPSPEECH2}/deepspeech2x/bin
+export BIN_DIR=${LOCAL_DEEPSPEECH2}/src_deepspeech2x/bin
 echo "BIN_DIR "${BIN_DIR}
--- a/examples/1xt2x/baidu_en8k/run.sh
+++ b/examples/1xt2x/baidu_en8k/run.sh
@ -7,6 +7,7 @@ stop_stage=100
 conf_path=conf/deepspeech2.yaml
 avg_num=1
 model_type=offline
+gpus=0

 source ${MAIN_ROOT}/utils/parse_options.sh || exit 1;

@ -17,11 +18,11 @@ echo "checkpoint name ${ckpt}"
 if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    # prepare data
    mkdir -p exp/${ckpt}/checkpoints
-    bash ./local/data.sh || exit -1
+    bash ./local/data.sh exp/${ckpt}/checkpoints || exit -1
 fi

 if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    # test ckpt avg_n
-    CUDA_VISIBLE_DEVICES=0 ./local/test.sh ${conf_path} exp/${ckpt}/checkpoints/${v18_ckpt} ${model_type}|| exit -1
+    CUDA_VISIBLE_DEVICES=${gpus} ./local/test.sh ${conf_path} exp/${ckpt}/checkpoints/${v18_ckpt} ${model_type}|| exit -1
 fi

--- a/examples/1xt2x/librispeech/.gitignore
+++ b/examples/1xt2x/librispeech/.gitignore
@ -2,3 +2,4 @@ exp
 data
 *log
 tmp
+nohup*
--- a/examples/1xt2x/librispeech/local/data.sh
+++ b/examples/1xt2x/librispeech/local/data.sh
@ -1,7 +1,15 @@
 #!/bin/bash

+if [ $# != 1 ];then
+    echo "usage: ${0} ckpt_dir"
+    exit -1
+fi
+
+ckpt_dir=$1
+
 stage=-1
 stop_stage=100
+unit_type=char

 source ${MAIN_ROOT}/utils/parse_options.sh

@ -9,18 +17,16 @@ mkdir -p data
 TARGET_DIR=${MAIN_ROOT}/examples/dataset
 mkdir -p ${TARGET_DIR}

-
-bash local/download_model.sh
+bash local/download_model.sh ${ckpt_dir}
 if [ $? -ne 0 ]; then
   exit 1
 fi

+cd ${ckpt_dir}
 tar xzvf librispeech_v1.8_to_v2.x.tar.gz
-mv librispeech_v1.8.pdparams exp/deepspeech2/checkpoints/
-mv README.md exp/deepspeech2/
-mv mean_std.npz data/
-mv vocab.txt data/
-rm librispeech_v1.8_to_v2.x.tar.gz -f
+cd -
+mv ${ckpt_dir}/mean_std.npz data/
+mv ${ckpt_dir}/vocab.txt data/

 if [ ${stage} -le -1 ] && [ ${stop_stage} -ge -1 ]; then
    # download data, generate manifests
@ -52,36 +58,13 @@ if [ ${stage} -le -1 ] && [ ${stop_stage} -ge -1 ]; then
    done
 fi

-
-if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
-    # compute mean and stddev for normalizer
-    num_workers=$(nproc)
-    python3 ${MAIN_ROOT}/utils/compute_mean_std.py \
-    --manifest_path="data/manifest.train.raw" \
-    --num_samples=2000 \
-    --specgram_type="linear" \
-    --delta_delta=false \
-    --sample_rate=16000 \
-    --stride_ms=10.0 \
-    --window_ms=20.0 \
-    --use_dB_normalization=True \
-    --num_workers=${num_workers} \
-    --output_path="data/mean_std.json"
-
-    if [ $? -ne 0 ]; then
-        echo "Compute mean and stddev failed. Terminated."
-        exit 1
-    fi
-fi
-
-
 if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    # format manifest with tokenids, vocab size
    for set in train dev test dev-clean dev-other test-clean test-other; do
    {
        python3 ${MAIN_ROOT}/utils/format_data.py \
        --feat_type "raw" \
-        --cmvn_path "data/mean_std.json" \
+        --cmvn_path "data/mean_std.npz" \
        --unit_type ${unit_type} \
        --vocab_path="data/vocab.txt" \
        --manifest_path="data/manifest.${set}.raw" \
--- a/examples/1xt2x/librispeech/local/download_model.sh
+++ b/examples/1xt2x/librispeech/local/download_model.sh
@ -1,10 +1,17 @@
 #! /usr/bin/env bash

+if [ $# != 1 ];then
+    echo "usage: ${0} ckpt_dir"
+    exit -1
+fi
+
+ckpt_dir=$1
+
 . ${MAIN_ROOT}/utils/utility.sh

 URL='https://deepspeech.bj.bcebos.com/eng_models/librispeech_v1.8_to_v2.x.tar.gz'
-MD5=7b0f582fe2f5a840b840e7ee52246bc5
-TARGET=./librispeech_v1.8_to_v2.x.tar.gz
+MD5=a06d9aadb560ea113984dc98d67232c8
+TARGET=${ckpt_dir}/librispeech_v1.8_to_v2.x.tar.gz


 echo "Download LibriSpeech model ..."
@ -13,7 +20,6 @@ if [ $? -ne 0 ]; then
    echo "Fail to download LibriSpeech model!"
    exit 1
 fi
-tar -zxvf $TARGET


 exit 0
--- a/examples/1xt2x/librispeech/path.sh
+++ b/examples/1xt2x/librispeech/path.sh
@ -12,5 +12,4 @@ export PYTHONPATH=${LOCAL_DEEPSPEECH2}:${PYTHONPATH}
 export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/lib/

 MODEL=deepspeech2
-export BIN_DIR=${LOCAL_DEEPSPEECH2}/deepspeech2x/bin
-echo "BIN_DIR "${BIN_DIR}
+export BIN_DIR=${LOCAL_DEEPSPEECH2}/src_deepspeech2x/bin
--- a/examples/1xt2x/librispeech/run.sh
+++ b/examples/1xt2x/librispeech/run.sh
@ -7,6 +7,7 @@ stop_stage=100
 conf_path=conf/deepspeech2.yaml
 avg_num=1
 model_type=offline
+gpus=1

 source ${MAIN_ROOT}/utils/parse_options.sh || exit 1;

@ -17,10 +18,10 @@ echo "checkpoint name ${ckpt}"
 if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    # prepare data
    mkdir -p exp/${ckpt}/checkpoints
-    bash ./local/data.sh || exit -1
+    bash ./local/data.sh exp/${ckpt}/checkpoints || exit -1
 fi

 if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    # test ckpt avg_n
-    CUDA_VISIBLE_DEVICES=0 ./local/test.sh ${conf_path} exp/${ckpt}/checkpoints/${v18_ckpt} ${model_type}|| exit -1
+    CUDA_VISIBLE_DEVICES=${gpus} ./local/test.sh ${conf_path} exp/${ckpt}/checkpoints/${v18_ckpt} ${model_type}|| exit -1
 fi
--- a/examples/1xt2x/src_deepspeech2x/init.py
+++ b/examples/1xt2x/src_deepspeech2x/init.py
--- a/examples/1xt2x/src_deepspeech2x/bin/test.py
+++ b/examples/1xt2x/src_deepspeech2x/bin/test.py
@ -12,7 +12,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Evaluation for DeepSpeech2 model."""
-from deepspeech2x.model import DeepSpeech2Tester as Tester
+from src_deepspeech2x.test_model import DeepSpeech2Tester as Tester

 from deepspeech.exps.deepspeech2.config import get_cfg_defaults
 from deepspeech.training.cli import default_argument_parser
--- a/examples/1xt2x/src_deepspeech2x/models/init.py
+++ b/examples/1xt2x/src_deepspeech2x/models/init.py
--- a/examples/1xt2x/src_deepspeech2x/models/ds2/init.py
+++ b/examples/1xt2x/src_deepspeech2x/models/ds2/init.py
--- a/examples/1xt2x/src_deepspeech2x/models/ds2/deepspeech2.py
+++ b/examples/1xt2x/src_deepspeech2x/models/ds2/deepspeech2.py
@ -15,8 +15,8 @@
 from typing import Optional

 import paddle
-from deepspeech2x.models.ds2.rnn import RNNStack
 from paddle import nn
+from src_deepspeech2x.models.ds2.rnn import RNNStack
 from yacs.config import CfgNode

 from deepspeech.models.ds2.conv import ConvStack
--- a/examples/1xt2x/src_deepspeech2x/models/ds2/rnn.py
+++ b/examples/1xt2x/src_deepspeech2x/models/ds2/rnn.py
--- a/examples/1xt2x/src_deepspeech2x/test_model.py
+++ b/examples/1xt2x/src_deepspeech2x/test_model.py
@ -20,12 +20,13 @@ from typing import Optional

 import numpy as np
 import paddle
-from deepspeech2x.models.ds2 import DeepSpeech2InferModel
-from deepspeech2x.models.ds2 import DeepSpeech2Model
 from paddle import distributed as dist
 from paddle.io import DataLoader
+from src_deepspeech2x.models.ds2 import DeepSpeech2InferModel
+from src_deepspeech2x.models.ds2 import DeepSpeech2Model
 from yacs.config import CfgNode

+from deepspeech.frontend.featurizer.text_featurizer import TextFeaturizer
 from deepspeech.io.collator import SpeechCollator
 from deepspeech.io.dataset import ManifestDataset
 from deepspeech.io.sampler import SortagradBatchSampler
@ -38,7 +39,6 @@ from deepspeech.utils import error_rate
 from deepspeech.utils import layer_tools
 from deepspeech.utils import mp_tools
 from deepspeech.utils.log import Log
-#from deepspeech.utils.log import Autolog

 logger = Log(__name__).getlog()

@ -272,6 +272,9 @@ class DeepSpeech2Tester(DeepSpeech2Trainer):
        return default

    def __init__(self, config, args):
+
+        self._text_featurizer = TextFeaturizer(
+            unit_type=config.collator.unit_type, vocab_filepath=None)
        super().__init__(config, args)

    def ordid2token(self, texts, texts_len):
@ -296,9 +299,6 @@ class DeepSpeech2Tester(DeepSpeech2Trainer):
        error_rate_func = error_rate.cer if cfg.error_rate_type == 'cer' else error_rate.wer

        vocab_list = self.test_loader.collate_fn.vocab_list
-        if "" in vocab_list:
-            space_id = vocab_list.index("")
-            vocab_list[space_id] = " "

        target_transcripts = self.ordid2token(texts, texts_len)

@ -337,6 +337,10 @@ class DeepSpeech2Tester(DeepSpeech2Trainer):
            cutoff_prob=cfg.cutoff_prob,
            cutoff_top_n=cfg.cutoff_top_n,
            num_processes=cfg.num_proc_bsearch)
+        result_transcripts = [
+            self._text_featurizer.detokenize(item)
+            for item in result_transcripts
+        ]
        return result_transcripts

    @mp_tools.rank_zero_only
@ -367,8 +371,6 @@ class DeepSpeech2Tester(DeepSpeech2Trainer):
            error_rate_type, num_ins, num_ins, errors_sum / len_refs)
        logger.info(msg)

-    # self.autolog.report()
-
    def run_test(self):
        self.resume_or_scratch()
        try:
--- a/utils/format_data.py
+++ b/utils/format_data.py
@ -53,7 +53,8 @@ def main():
    fout = open(args.output_path, 'w', encoding='utf-8')

    # get feat dim
-    mean, std = load_cmvn(args.cmvn_path, filetype='json')
+    filetype = args.cmvn_path.split(".")[-1]
+    mean, istd = load_cmvn(args.cmvn_path, filetype=filetype)
    feat_dim = mean.shape[0] #(D)
    print(f"Feature dim: {feat_dim}")