PaddleSpeech/infer.py

"""Inferer for DeepSpeech2 model."""
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import argparse
import gzip
import distutils.util
import paddle.v2 as paddle
from data_utils.data import DataGenerator
from model import deep_speech2
from decoder import ctc_decode
import utils

parser = argparse.ArgumentParser(description=__doc__)
parser.add_argument(
    "--num_samples",
    default=10,
    type=int,
    help="Number of samples for inference. (default: %(default)s)")
parser.add_argument(
    "--num_conv_layers",
    default=2,
    type=int,
    help="Convolution layer number. (default: %(default)s)")
parser.add_argument(
    "--num_rnn_layers",
    default=3,
    type=int,
    help="RNN layer number. (default: %(default)s)")
parser.add_argument(
    "--rnn_layer_size",
    default=512,
    type=int,
    help="RNN layer cell number. (default: %(default)s)")
parser.add_argument(
    "--use_gpu",
    default=True,
    type=distutils.util.strtobool,
    help="Use gpu or not. (default: %(default)s)")
parser.add_argument(
    "--num_threads_data",
    default=12,
    type=int,
    help="Number of cpu threads for preprocessing data. (default: %(default)s)")
parser.add_argument(
    "--mean_std_filepath",
    default='mean_std.npz',
    type=str,
    help="Manifest path for normalizer. (default: %(default)s)")
parser.add_argument(
    "--decode_manifest_path",
    default='datasets/manifest.test',
    type=str,
    help="Manifest path for decoding. (default: %(default)s)")
parser.add_argument(
    "--model_filepath",
    default='./params.tar.gz',
    type=str,
    help="Model filepath. (default: %(default)s)")
parser.add_argument(
    "--vocab_filepath",
    default='datasets/vocab/eng_vocab.txt',
    type=str,
    help="Vocabulary filepath. (default: %(default)s)")
args = parser.parse_args()


def infer():
    """Max-ctc-decoding for DeepSpeech2."""
    # initialize data generator
    data_generator = DataGenerator(
        vocab_filepath=args.vocab_filepath,
        mean_std_filepath=args.mean_std_filepath,
        augmentation_config='{}',
        num_threads=args.num_threads_data)

    # create network config
    # paddle.data_type.dense_array is used for variable batch input.
    # The size 161 * 161 is only an placeholder value and the real shape
    # of input batch data will be induced during training.
    audio_data = paddle.layer.data(
        name="audio_spectrogram", type=paddle.data_type.dense_array(161 * 161))
    text_data = paddle.layer.data(
        name="transcript_text",
        type=paddle.data_type.integer_value_sequence(data_generator.vocab_size))
    output_probs = deep_speech2(
        audio_data=audio_data,
        text_data=text_data,
        dict_size=data_generator.vocab_size,
        num_conv_layers=args.num_conv_layers,
        num_rnn_layers=args.num_rnn_layers,
        rnn_size=args.rnn_layer_size,
        is_inference=True)

    # load parameters
    parameters = paddle.parameters.Parameters.from_tar(
        gzip.open(args.model_filepath))

    # prepare infer data
    batch_reader = data_generator.batch_reader_creator(
        manifest_path=args.decode_manifest_path,
        batch_size=args.num_samples,
        sortagrad=False,
        shuffle_method=None)
    infer_data = batch_reader().next()

    # run inference
    infer_results = paddle.infer(
        output_layer=output_probs, parameters=parameters, input=infer_data)
    num_steps = len(infer_results) // len(infer_data)
    probs_split = [
        infer_results[i * num_steps:(i + 1) * num_steps]
        for i in xrange(len(infer_data))
    ]

    # decode and print
    for i, probs in enumerate(probs_split):
        output_transcription = ctc_decode(
            probs_seq=probs,
            vocabulary=data_generator.vocab_list,
            method="best_path")
        target_transcription = ''.join(
            [data_generator.vocab_list[index] for index in infer_data[i][1]])
        print("Target Transcription: %s \nOutput Transcription: %s \n" %
              (target_transcription, output_transcription))


def main():
    utils.print_arguments(args)
    paddle.init(use_gpu=args.use_gpu, trainer_count=1)
    infer()


if __name__ == '__main__':
    main()
Add function, class and module docs for data parts in DS2. 7 years ago			`"""Inferer for DeepSpeech2 model."""`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`from __future__ import absolute_import`
			`from __future__ import division`
			`from __future__ import print_function`

Add infererence and add SortaGrad for only first pass. 7 years ago			`import argparse`
			`import gzip`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`import distutils.util`
			`import paddle.v2 as paddle`
			`from data_utils.data import DataGenerator`
Add function docs. 7 years ago			`from model import deep_speech2`
Refactor decoder interfaces and add ./data directory. 7 years ago			`from decoder import ctc_decode`
Add shuffle type of instance_shuffle and batch_shuffle_clipped. 7 years ago			`import utils`
Add infererence and add SortaGrad for only first pass. 7 years ago
Add shuffle type of instance_shuffle and batch_shuffle_clipped. 7 years ago			`parser = argparse.ArgumentParser(description=__doc__)`
Add infererence and add SortaGrad for only first pass. 7 years ago			`parser.add_argument(`
Add function docs. 7 years ago			`"--num_samples",`
			`default=10,`
			`type=int,`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`help="Number of samples for inference. (default: %(default)s)")`
Add infererence and add SortaGrad for only first pass. 7 years ago			`parser.add_argument(`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`"--num_conv_layers",`
			`default=2,`
			`type=int,`
			`help="Convolution layer number. (default: %(default)s)")`
			`parser.add_argument(`
			`"--num_rnn_layers",`
			`default=3,`
			`type=int,`
			`help="RNN layer number. (default: %(default)s)")`
			`parser.add_argument(`
			`"--rnn_layer_size",`
			`default=512,`
			`type=int,`
			`help="RNN layer cell number. (default: %(default)s)")`
			`parser.add_argument(`
			`"--use_gpu",`
			`default=True,`
			`type=distutils.util.strtobool,`
			`help="Use gpu or not. (default: %(default)s)")`
Add multi-threading support for DS2 data generator. 7 years ago			`parser.add_argument(`
			`"--num_threads_data",`
			`default=12,`
			`type=int,`
			`help="Number of cpu threads for preprocessing data. (default: %(default)s)")`
Add infererence and add SortaGrad for only first pass. 7 years ago			`parser.add_argument(`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`"--mean_std_filepath",`
			`default='mean_std.npz',`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`type=str,`
			`help="Manifest path for normalizer. (default: %(default)s)")`
Add infererence and add SortaGrad for only first pass. 7 years ago			`parser.add_argument(`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`"--decode_manifest_path",`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`default='datasets/manifest.test',`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`type=str,`
			`help="Manifest path for decoding. (default: %(default)s)")`
Add infererence and add SortaGrad for only first pass. 7 years ago			`parser.add_argument(`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`"--model_filepath",`
			`default='./params.tar.gz',`
			`type=str,`
			`help="Model filepath. (default: %(default)s)")`
Refactor decoder interfaces and add ./data directory. 7 years ago			`parser.add_argument(`
			`"--vocab_filepath",`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`default='datasets/vocab/eng_vocab.txt',`
Refactor decoder interfaces and add ./data directory. 7 years ago			`type=str,`
			`help="Vocabulary filepath. (default: %(default)s)")`
Add infererence and add SortaGrad for only first pass. 7 years ago			`args = parser.parse_args()`


Refactor decoder interfaces and add ./data directory. 7 years ago			`def infer():`
Add shuffle type of instance_shuffle and batch_shuffle_clipped. 7 years ago			`"""Max-ctc-decoding for DeepSpeech2."""`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`# initialize data generator`
			`data_generator = DataGenerator(`
Refactor decoder interfaces and add ./data directory. 7 years ago			`vocab_filepath=args.vocab_filepath,`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`mean_std_filepath=args.mean_std_filepath,`
Add multi-threading support for DS2 data generator. 7 years ago			`augmentation_config='{}',`
			`num_threads=args.num_threads_data)`
Refactor decoder interfaces and add ./data directory. 7 years ago
Add infererence and add SortaGrad for only first pass. 7 years ago			`# create network config`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`# paddle.data_type.dense_array is used for variable batch input.`
			`# The size 161 * 161 is only an placeholder value and the real shape`
			`# of input batch data will be induced during training.`
Add infererence and add SortaGrad for only first pass. 7 years ago			`audio_data = paddle.layer.data(`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`name="audio_spectrogram", type=paddle.data_type.dense_array(161 * 161))`
Add infererence and add SortaGrad for only first pass. 7 years ago			`text_data = paddle.layer.data(`
			`name="transcript_text",`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`type=paddle.data_type.integer_value_sequence(data_generator.vocab_size))`
Refactor decoder interfaces and add ./data directory. 7 years ago			`output_probs = deep_speech2(`
Add infererence and add SortaGrad for only first pass. 7 years ago			`audio_data=audio_data,`
			`text_data=text_data,`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`dict_size=data_generator.vocab_size,`
Add infererence and add SortaGrad for only first pass. 7 years ago			`num_conv_layers=args.num_conv_layers,`
			`num_rnn_layers=args.num_rnn_layers,`
Refactor decoder interfaces and add ./data directory. 7 years ago			`rnn_size=args.rnn_layer_size,`
			`is_inference=True)`
Add infererence and add SortaGrad for only first pass. 7 years ago
			`# load parameters`
			`parameters = paddle.parameters.Parameters.from_tar(`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`gzip.open(args.model_filepath))`
Add infererence and add SortaGrad for only first pass. 7 years ago
			`# prepare infer data`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`batch_reader = data_generator.batch_reader_creator(`
1. Fix incorrect decoder result printing. 2. Fix incorrect batch-norm usage in RNN. 3. Fix overlapping train/dev/test manfests. 4. Update README.md and requirements.txt. 5. Expose more arguments to users in argparser. 6. Update all other details. 7 years ago			`manifest_path=args.decode_manifest_path,`
			`batch_size=args.num_samples,`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`sortagrad=False,`
Add shuffle type of instance_shuffle and batch_shuffle_clipped. 7 years ago			`shuffle_method=None)`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`infer_data = batch_reader().next()`
Add infererence and add SortaGrad for only first pass. 7 years ago
Refactor decoder interfaces and add ./data directory. 7 years ago			`# run inference`
			`infer_results = paddle.infer(`
			`output_layer=output_probs, parameters=parameters, input=infer_data)`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`num_steps = len(infer_results) // len(infer_data)`
Refactor decoder interfaces and add ./data directory. 7 years ago			`probs_split = [`
			`infer_results[i * num_steps:(i + 1) * num_steps]`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`for i in xrange(len(infer_data))`
Add infererence and add SortaGrad for only first pass. 7 years ago			`]`
Refactor decoder interfaces and add ./data directory. 7 years ago
			`# decode and print`
			`for i, probs in enumerate(probs_split):`
			`output_transcription = ctc_decode(`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`probs_seq=probs,`
			`vocabulary=data_generator.vocab_list,`
			`method="best_path")`
Refactor decoder interfaces and add ./data directory. 7 years ago			`target_transcription = ''.join(`
Refactor whole data preprocessor for DS2 (re-design classes, re-organize dir, add augmentaion interfaces etc.). 1. Refactor data preprocessor with new added class AudioSegment, SpeechSegment, TextFeaturizer, AudioFeaturizer, SpeechFeaturizer. 2. Add data augmentation interfaces and class AugmentorBase, AugmentationPipeline, VolumnPerturbAugmentor etc.. 3. Seperate normalizer's mean and std computing from training, by adding FeatureNormalizer and a seperate tool compute_mean_std.py. 4. Re-organize directory. 7 years ago			`[data_generator.vocab_list[index] for index in infer_data[i][1]])`
Refactor decoder interfaces and add ./data directory. 7 years ago			`print("Target Transcription: %s \nOutput Transcription: %s \n" %`
			`(target_transcription, output_transcription))`
Add infererence and add SortaGrad for only first pass. 7 years ago

			`def main():`
Add shuffle type of instance_shuffle and batch_shuffle_clipped. 7 years ago			`utils.print_arguments(args)`
Add infererence and add SortaGrad for only first pass. 7 years ago			`paddle.init(use_gpu=args.use_gpu, trainer_count=1)`
Refactor decoder interfaces and add ./data directory. 7 years ago			`infer()`
Add infererence and add SortaGrad for only first pass. 7 years ago

			`if __name__ == '__main__':`
			`main()`