fix dataloader pickle bugs

4 years ago · d1db859657
parent dde3267e9b
commit d1db859657
9 changed files with 47 additions and 38 deletions
--- a/deepspeech/decoders/swig/setup.py
+++ b/deepspeech/decoders/swig/setup.py
@ -83,11 +83,13 @@ FILES = glob.glob('kenlm/util/*.cc') \
 FILES += glob.glob('openfst-1.6.3/src/lib/*.cc')
 # yapf: disable
 FILES = [
    fn for fn in FILES
    if not (fn.endswith('main.cc') or fn.endswith('test.cc') or fn.endswith(
        'unittest.cc'))
 ]
 # yapf: enable
 LIBS = ['stdc++']
 if platform.system() != 'Darwin':
--- a/deepspeech/exps/u2_kaldi/model.py
+++ b/deepspeech/exps/u2_kaldi/model.py
@ -171,10 +171,7 @@ class U2Trainer(Trainer):
        if from_scratch:
            # save init model, i.e. 0 epoch
            self.save(tag='init')
        self.lr_scheduler.step(self.iteration)
        if self.parallel:
            self.train_loader.batch_sampler.set_epoch(self.epoch)
        logger.info(f"Train Total Examples: {len(self.train_loader.dataset)}")
        while self.epoch < self.config.training.n_epoch:
--- a/deepspeech/frontend/augmentor/spec_augment.py
+++ b/deepspeech/frontend/augmentor/spec_augment.py
@ -153,7 +153,7 @@ class SpecAugmentor(AugmentorBase):
        window = max_time_warp = self.W
        if window == 0:
            return x
-        
+
        if mode == "PIL":
            t = x.shape[0]
            if t - window <= window:
--- a/deepspeech/io/converter.py
+++ b/deepspeech/io/converter.py
@ -43,7 +43,7 @@ class CustomConverter():
            batch (list): The batch to transform.
        Returns:
-            tuple(paddle.Tensor, paddle.Tensor, paddle.Tensor)
+            tuple(np.ndarray, nn.ndarray, nn.ndarray)
        """
        # batch should be located in list
--- a/deepspeech/io/dataloader.py
+++ b/deepspeech/io/dataloader.py
@ -43,6 +43,18 @@ def feat_dim_and_vocab_size(data_json: List[Dict[Text, Any]],
    return feat_dim, vocab_size
 def batch_collate(x):
    """de-tuple.
    Args:
        x (List[Tuple]): [(utts, xs, ilens, ys, olens)]
    Returns:
        Tuple: (utts, xs, ilens, ys, olens)
    """
    return x[0]
 class BatchDataLoader():
    def __init__(self,
                 json_file: str,
@ -120,15 +132,15 @@ class BatchDataLoader():
        # actual bathsize is included in a list
        # default collate function converts numpy array to pytorch tensor
        # we used an empty collate function instead which returns list
-        self.dataset = TransformDataset(
+        self.dataset = TransformDataset(self.minibaches, self.converter,
-            self.minibaches,
+                                        self.reader)
-            lambda data: self.converter([self.reader(data, return_uttid=True)]))
+
        self.dataloader = DataLoader(
            dataset=self.dataset,
            batch_size=1,
-            shuffle=not self.use_sortagrad if train_mode else False,
+            shuffle=not self.use_sortagrad if self.train_mode else False,
-            collate_fn=lambda x: x[0],
+            collate_fn=batch_collate,
-            num_workers=n_iter_processes, )
+            num_workers=self.n_iter_processes, )
    def __repr__(self):
        echo = f"<{self.__class__.__module__}.{self.__class__.__name__} object at {hex(id(self))}> "
--- a/deepspeech/io/dataset.py
+++ b/deepspeech/io/dataset.py
@ -129,15 +129,16 @@ class TransformDataset(Dataset):
    Args:
        data: list object from make_batchset
-        transfrom: transform function
+        converter: batch function
-
+        reader: read data
    """
-    def __init__(self, data, transform):
+    def __init__(self, data, converter, reader):
        """Init function."""
        super().__init__()
        self.data = data
-        self.transform = transform
+        self.converter = converter
        self.reader = reader
    def __len__(self):
        """Len function."""
@ -145,4 +146,4 @@ class TransformDataset(Dataset):
    def __getitem__(self, idx):
        """[] operator."""
-        return self.transform(self.data[idx])
+        return self.converter([self.reader(self.data[idx], return_uttid=True)])
--- a/examples/aishell/s0/conf/augmentation.json
+++ b/examples/aishell/s0/conf/augmentation.json
@ -29,7 +29,7 @@
      "adaptive_number_ratio": 0,
      "adaptive_size_ratio": 0,
      "max_n_time_masks": 20,
-      "replace_with_zero": true 
+      "replace_with_zero": true
    },
    "prob": 1.0
  }
--- a/examples/librispeech/s2/conf/augmentation.json
+++ b/examples/librispeech/s2/conf/augmentation.json
@ -2,17 +2,17 @@
  {
    "type": "specaug",
    "params": {
-      "F": 10,
+      "W": 5,
-      "T": 50,
+      "warp_mode": "PIL",
      "F": 30,
      "n_freq_masks": 2,
      "T": 40,
      "n_time_masks": 2,
      "p": 1.0,
      "W": 80,
      "adaptive_number_ratio": 0,
      "adaptive_size_ratio": 0,
      "max_n_time_masks": 20,
-      "replace_with_zero": true,
+      "replace_with_zero": false
      "warp_mode": "PIL"
    },
    "prob": 1.0
  }
--- a/examples/librispeech/s2/conf/transformer.yaml
+++ b/examples/librispeech/s2/conf/transformer.yaml
@ -8,26 +8,23 @@ collator:
  vocab_filepath: data/train_960_unigram5000_units.txt
  unit_type: 'spm'
  spm_model_prefix: 'data/train_960_unigram5000'
  mean_std_filepath: ""
  augmentation_config: conf/augmentation.json
  batch_size: 64
  raw_wav: True  # use raw_wav or kaldi feature
  specgram_type: fbank #linear, mfcc, fbank
  feat_dim: 83
  delta_delta: False
  dither: 1.0
  target_sample_rate: 16000
  max_freq: None
  n_fft: None
  stride_ms: 10.0
  window_ms: 25.0
-  use_dB_normalization: True
+  sortagrad: 0 # Feed samples from shortest to longest ; -1: enabled for all epochs, 0: disabled, other: enabled for 'other' epochs 
-  target_dB: -20
+  batch_size: 32 
-  random_seed: 0
+  maxlen_in: 512  # if input length  > maxlen-in, batchsize is automatically reduced
-  keep_transcription_text: False
+  maxlen_out: 150  # if output length > maxlen-out, batchsize is automatically reduced
-  sortagrad: True 
+  minibatches: 0 # for debug
-  shuffle_method: batch_shuffle
+  batch_count: auto
  batch_bins: 0 
  batch_frames_in: 0
  batch_frames_out: 0
  batch_frames_inout: 0
  augmentation_config: conf/augmentation.json
  num_workers: 2
  subsampling_factor: 1
  num_encs: 1
 # network architecture