train process add new voxceleb and rirs dataset, test=doc

4 years ago · 5b05300e53
parent 965f486dd5
commit 5b05300e53
3 changed files with 16 additions and 13 deletions
--- a/examples/voxceleb/sv0/local/data.sh
+++ b/examples/voxceleb/sv0/local/data.sh
@ -136,10 +136,3 @@ if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 7 ]; then
      exit 1
   fi
 fi
--- a/paddlespeech/vector/exps/ecapa_tdnn/train.py
+++ b/paddlespeech/vector/exps/ecapa_tdnn/train.py
@ -23,13 +23,13 @@ from paddle.io import DistributedBatchSampler
 from yacs.config import CfgNode
 from paddleaudio.compliance.librosa import melspectrogram
 from paddleaudio.datasets.voxceleb import VoxCeleb
 from paddlespeech.s2t.utils.log import Log
 from paddlespeech.vector.io.augment import build_augment_pipeline
 from paddlespeech.vector.io.augment import waveform_augment
 from paddlespeech.vector.io.batch import batch_pad_right
 from paddlespeech.vector.io.batch import feature_normalize
 from paddlespeech.vector.io.batch import waveform_collate_fn
 from paddlespeech.vector.io.dataset import VoxCelebDataset
 from paddlespeech.vector.models.ecapa_tdnn import EcapaTdnn
 from paddlespeech.vector.modules.loss import AdditiveAngularMargin
 from paddlespeech.vector.modules.loss import LogSoftmaxWrapper
@ -37,6 +37,7 @@ from paddlespeech.vector.modules.sid_model import SpeakerIdetification
 from paddlespeech.vector.training.scheduler import CyclicLRScheduler
 from paddlespeech.vector.training.seeding import seed_everything
 from paddlespeech.vector.utils.time import Timer
 # from paddleaudio.datasets.voxceleb import VoxCeleb
 logger = Log(__name__).getlog()
@ -54,8 +55,14 @@ def main(args, config):
    # stage2: data prepare, such vox1 and vox2 data, and augment noise data and pipline
    # note: some cmd must do in rank==0, so wo will refactor the data prepare code
-    train_dataset = VoxCeleb('train', target_dir=args.data_dir)
+    train_dataset = VoxCelebDataset(
-    dev_dataset = VoxCeleb('dev', target_dir=args.data_dir)
+        csv_path=os.path.join(args.data_dir, "vox/csv/train.csv"),
        spk_id2label_path=os.path.join(args.data_dir,
                                       "vox/meta/spk_id2label.txt"))
    dev_dataset = VoxCelebDataset(
        csv_path=os.path.join(args.data_dir, "vox/csv/dev.csv"),
        spk_id2label_path=os.path.join(args.data_dir,
                                       "vox/meta/spk_id2label.txt"))
    if config.augment:
        augment_pipeline = build_augment_pipeline(target_dir=args.data_dir)
--- a/paddlespeech/vector/io/augment.py
+++ b/paddlespeech/vector/io/augment.py
@ -21,13 +21,14 @@ import paddle
 import paddle.nn as nn
 import paddle.nn.functional as F
 from paddleaudio.datasets.rirs_noises import OpenRIRNoise
 from paddlespeech.s2t.utils.log import Log
 from paddlespeech.vector.io.dataset import RIRSNoiseDataset
 from paddlespeech.vector.io.signal_processing import compute_amplitude
 from paddlespeech.vector.io.signal_processing import convolve1d
 from paddlespeech.vector.io.signal_processing import dB_to_amplitude
 from paddlespeech.vector.io.signal_processing import notch_filter
 from paddlespeech.vector.io.signal_processing import reverberate
 # from paddleaudio.datasets.rirs_noises import OpenRIRNoise
 logger = Log(__name__).getlog()
@ -839,8 +840,10 @@ def build_augment_pipeline(target_dir=None) -> List[paddle.nn.Layer]:
        List[paddle.nn.Layer]: all augment process
    """
    logger.info("start to build the augment pipeline")
-    noise_dataset = OpenRIRNoise('noise', target_dir=target_dir)
+    noise_dataset = RIRSNoiseDataset(csv_path=os.path.join(
-    rir_dataset = OpenRIRNoise('rir', target_dir=target_dir)
+        target_dir, "rir_noise/csv/noise.csv"))
    rir_dataset = OpenRIRNoise(csv_path=os.path.join(target_dir,
                                                     "rir_noise/csv/rir.csv"))
    wavedrop = TimeDomainSpecAugment(
        sample_rate=16000,