PaddleSpeech/examples/ljspeech/tts1/conf/default.yaml


fs : 22050              # Hz, sample rate
n_fft : 1024            # FFT size (samples). 
win_length : 1024       # Window length (samples). 46.4ms
n_shift : 256           # Hop size (samples). 11.6ms
fmin : 0                # Hz, min frequency when converting to mel
fmax : 8000             # Hz, max frequency when converting to mel
n_mels : 80             # mel bands
window: "hann"          # Window function.

###########################################################
#                       DATA SETTING                      #
###########################################################
batch_size: 16
num_workers: 2

##########################################################
#                  TTS MODEL SETTING                     #
##########################################################
tts: transformertts        # model architecture
model:                     # keyword arguments for the selected model
    embed_dim: 0           # embedding dimension in encoder prenet
    eprenet_conv_layers: 0 # number of conv layers in encoder prenet
                           # if set to 0, no encoder prenet will be used
    eprenet_conv_filts: 0  # filter size of conv layers in encoder prenet
    eprenet_conv_chans: 0  # number of channels of conv layers in encoder prenet
    dprenet_layers: 2      # number of layers in decoder prenet
    dprenet_units: 256     # number of units in decoder prenet
    adim: 512              # attention dimension
    aheads: 8              # number of attention heads
    elayers: 6             # number of encoder layers
    eunits: 1024           # number of encoder ff units
    dlayers: 6             # number of decoder layers
    dunits: 1024           # number of decoder ff units
    positionwise_layer_type: conv1d  # type of position-wise layer
    positionwise_conv_kernel_size: 1 # kernel size of position wise conv layer
    postnet_layers: 5                # number of layers of postnset
    postnet_filts: 5                 # filter size of conv layers in postnet
    postnet_chans: 256               # number of channels of conv layers in postnet
    use_scaled_pos_enc: True         # whether to use scaled positional encoding
    encoder_normalize_before: True   # whether to perform layer normalization before the input
    decoder_normalize_before: True   # whether to perform layer normalization before the input
    reduction_factor: 1              # reduction factor
    init_type: xavier_uniform        # initialization type
    init_enc_alpha: 1.0              # initial value of alpha of encoder scaled position encoding
    init_dec_alpha: 1.0              # initial value of alpha of decoder scaled position encoding
    eprenet_dropout_rate: 0.0        # dropout rate for encoder prenet
    dprenet_dropout_rate: 0.5        # dropout rate for decoder prenet
    postnet_dropout_rate: 0.5        # dropout rate for postnet
    transformer_enc_dropout_rate: 0.1                # dropout rate for transformer encoder layer
    transformer_enc_positional_dropout_rate: 0.1     # dropout rate for transformer encoder positional encoding
    transformer_enc_attn_dropout_rate: 0.1           # dropout rate for transformer encoder attention layer
    transformer_dec_dropout_rate: 0.1                # dropout rate for transformer decoder layer
    transformer_dec_positional_dropout_rate: 0.1     # dropout rate for transformer decoder positional encoding
    transformer_dec_attn_dropout_rate: 0.1           # dropout rate for transformer decoder attention layer
    transformer_enc_dec_attn_dropout_rate: 0.1       # dropout rate for transformer encoder-decoder attention layer
    num_heads_applied_guided_attn: 2                 # number of heads to apply guided attention loss
    num_layers_applied_guided_attn: 2                # number of layers to apply guided attention loss  
    

###########################################################
#                       UPDATER SETTING                   #
###########################################################
updater:
    use_masking: True                  # whether to apply masking for padded part in loss calculation
    loss_type: L1
    use_guided_attn_loss: True         # whether to use guided attention loss
    guided_attn_loss_sigma: 0.4        # sigma in guided attention loss
    guided_attn_loss_lambda: 10.0      # lambda in guided attention loss
    modules_applied_guided_attn: ["encoder-decoder"] # modules to apply guided attention loss
    bce_pos_weight: 5.0              # weight of positive sample in binary cross entropy calculation


##########################################################
#            OPTIMIZER & SCHEDULER SETTING               #
##########################################################
optimizer:
    optim: adam               # optimizer type
    learning_rate: 0.001      # learning rate

###########################################################
#                     TRAINING SETTING                    #
###########################################################
max_epoch: 500
num_snapshots: 5


###########################################################
#                       OTHER SETTING                     #
###########################################################
seed: 10086
merge parakeet repo into deepspeech 3 years ago
			`fs : 22050 # Hz, sample rate`
[TTS]Add hifigan (#1097) * add hifigan * add hifigan * integrate synthesize synthesize_e2e, inference for tts, test=tts * add some python files, test=tts * update readme, test=doc_fix 3 years ago			`n_fft : 1024 # FFT size (samples).`
			`win_length : 1024 # Window length (samples). 46.4ms`
			`n_shift : 256 # Hop size (samples). 11.6ms`
merge parakeet repo into deepspeech 3 years ago			`fmin : 0 # Hz, min frequency when converting to mel`
			`fmax : 8000 # Hz, max frequency when converting to mel`
			`n_mels : 80 # mel bands`
			`window: "hann" # Window function.`

			`###########################################################`
			`# DATA SETTING #`
			`###########################################################`
			`batch_size: 16`
			`num_workers: 2`

			`##########################################################`
			`# TTS MODEL SETTING #`
			`##########################################################`
			`tts: transformertts # model architecture`
			`model: # keyword arguments for the selected model`
			`embed_dim: 0 # embedding dimension in encoder prenet`
			`eprenet_conv_layers: 0 # number of conv layers in encoder prenet`
			`# if set to 0, no encoder prenet will be used`
			`eprenet_conv_filts: 0 # filter size of conv layers in encoder prenet`
			`eprenet_conv_chans: 0 # number of channels of conv layers in encoder prenet`
			`dprenet_layers: 2 # number of layers in decoder prenet`
			`dprenet_units: 256 # number of units in decoder prenet`
			`adim: 512 # attention dimension`
			`aheads: 8 # number of attention heads`
			`elayers: 6 # number of encoder layers`
			`eunits: 1024 # number of encoder ff units`
			`dlayers: 6 # number of decoder layers`
			`dunits: 1024 # number of decoder ff units`
			`positionwise_layer_type: conv1d # type of position-wise layer`
			`positionwise_conv_kernel_size: 1 # kernel size of position wise conv layer`
			`postnet_layers: 5 # number of layers of postnset`
			`postnet_filts: 5 # filter size of conv layers in postnet`
			`postnet_chans: 256 # number of channels of conv layers in postnet`
			`use_scaled_pos_enc: True # whether to use scaled positional encoding`
			`encoder_normalize_before: True # whether to perform layer normalization before the input`
			`decoder_normalize_before: True # whether to perform layer normalization before the input`
			`reduction_factor: 1 # reduction factor`
			`init_type: xavier_uniform # initialization type`
			`init_enc_alpha: 1.0 # initial value of alpha of encoder scaled position encoding`
			`init_dec_alpha: 1.0 # initial value of alpha of decoder scaled position encoding`
			`eprenet_dropout_rate: 0.0 # dropout rate for encoder prenet`
			`dprenet_dropout_rate: 0.5 # dropout rate for decoder prenet`
			`postnet_dropout_rate: 0.5 # dropout rate for postnet`
			`transformer_enc_dropout_rate: 0.1 # dropout rate for transformer encoder layer`
			`transformer_enc_positional_dropout_rate: 0.1 # dropout rate for transformer encoder positional encoding`
			`transformer_enc_attn_dropout_rate: 0.1 # dropout rate for transformer encoder attention layer`
			`transformer_dec_dropout_rate: 0.1 # dropout rate for transformer decoder layer`
			`transformer_dec_positional_dropout_rate: 0.1 # dropout rate for transformer decoder positional encoding`
			`transformer_dec_attn_dropout_rate: 0.1 # dropout rate for transformer decoder attention layer`
			`transformer_enc_dec_attn_dropout_rate: 0.1 # dropout rate for transformer encoder-decoder attention layer`
			`num_heads_applied_guided_attn: 2 # number of heads to apply guided attention loss`
			`num_layers_applied_guided_attn: 2 # number of layers to apply guided attention loss`



			`###########################################################`
			`# UPDATER SETTING #`
			`###########################################################`
			`updater:`
add csmsc tacotron2 3 years ago			`use_masking: True # whether to apply masking for padded part in loss calculation`
merge parakeet repo into deepspeech 3 years ago			`loss_type: L1`
add csmsc tacotron2 3 years ago			`use_guided_attn_loss: True # whether to use guided attention loss`
merge parakeet repo into deepspeech 3 years ago			`guided_attn_loss_sigma: 0.4 # sigma in guided attention loss`
			`guided_attn_loss_lambda: 10.0 # lambda in guided attention loss`
			`modules_applied_guided_attn: ["encoder-decoder"] # modules to apply guided attention loss`
			`bce_pos_weight: 5.0 # weight of positive sample in binary cross entropy calculation`


			`##########################################################`
			`# OPTIMIZER & SCHEDULER SETTING #`
			`##########################################################`
			`optimizer:`
			`optim: adam # optimizer type`
			`learning_rate: 0.001 # learning rate`

			`###########################################################`
			`# TRAINING SETTING #`
			`###########################################################`
			`max_epoch: 500`
			`num_snapshots: 5`


			`###########################################################`
			`# OTHER SETTING #`
			`###########################################################`
			`seed: 10086`