diff --git a/paddlespeech/t2s/exps/gan_vocoder/preprocess.py b/paddlespeech/t2s/exps/gan_vocoder/preprocess.py
index a30c14a2b..c1513e0c4 100644
--- a/paddlespeech/t2s/exps/gan_vocoder/preprocess.py
+++ b/paddlespeech/t2s/exps/gan_vocoder/preprocess.py
@@ -205,9 +205,9 @@ def main():
 
     if args.dataset == "baker":
         wav_files = sorted(list((rootdir / "Wave").rglob("*.wav")))
-        # split data into 3 sections, the max number of dev/test is 10% or 100
-        num_dev = min(int(len(wav_files) * 0.1), 100)
-        num_train = len(wav_files) - num_dev * 2
+        # split data into 3 sections
+        num_train = 9800
+        num_dev = 100
         train_wav_files = wav_files[:num_train]
         dev_wav_files = wav_files[num_train:num_train + num_dev]
         test_wav_files = wav_files[num_train + num_dev:]
diff --git a/paddlespeech/t2s/exps/jets/preprocess.py b/paddlespeech/t2s/exps/jets/preprocess.py
index 76854c2ee..468941ead 100644
--- a/paddlespeech/t2s/exps/jets/preprocess.py
+++ b/paddlespeech/t2s/exps/jets/preprocess.py
@@ -314,9 +314,9 @@ def main():
 
     if args.dataset == "baker":
         wav_files = sorted(list((rootdir / "Wave").rglob("*.wav")))
-        # split data into 3 sections, the max number of dev/test is 10% or 100
-        num_dev = min(int(len(wav_files) * 0.1), 100)
-        num_train = len(wav_files) - num_dev * 2
+        # split data into 3 sections
+        num_train = 9800
+        num_dev = 100
         train_wav_files = wav_files[:num_train]
         dev_wav_files = wav_files[num_train:num_train + num_dev]
         test_wav_files = wav_files[num_train + num_dev:]
diff --git a/paddlespeech/t2s/exps/speedyspeech/gen_gta_mel.py b/paddlespeech/t2s/exps/speedyspeech/gen_gta_mel.py
index deccfe1e6..31b7d2eac 100644
--- a/paddlespeech/t2s/exps/speedyspeech/gen_gta_mel.py
+++ b/paddlespeech/t2s/exps/speedyspeech/gen_gta_mel.py
@@ -90,9 +90,9 @@ def evaluate(args, speedyspeech_config):
 
     if args.dataset == "baker":
         wav_files = sorted(list((rootdir / "Wave").rglob("*.wav")))
-        # split data into 3 sections, the max number of dev/test is 10% or 100
-        num_dev = min(int(len(wav_files) * 0.1), 100)
-        num_train = len(wav_files) - num_dev * 2
+        # split data into 3 sections
+        num_train = 9800
+        num_dev = 100
         train_wav_files = wav_files[:num_train]
         dev_wav_files = wav_files[num_train:num_train + num_dev]
         test_wav_files = wav_files[num_train + num_dev:]
diff --git a/paddlespeech/t2s/exps/speedyspeech/preprocess.py b/paddlespeech/t2s/exps/speedyspeech/preprocess.py
index af3070614..75a1b0791 100644
--- a/paddlespeech/t2s/exps/speedyspeech/preprocess.py
+++ b/paddlespeech/t2s/exps/speedyspeech/preprocess.py
@@ -237,9 +237,9 @@ def main():
 
     if args.dataset == "baker":
         wav_files = sorted(list((rootdir / "Wave").rglob("*.wav")))
-        # split data into 3 sections, the max number of dev/test is 10% or 100
-        num_dev = min(int(len(wav_files) * 0.1), 100)
-        num_train = len(wav_files) - num_dev * 2
+        # split data into 3 sections
+        num_train = 9800
+        num_dev = 100
         train_wav_files = wav_files[:num_train]
         dev_wav_files = wav_files[num_train:num_train + num_dev]
         test_wav_files = wav_files[num_train + num_dev:]
diff --git a/paddlespeech/t2s/exps/tacotron2/preprocess.py b/paddlespeech/t2s/exps/tacotron2/preprocess.py
index 96eb64616..46b725916 100644
--- a/paddlespeech/t2s/exps/tacotron2/preprocess.py
+++ b/paddlespeech/t2s/exps/tacotron2/preprocess.py
@@ -228,9 +228,9 @@ def main():
 
     if args.dataset == "baker":
         wav_files = sorted(list((rootdir / "Wave").rglob("*.wav")))
-        # split data into 3 sections, the max number of dev/test is 10% or 100
-        num_dev = min(int(len(wav_files) * 0.1), 100)
-        num_train = len(wav_files) - num_dev * 2
+        # split data into 3 sections
+        num_train = 9800
+        num_dev = 100
         train_wav_files = wav_files[:num_train]
         dev_wav_files = wav_files[num_train:num_train + num_dev]
         test_wav_files = wav_files[num_train + num_dev:]
diff --git a/paddlespeech/t2s/exps/vits/preprocess.py b/paddlespeech/t2s/exps/vits/preprocess.py
index c8dca4563..23c959d43 100644
--- a/paddlespeech/t2s/exps/vits/preprocess.py
+++ b/paddlespeech/t2s/exps/vits/preprocess.py
@@ -241,9 +241,9 @@ def main():
 
     if args.dataset == "baker":
         wav_files = sorted(list((rootdir / "Wave").rglob("*.wav")))
-        # split data into 3 sections, the max number of dev/test is 10% or 100
-        num_dev = min(int(len(wav_files) * 0.1), 100)
-        num_train = len(wav_files) - num_dev * 2
+        # split data into 3 sections
+        num_train = 9800
+        num_dev = 100
         train_wav_files = wav_files[:num_train]
         dev_wav_files = wav_files[num_train:num_train + num_dev]
         test_wav_files = wav_files[num_train + num_dev:]