PaddleSpeech/cloud/split_data.py

"""This tool is used for splitting data into each node of
paddlecloud. This script should be called in paddlecloud.
"""
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import os
import json
import argparse

parser = argparse.ArgumentParser(description=__doc__)
parser.add_argument(
    "--in_manifest_path",
    type=str,
    required=True,
    help="Input manifest path for all nodes.")
parser.add_argument(
    "--out_manifest_path",
    type=str,
    required=True,
    help="Output manifest file path for current node.")
args = parser.parse_args()


def split_data(in_manifest_path, out_manifest_path):
    with open("/trainer_id", "r") as f:
        trainer_id = int(f.readline()[:-1])
    with open("/trainer_count", "r") as f:
        trainer_count = int(f.readline()[:-1])

    out_manifest = []
    for index, json_line in enumerate(open(in_manifest_path, 'r')):
        if (index % trainer_count) == trainer_id:
            out_manifest.append("%s\n" % json_line.strip())
    with open(out_manifest_path, 'w') as f:
        f.writelines(out_manifest)


if __name__ == '__main__':
    split_data(args.in_manifest_path, args.out_manifest_path)
Fix some syntax errors. 7 years ago			`"""This tool is used for splitting data into each node of`
Seperate data uploading from job summission for DS2 cloud training and add support for multiple shards uploading. 7 years ago			`paddlecloud. This script should be called in paddlecloud.`
Refine submitting scripts for deepspeech2 on paddle cloud. 7 years ago			`"""`
Fix some syntax errors. 7 years ago			`from __future__ import absolute_import`
			`from __future__ import division`
			`from __future__ import print_function`
Bug fix and refine cloud training for DS2. Summary: 1. Add missing is_local argument (when set False, use pserver). 2. Add exception thrown if cp failed. 3. Add cloud mkdir if not cloud path for uploading does not exist. 4. Fix a bug using common path ./local_manifest for all nodes. (convert to /local_manifest) 5. Refine coding style. 7 years ago
Refine submitting scripts for deepspeech2 on paddle cloud. 7 years ago			`import os`
			`import json`
			`import argparse`

			`parser = argparse.ArgumentParser(description=__doc__)`
			`parser.add_argument(`
			`"--in_manifest_path",`
			`type=str,`
Seperate data uploading from job summission for DS2 cloud training and add support for multiple shards uploading. 7 years ago			`required=True,`
			`help="Input manifest path for all nodes.")`
Refine submitting scripts for deepspeech2 on paddle cloud. 7 years ago			`parser.add_argument(`
			`"--out_manifest_path",`
			`type=str,`
Seperate data uploading from job summission for DS2 cloud training and add support for multiple shards uploading. 7 years ago			`required=True,`
			`help="Output manifest file path for current node.")`
Refine submitting scripts for deepspeech2 on paddle cloud. 7 years ago			`args = parser.parse_args()`


Seperate data uploading from job summission for DS2 cloud training and add support for multiple shards uploading. 7 years ago			`def split_data(in_manifest_path, out_manifest_path):`
Refine submitting scripts for deepspeech2 on paddle cloud. 7 years ago			`with open("/trainer_id", "r") as f:`
			`trainer_id = int(f.readline()[:-1])`
			`with open("/trainer_count", "r") as f:`
			`trainer_count = int(f.readline()[:-1])`

Seperate data uploading from job summission for DS2 cloud training and add support for multiple shards uploading. 7 years ago			`out_manifest = []`
			`for index, json_line in enumerate(open(in_manifest_path, 'r')):`
Refine submitting scripts for deepspeech2 on paddle cloud. 7 years ago			`if (index % trainer_count) == trainer_id:`
Seperate data uploading from job summission for DS2 cloud training and add support for multiple shards uploading. 7 years ago			`out_manifest.append("%s\n" % json_line.strip())`
			`with open(out_manifest_path, 'w') as f:`
			`f.writelines(out_manifest)`
Refine submitting scripts for deepspeech2 on paddle cloud. 7 years ago

			`if __name__ == '__main__':`
Seperate data uploading from job summission for DS2 cloud training and add support for multiple shards uploading. 7 years ago			`split_data(args.in_manifest_path, args.out_manifest_path)`