You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
45 lines
1.5 KiB
45 lines
1.5 KiB
# Text PreProcess for building ngram LM
|
|
|
|
## Input
|
|
|
|
```
|
|
data/
|
|
|-- text
|
|
```
|
|
|
|
Input file is kaldi-style, which has `utt` at first column:
|
|
```
|
|
Y0000000000_--5llN02F84_S00000 怎么样这些日子住得还习惯吧
|
|
Y0000000000_--5llN02F84_S00002 挺好的
|
|
Y0000000000_--5llN02F84_S00003 对了美静这段日子经常不和我们一起用餐
|
|
Y0000000000_--5llN02F84_S00004 是不是对我回来有什么想法啊
|
|
Y0000000000_--5llN02F84_S00005 哪有的事啊
|
|
Y0000000000_--5llN02F84_S00006 她这两天挺累的身体也不太舒服
|
|
Y0000000000_--5llN02F84_S00007 我让她多睡一会那就好如果要是觉得不方便
|
|
Y0000000000_--5llN02F84_S00009 我就搬出去住
|
|
Y0000000000_--5llN02F84_S00010 你看你这个人你就是疑心太重
|
|
Y0000000000_--5llN02F84_S00011 你现在多好一切都井然有序的
|
|
```
|
|
|
|
|
|
## Output
|
|
|
|
```
|
|
data/
|
|
`-- text.tn
|
|
```
|
|
|
|
Output file like this:
|
|
|
|
```
|
|
BAC009S0002W0122 而 对 楼市 成交 抑制 作用 最 大 的 限 购
|
|
BAC009S0002W0123 也 成为 地方 政府 的 眼中 钉
|
|
BAC009S0002W0124 自 六月 底 呼和浩特 市 率先 宣布 取消 限 购 后
|
|
BAC009S0002W0125 各地 政府 便 纷纷 跟进
|
|
BAC009S0002W0126 仅 一 个 多 月 的 时间 里
|
|
BAC009S0002W0127 除了 北京 上海 广州 深圳 四 个 一 线 城市 和 三亚 之外
|
|
BAC009S0002W0128 四十六 个 限 购 城市 当中
|
|
BAC009S0002W0129 四十一 个 已 正式 取消 或 变相 放松 了 限 购
|
|
BAC009S0002W0130 财政 金融 政策 紧随 其后 而来
|
|
```
|