# ngram train for mandarin Quick run: ``` bash run.sh --stage -1 ``` ## input input files: ``` data/ ├── lexicon.txt ├── text └── vocab.txt ``` ``` ==> data/text <== BAC009S0002W0122 而对楼市成交抑制作用最大的限购 BAC009S0002W0123 也成为地方政府的眼中钉 BAC009S0002W0124 自六月底呼和浩特市率先宣布取消限购后 BAC009S0002W0125 各地政府便纷纷跟进 BAC009S0002W0126 仅一个多月的时间里 BAC009S0002W0127 除了北京上海广州深圳四个一线城市和三亚之外 BAC009S0002W0128 四十六个限购城市当中 BAC009S0002W0129 四十一个已正式取消或变相放松了限购 BAC009S0002W0130 财政金融政策紧随其后而来 BAC009S0002W0131 显示出了极强的威力 ==> data/lexicon.txt <== SIL sil sil 啊 aa a1 啊 aa a2 啊 aa a4 啊 aa a5 啊啊啊 aa a2 aa a2 aa a2 啊啊啊 aa a5 aa a5 aa a5 坐地 z uo4 d i4 坐实 z uo4 sh ix2 坐视 z uo4 sh ix4 坐稳 z uo4 uu un3 坐拥 z uo4 ii iong1 坐诊 z uo4 zh en3 坐庄 z uo4 zh uang1 坐姿 z uo4 z iy1 ==> data/vocab.txt <== A B C D E 龙龚龛 ``` ## output ``` data/ ├── local │ ├── dict │ │ ├── lexicon.txt │ │ └── units.txt │ └── lm │ ├── heldout │ ├── lm.arpa │ ├── text │ ├── text.no_oov │ ├── train │ ├── unigram.counts │ ├── word.counts │ └── wordlist ``` ``` /workspace/srilm/bin/i686-m64/ngram-count Namespace(bpemodel=None, in_lexicon='data/lexicon.txt', out_lexicon='data/local/dict/lexicon.txt', unit_file='data/vocab.txt') Ignoring words 矽, which contains oov unit Ignoring words 傩, which contains oov unit Ignoring words 堀, which contains oov unit Ignoring words 莼, which contains oov unit Ignoring words 菰, which contains oov unit Ignoring words 摭, which contains oov unit Ignoring words 帙, which contains oov unit Ignoring words 迨, which contains oov unit Ignoring words 孥, which contains oov unit Ignoring words 瑗, which contains oov unit ... ... ... file data/local/lm/heldout: 10000 sentences, 89496 words, 0 OOVs 0 zeroprobs, logprob= -270337.9 ppl= 521.2819 ppl1= 1048.745 build LM done. ```