add ngram lm egs

4 years ago · bedbfac5a2
parent db022fac6e
commit bedbfac5a2
12 changed files with 1974 additions and 0 deletions
--- a/examples/ngram_lm/.gitignore
+++ b/examples/ngram_lm/.gitignore
@ -0,0 +1 @@
 exp/
--- a/examples/ngram_lm/data/README.md
+++ b/examples/ngram_lm/data/README.md
@ -0,0 +1,2 @@
 text_correct.txt: https://github.com/shibing624/pycorrector/raw/master/tests/test_file.txt
 custom_confusion.txt: https://github.com/shibing624/pycorrector/raw/master/tests/custom_confusion.txt
--- a/examples/ngram_lm/data/custom_confusion.txt
+++ b/examples/ngram_lm/data/custom_confusion.txt
--- a/examples/ngram_lm/data/text_correct.txt
+++ b/examples/ngram_lm/data/text_correct.txt
@ -0,0 +1,220 @@
 少先队员因该为老人让坐
 祛痘印可以吗？有效果吗？
 不知这款牛奶口感怎样？ 小孩子喝行吗！
 是转基因油?
 我家宝宝13斤用多大码的
 会起坨吗？
 请问给送上楼吗？
 亲是送赁上门吗
 送货时候有外包装没有还是直接发货过来
 会不会有坏的？
 这个米煮粥好还煮饭好吃
 有送的马克杯吗？
 这纸尿裤分男孩女孩使用吗
 买的路由器老是断网，拔了跳过路由器就可以用了
 能泡开不？辣度几
 请问这个米蒸出来是一粒一粒的还是一坨一坨的？
 水和其他商品一样送货上门，还是自提呀？
 快两个月的孩子 要穿什么码的
 买回来会不会过期？
 洗的还干净把吧
 路由器怎么样啊，掉线严重吗？
 你好这米是五斤还是十斤
 收安费不
 给送开果器吗
 这纸好用吗？我看有不少的差评
 自用好用吗
 请问袜子穿久了会往下掉吗？
 每一卷是独立包装的吗？
 这个火龙果口味怎么样？甜不甜？
 买这个送红杯吗？
 一袋子多少斤
 这款拉拉裤有味道吗？超市买的没有味道，不知道这个怎么样
 我想问下拉拉裤上面那个贴的用来干嘛的，怎么用
 这里边有没有枣核
 玫瑰和薰衣草哪个好闻
 这个冰糖质量怎么样，有杂质吗
 倒水的时候漏吗
 请问大家，这个水壶烧出来的水有异味吗？因为给宝宝用所以很在意，谢谢大家
 这米煮出来糯吗？
 这在款子好用吗？有香味吗？
 到底是棉花的材质还是化纤的无纺布啊 求问？
 我用360手机能充电几次
 亲这纸好用吗？值得买吗？
 24瓶？还是12瓶
 是否是真的纸？
 适用机洗吗?
 好吃不好吃啊
 真的好用吗？我也想买 
 你们拿到是什么版本的
 这水和超市一样吗？质量保证吗？
 可以丢进马桶冲吗？
 纸会不会粗？
 这个翠的还不是不催的呀。。没有吃的那种不脆
 这个好用吗
 这纸有香味的吗？
 是最近的生产日期吗
 赠品是什么呀
 这是两瓶还是一瓶的价格？
 请问这是硬壳还是软壳？
 亲，苹果收到后有坏的吗？
 适合两人用吗
 这个直接喝好不好喝   还是要热一下
 纸有木有刺鼻气味？
 酸不酸？？？
 这啤好渴吗?
 跟安慕希哪个比较好喝？
 好用么，主要是带宝宝出去玩的时候用的多？
 刚出生的宝宝用什么码？
 能当洗手液吗？
 是不是很小包的那一种？50块有24包便宜的有点不敢相信
 好用吗，会不会起会不会起坨？
 这个口可以直接放饮水机上用吗？
 这种纸掉粉末吗
 手机好用吗？会卡吗
 开盖里面是拉环的吗？
 这个电池真的需要一直换吗？
 好用吗？是不是正品？
 请问有尿显吗
 容易发烫吗
 苹果有腊吗
 这油有这么好吗？不是过期的吧
 这个夏天用会不会红屁股？透气性好吗
 你好。 我想问下这个是尿不湿吗 ？
 这奶为啥这么便宜？
 你们买的酱油会没有颜色吗，像水一样，看着都没胃口
 这个是机诜，还是手洗
 这个卫生巾带香味吗？
 这种洗发水好用吗
 有餡嗎？好不好吃
 纸质不会好差吗？
 亲们，此米是真空包装吗？
 是软毛的吗？！！
 请问大家德运牌子的好喝还是安佳的？
 这纸好用吗，薄嘛
 这壶保温吗
 这个威露士货到了就是跟图片上的一样吗？只要是图片上显示的都有吗？
 你们买的牛奶是最近日期吗
 这个除菌液，是单独放在滚筒洗衣机除菌液格，还是与洗衣液混合放在洗衣液格？
 请问你们的三只松鼠寄回来的时候是用袋子装着的吗
 1kg是不是两斤？
 洗衣皂怎么样啊，味道重吗，用之后好不好清洗啊。
 我要请问你这个是不是那个拉拉裤吗？这个花纹是不是拉拉裤？
 好多人都说小米运动升级后手环就连不上了，你们有没有这种情况？
 这部手机运行速度快不快？
 新生儿可以用吗 抽一张会带出来很多张吗
 洗后有香味吗
 体验装有多少片
 银装怎么样？会漏尿吗？你们都是多久换一次的？？（我家大概2-3个小时左右，宝宝醒一回换一次）
 声音大吗？好用不？
 抽纸有味吗
 苹果好吃吗？打过蜡吗？是不是坏的很多？
 70g和80g得区别是啥？
 袋装的和瓶装的洗衣液是一样的么？
 噪音很大吗
 烧出来的水会不会很多一块一块的东西
 这个吹风真心好用吗？我今晚下单什么时候到
 请问各位宝妈 这个乳垫的背胶粘吗
 M号的你们给宝宝用到多大啊？几个月？我家宝宝3个月5㎏重，用花王的M号觉得小了。不知道这个怎么样？
 这个喝了能找到女朋友吗
 这袜子耐不耐穿
 请问好用么  是正品么
 怎么储藏 我买了两天在常温阴凉处放着下层有些化了 需要放冰箱冷冻吗
 这批苏打水是否有股消毒水的味道？
 质量怎么样，看到那么多差评，我不敢买了。
 会不会有烂的
 为什么我买的用完之后没香味
 甜吗？？？？
 我看到评论里的差评说大米里有虫，是真的吗？
 要放冰箱冷藏吗
 好不好吃啊
 这油怎么样   炒菜香不香
 这纸擦手时有屑吗？
 是正品的吗？
 好用吗
 这个特浓的苦不苦
 这个好用吗？
 米里真的有虫吗
 是金装的吗？
 双内胆有什么区别，两个一样的吗？
 请问这款水可以降尿酸吗？
 好用吗这个
 购物袋结实吗，能放重东西吗
 你好，请问这款可以剃头发刮光头吗
 这个纸巾质量如何？好用吗？
 好用吗？小孩子喜欢吗？
 亲。煮面时会糊锅不
 包邮吗运费多少
 会一抽就两三张一起抽起来吗？
 一箱几桶油呀
 这个吹风机分冷风和热风吗
 发什么快递呢
 请问一下，有些枸杞说是不要洗，你们的是否建议洗呢？
 请问纸有异味吗？我以前买过一箱就是这个居然有异味。
 这是6个么  怎么觉得有好多
 我买的荣耀10横滑home键进入后台这个操作成功率特别低，你们也是这样吗？
 你们的有塑料味吗，机械的
 小米路由器真心说的有这么差吗
 请问大家这款刮的干净吗？谢谢
 会有塑料味吗
 质量真的很差吗？不敢买
 这纸有气味吗
 我买两箱怎么要运费
 这个标准果好吃吗，酸不酸
 稀吗？是不是有种兑了水的感觉？
 威露士和滴露的消毒液哪个更好用呢？
 曰期是几月份的
 手机容易折弯吗？
 我家宝宝25斤XL会紧吗？
 这款200克一箱的纸张和10卷手提的价格相差那么多 质量一样吗？
 豆浆可以打吗
 电量有百分比吗
 用快递送过来瓶子会不会打破
 是三相电吗，有空调摇控器吧
 拿它送人，有问题吗？？
 安幕希好喝吗？
 这款纸尿裤好用吗？和尤妮佳比较哪个好用些？
 2层厚吗？是不是一到水就烂了
 为什么我宝宝拉粑粑后面总是漏出来我已经贴的很牢了，10斤的宝宝用S号也不小啊你们用了没这种情况吗？
 这个产品好用吗？
 刷毛柔软度咋样，这么便宜，会不会是很小个的
 会不会有过敏的情况呀
 请问是辣条吗
 这种米只能煮粥不能煮饭吗
 可以开袋即食吗？
 这米好吃吗？
 这个充电宝充满电需要多久
 这个奶开了可以保质喝两天吗
 这种薰衣草的洗衣液怎么样
 你们的小米六边框掉漆了吗？？？
 这个是机洗用还是手洗用的啊
 厚度怎么样、起球吗感谢大哥大姐们
 这个好喝还是康师傅红茶好喝
 这种洁面膏会不会过敏，我上次用的火山岩冰感洁面啫喱对那种过敏，但听别人说那种稀的本来就特别容易过敏，不知道这种洁面膏会不会过敏！
 这杯那么多差评，是真的吗，吓得我都不敢买了
 枣是免洗的吗？
 这个尿不湿尿过会起坨吗
 感觉和苏菲比哪个更好用呢？
 煮出来的饭香吗？
 你好！请问这个水壶烧水开了是自动切电吗？
 这个跟 原木纯品 那个啥区别？不是原木纸浆做的？
 能放冰箱吗
 纸有味道吗？
 2016全国高考卷答题模板
 2016全国大考卷答题模板
 2016全国低考卷答题模板
 床前明月光，疑是地上霜
 床前星星光，疑是地上霜
 床前白月光，疑是地上霜
 落霞与孤鹜齐飞，秋水共长天一色
 落霞与孤鹜齐跑，秋水共长天一色
 落霞与孤鹜双飞，秋水共长天一色
 众里寻他千百度，蓦然回首，那人却在，灯火阑珊处
 众里寻她千百度，蓦然回首，那人却在，灯火阑珊处
 众里寻ta千百度，蓦然回首，那人却在，灯火阑珊处
 吸烟的人容*得癌症
 就只听着我*妈所说的话，
 就接受环境污*用化肥和农药，
 是或者接受环境污染用化肥和农药，
 现在的香港比从前的*荣很多。
 现在的香港比*前的饭荣很多。
--- a/examples/ngram_lm/local/build_zh_lm.sh
+++ b/examples/ngram_lm/local/build_zh_lm.sh
@ -0,0 +1,37 @@
 #!/bin/bash
 set -e
 stage=0
 stop_stage=100
 order=5
 mem=80%
 prune=0
 a=22
 q=8
 b=8
 source ${MAIN_ROOT}/utils/parse_options.sh || exit 1;
 if [ $# != 3 ]; then
    echo "$0 token_type exp/text exp/text.arpa"
    echo $@
    exit 1
 fi
 # char or word
 type=$1
 text=$2
 arpa=$3
 if [ $stage -le 0 ] && [ $stop_stage -ge 0 ];then
    # text tn & wordseg preprocess
    echo "process text."
    python3 local/zh_preprocess.py ${type} ${text} ${text}.${type}.tn
 fi
 if [ $stage -le 1 ] && [ $stop_stage -ge 1 ];then
    # train ngram lm
    echo "build lm."
    bash local/ngram_train.sh --order ${order} --mem ${mem} --prune "${prune}" ${text}.${type}.tn ${arpa}
 fi
--- a/examples/ngram_lm/local/download_lm_zh.sh
+++ b/examples/ngram_lm/local/download_lm_zh.sh
@ -0,0 +1,21 @@
 #! /usr/bin/env bash
 . ${MAIN_ROOT}/utils/utility.sh
 DIR=data/lm
 mkdir -p ${DIR}
 URL='https://deepspeech.bj.bcebos.com/zh_lm/zh_giga.no_cna_cmn.prune01244.klm'
 MD5="29e02312deb2e59b3c8686c7966d4fe3"
 TARGET=${DIR}/zh_giga.no_cna_cmn.prune01244.klm
 echo "Download language model ..."
 download $URL $MD5 $TARGET
 if [ $? -ne 0 ]; then
    echo "Fail to download the language model!"
    exit 1
 fi
 exit 0
--- a/examples/ngram_lm/local/kenlm_score_test.py
+++ b/examples/ngram_lm/local/kenlm_score_test.py
@ -0,0 +1,167 @@
 import kenlm
 import jieba
 import time
 import os
 import sys
 language_model_path = sys.argv[1]
 assert os.path.exists(language_model_path)
 start = time.time()
 model = kenlm.Model(language_model_path)
 print(f"load kenLM cost: {time.time() - start}s")
 sentence = '盘点不怕被税的海淘网站❗️海淘向来便宜又保真！'
 sentence_char_split = ' '.join(list(sentence))
 sentence_word_split = ' '.join(jieba.lcut(sentence))
 def test_score():
    print('Loaded language model: %s' % language_model_path)
    print(sentence)
    print(model.score(sentence))
    print(list(model.full_scores(sentence)))
    for i, v in enumerate(model.full_scores(sentence)):
        print(i, v)
    print(sentence_char_split)
    print(model.score(sentence_char_split))
    print(list(model.full_scores(sentence_char_split)))
    split_size = 0
    for i, v in enumerate(model.full_scores(sentence_char_split)):
        print(i, v)
        split_size += 1
    assert split_size == len(sentence_char_split.split()) + 1, "error split size."
    print(sentence_word_split)
    print(model.score(sentence_word_split))
    print(list(model.full_scores(sentence_word_split)))
    for i, v in enumerate(model.full_scores(sentence_word_split)):
        print(i, v)
 def test_full_scores_chars():
    print('Loaded language model: %s' % language_model_path)
    print(sentence_char_split)
    # Show scores and n-gram matches
    words = ['<s>'] + list(sentence) + ['</s>']
    for i, (prob, length, oov) in enumerate(model.full_scores(sentence_char_split)):
        print('{0} {1}: {2}'.format(prob, length, ' '.join(words[i + 2 - length:i + 2])))
        if oov:
            print('\t"{0}" is an OOV'.format(words[i + 1]))
    print("-" * 42)
    # Find out-of-vocabulary words
    oov = []
    for w in words:
        if w not in model:
            print('"{0}" is an OOV'.format(w))
            oov.append(w)
    assert oov == ["❗", "️", "！"], 'error oov'
 def test_full_scores_words():
    print('Loaded language model: %s' % language_model_path)
    print(sentence_word_split)
    # Show scores and n-gram matches
    words = ['<s>'] + sentence_word_split.split() + ['</s>']
    for i, (prob, length, oov) in enumerate(model.full_scores(sentence_word_split)):
        print('{0} {1}: {2}'.format(prob, length, ' '.join(words[i + 2 - length:i + 2])))
        if oov:
            print('\t"{0}" is an OOV'.format(words[i + 1]))
    print("-" * 42)
    # Find out-of-vocabulary words
    oov = []
    for w in words:
        if w not in model:
            print('"{0}" is an OOV'.format(w))
            oov.append(w)
    # zh_giga.no_cna_cmn.prune01244.klm is chinese charactor LM 
    assert oov == ["盘点", "不怕", "网站", "❗", "️", "海淘", "向来", "便宜", "保真", "！"], 'error oov'
 def test_full_scores_chars_length():
    """test bos eos size"""
    print('Loaded language model: %s' % language_model_path)
    r = list(model.full_scores(sentence_char_split))
    n = list(model.full_scores(sentence_char_split, bos=False, eos=False))
    print(r)
    print(n)
    assert len(r) == len(n) + 1
    # bos=False, eos=False, input len == output len
    print(len(n), len(sentence_char_split.split()))
    assert len(n) == len(sentence_char_split.split())
    k = list(model.full_scores(sentence_char_split, bos=False, eos=True))
    print(k, len(k))
 def test_ppl_sentence():
    """测试句子粒度的ppl得分"""
    sentence_char_split1 = ' '.join('先救挨饿的人，然后治疗病人。')
    sentence_char_split2 = ' '.join('先就挨饿的人，然后治疗病人。')
    n = model.perplexity(sentence_char_split1)
    print('1', n)
    n = model.perplexity(sentence_char_split2)
    print(n)
    part_char_split1 = ' '.join('先救挨饿的人')
    part_char_split2 = ' '.join('先就挨饿的人')
    n = model.perplexity(part_char_split1)
    print('2', n)
    n = model.perplexity(part_char_split2)
    print(n)
    part_char_split1 = '先救挨'
    part_char_split2 = '先就挨'
    n1 = model.perplexity(part_char_split1)
    print('3', n1)
    n2 = model.perplexity(part_char_split2)
    print(n2)
    assert n1 == n2
    part_char_split1 = '先 救 挨'
    part_char_split2 = '先 就 挨'
    n1 = model.perplexity(part_char_split1)
    print('4', n1)
    n2 = model.perplexity(part_char_split2)
    print(n2)
    part_char_split1 = '先 救 挨 饿 的 人'
    part_char_split2 = '先 就 挨 饿 的 人'
    n1 = model.perplexity(part_char_split1)
    print('5', n1)
    n2 = model.perplexity(part_char_split2)
    print(n2)
    part_char_split1 = '先 救 挨 饿 的 人 ，'
    part_char_split2 = '先 就 挨 饿 的 人 ，'
    n1 = model.perplexity(part_char_split1)
    print('6', n1)
    n2 = model.perplexity(part_char_split2)
    print(n2)
    part_char_split1 = '先 救 挨 饿 的 人 ， 然 后 治 疗 病 人'
    part_char_split2 = '先 就 挨 饿 的 人 ， 然 后 治 疗 病 人'
    n1 = model.perplexity(part_char_split1)
    print('7', n1)
    n2 = model.perplexity(part_char_split2)
    print(n2)
    part_char_split1 = '先 救 挨 饿 的 人 ， 然 后 治 疗 病 人 。'
    part_char_split2 = '先 就 挨 饿 的 人 ， 然 后 治 疗 病 人 。'
    n1 = model.perplexity(part_char_split1)
    print('8', n1)
    n2 = model.perplexity(part_char_split2)
    print(n2)
 if __name__ == '__main__':
    test_score()
    test_full_scores_chars()
    test_full_scores_words()
    test_full_scores_chars_length()
    test_ppl_sentence()
--- a/examples/ngram_lm/local/ngram_train.sh
+++ b/examples/ngram_lm/local/ngram_train.sh
@ -0,0 +1,29 @@
 #!/bin/bash
 set -e
 order=5
 mem=80%
 prune=0
 a=22
 q=8
 b=8
 source ${MAIN_ROOT}/utils/parse_options.sh || exit 1;
 if [ $# != 2 ]; then
    echo "$0 exp/text exp/text.arpa"
    exit 1
 fi
 text=${1}
 arpa=${2}
 lmbin=${2}.klm.bin
 # https://kheafield.com/code/kenlm/estimation/
 echo "build arpa lm."
 lmplz -o ${order} -S ${mem} --prune ${prune} < ${text} >${arpa} || { echo "train kenlm error!"; exit -1; }
 # https://kheafield.com/code/kenlm/
 echo "build binary lm."
 build_binary -a ${a} -q ${q} -b ${b} trie ${arpa} ${lmbin} || { echo "build kenlm binary error!"; exit -1; }
--- a/examples/ngram_lm/local/zh_preprocess.py
+++ b/examples/ngram_lm/local/zh_preprocess.py
@ -0,0 +1,55 @@
 #!/usr/bin/env python3
 from typing import List, Text
 import sys
 import jieba
 import string
 import re
 from zhon import hanzi
 def char_token(s: Text) -> List[Text]:
    return list(s)
 def word_token(s: Text) -> List[Text]:
    return jieba.lcut(s)
 def tn(s: Text) -> Text:
    s = s.strip()
    s = s.replace('*', '')
    # rm english punctuations
    s = re.sub(f'[re.escape(string.punctuation)]' , "", s)
    # rm chinese punctuations
    s = re.sub(f'[{hanzi.punctuation}]', "", s)
    # text normalization
    # rm english
    s = ''.join(re.findall(hanzi.sent, s))
    return s
 def main(infile, outfile, tokenizer=None):
    with open(infile, 'rt') as fin, open(outfile, 'wt') as fout:
        lines = fin.readlines()
        for l in lines:
            l = tn(l)
            if tokenizer:
                l = ' '.join(tokenizer(l))
            fout.write(l)
            fout.write('\n')
 if __name__ == '__main__':
    if len(sys.argv) != 4:
        print(f"sys.arv[0] [char|word] text text_out ")
        exit(-1)
    token_type = sys.argv[1]
    text = sys.argv[2]
    text_out = sys.argv[3]
    if token_type == 'char':
        tokenizer = char_token
    elif token_type == 'word':
        tokenizer = word_token
    else:
        tokenizer = None
    main(text, text_out, tokenizer)
--- a/examples/ngram_lm/path.sh
+++ b/examples/ngram_lm/path.sh
@ -0,0 +1,13 @@
 export MAIN_ROOT=${PWD}/../../
 export PATH=${MAIN_ROOT}:${PWD}/tools:${PATH}
 export LC_ALL=C
 # Use UTF-8 in Python to avoid UnicodeDecodeError when LC_ALL=C
 export PYTHONIOENCODING=UTF-8
 export PYTHONPATH=${MAIN_ROOT}:${PYTHONPATH}
 export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/lib/
 MODEL=deepspeech2
 export BIN_DIR=${MAIN_ROOT}/deepspeech/exps/${MODEL}/bin
--- a/examples/ngram_lm/requirements.txt
+++ b/examples/ngram_lm/requirements.txt
@ -0,0 +1 @@
 jieba>=0.39
--- a/examples/ngram_lm/run.sh
+++ b/examples/ngram_lm/run.sh
@ -0,0 +1,57 @@
 #!/bin/bash
 set -e
 source path.sh
 stage=0
 stop_stage=100
 source ${MAIN_ROOT}/utils/parse_options.sh || exit -1
 python3 -c 'import kenlm;' || { echo "kenlm package not install!"; exit -1; }
 if [ $stage -le 0 ] && [ $stop_stage -ge 0 ];then
    # case 1, test kenlm
    # download language model
    bash local/download_lm_zh.sh
    if [ $? -ne 0 ]; then
       exit 1
    fi
    # test kenlm `score` and `full_score`
    python local/kenlm_score_test.py data/lm/zh_giga.no_cna_cmn.prune01244.klm
 fi
 mkdir -p exp
 cp data/text_correct.txt exp/text
 if [ $stage -le 1 ] && [ $stop_stage -ge 1 ];then
    # case 2, chinese chararctor ngram lm build
    # output: xxx.arpa xxx.kenlm.bin
    input=exp/text
    token_type=char
    lang=zh
    order=5
    prune="0 1 2 4 4"
    a=22
    q=8
    b=8
    output=${input}_${lang}_${token_type}_o${order}_p${prune// /_}_a${a}_q${q}_b${b}.arpa
    echo "build ${token_type} lm."
    bash local/build_zh_lm.sh --order ${order} --prune "${prune}" --a ${a} --q ${a} --b ${b} ${token_type} ${input} ${output}
 fi
 if [ $stage -le 2 ] && [ $stop_stage -ge 2 ];then
    # case 2, chinese chararctor ngram lm build
    # output: xxx.arpa xxx.kenlm.bin
    input=exp/text
    token_type=word
    lang=zh
    order=3
    prune="0 0 0"
    a=22
    q=8
    b=8
    output=${input}_${lang}_${token_type}_o${order}_p${prune// /_}_a${a}_q${q}_b${b}.arpa
    echo "build ${token_type} lm."
    bash local/build_zh_lm.sh --order ${order} --prune "${prune}" --a ${a} --q ${a} --b ${b} ${token_type} ${input} ${output}
 fi
		`@ -0,0 +1,2 @@`
							`text_correct.txt: https://github.com/shibing624/pycorrector/raw/master/tests/test_file.txt`
							`custom_confusion.txt: https://github.com/shibing624/pycorrector/raw/master/tests/custom_confusion.txt`