You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
PaddleSpeech/speechx/examples/wfst
Hui Zhang c7d9b11529
format
2 years ago
..
.gitignore add build tlg wfst 2 years ago
README.md format 2 years ago
path.sh add build tlg wfst 2 years ago
run.sh add build tlg wfst 2 years ago
utils add build tlg wfst 2 years ago

README.md

Built TLG wfst

Input

data/local/
├── dict
│   ├── lexicon.txt
│   └── units.txt
└── lm
    ├── heldout
    ├── lm.arpa
    ├── text
    ├── text.no_oov
    ├── train
    ├── unigram.counts
    ├── word.counts
    └── wordlist
==> data/local/dict/lexicon.txt <==
啊 啊
啊啊啊 啊 啊 啊
阿 阿
阿尔 阿 尔
阿根廷 阿 根 廷
阿九 阿 九
阿克 阿 克
阿拉伯数字 阿 拉 伯 数 字
阿拉法特 阿 拉 法 特
阿拉木图 阿 拉 木 图

==> data/local/dict/units.txt <==
<blank>
<unk>
A
B
C
D
E
F
G
H

==> data/local/lm/heldout <==
而 对 楼市 成交 抑制 作用 最 大 的 限 购
也 成为 地方 政府 的 眼中 钉
自 六月 底 呼和浩特 市 率先 宣布 取消 限 购 后
各地 政府 便 纷纷 跟进
仅 一 个 多 月 的 时间 里
除了 北京 上海 广州 深圳 四 个 一 线 城市 和 三亚 之外
四十六 个 限 购 城市 当中
四十一 个 已 正式 取消 或 变相 放松 了 限 购
财政 金融 政策 紧随 其后 而来
显示 出 了 极 强 的 威力

==> data/local/lm/lm.arpa <==

\data\
ngram 1=129356
ngram 2=504661
ngram 3=123455

\1-grams:
-1.531278       </s>
-3.828829       <SPOKEN_NOISE>  -0.1600094
-6.157292       <UNK>

==> data/local/lm/text <==
BAC009S0002W0122 而 对 楼市 成交 抑制 作用 最 大 的 限 购
BAC009S0002W0123 也 成为 地方 政府 的 眼中 钉
BAC009S0002W0124 自 六月 底 呼和浩特 市 率先 宣布 取消 限 购 后
BAC009S0002W0125 各地 政府 便 纷纷 跟进
BAC009S0002W0126 仅 一 个 多 月 的 时间 里
BAC009S0002W0127 除了 北京 上海 广州 深圳 四 个 一 线 城市 和 三亚 之外
BAC009S0002W0128 四十六 个 限 购 城市 当中
BAC009S0002W0129 四十一 个 已 正式 取消 或 变相 放松 了 限 购
BAC009S0002W0130 财政 金融 政策 紧随 其后 而来
BAC009S0002W0131 显示 出 了 极 强 的 威力

==> data/local/lm/text.no_oov <==
<SPOKEN_NOISE> 而 对 楼市 成交 抑制 作用 最 大 的 限 购 
<SPOKEN_NOISE> 也 成为 地方 政府 的 眼中 钉 
<SPOKEN_NOISE> 自 六月 底 呼和浩特 市 率先 宣布 取消 限 购 后 
<SPOKEN_NOISE> 各地 政府 便 纷纷 跟进 
<SPOKEN_NOISE> 仅 一 个 多 月 的 时间 里 
<SPOKEN_NOISE> 除了 北京 上海 广州 深圳 四 个 一 线 城市 和 三亚 之外 
<SPOKEN_NOISE> 四十六 个 限 购 城市 当中 
<SPOKEN_NOISE> 四十一 个 已 正式 取消 或 变相 放松 了 限 购 
<SPOKEN_NOISE> 财政 <20><><EFBFBD>融 政策 紧随 其后 而来 
<SPOKEN_NOISE> 显示 出 了 极 强 的 威力 

==> data/local/lm/train <==
汉莎 不 得 不 通过 这样 的 方式 寻求 新 的 发展 点
并 计划 朝云 计算 方面 发展
汉莎 的 基础 设施 部门 拥有 一千四百 名 员工
媒体 就 曾 披露 这笔 交易
虽然 双方 已经 正式 签署 了 外包 协议
但是 这笔 交易 还 需要 得到 反 垄断 部门 的 批准
陈 黎明 一九八九 年 获得 美国 康乃尔 大学 硕士 学位
并 于 二零零三 年 顺利 完成 美国 哈佛 商学 院 高级 管理 课程
曾 在 多家 国际 公司 任职
拥有 业务 开发 商务 及 企业 治理

==> data/local/lm/unigram.counts <==
  57487 的
  13099 在
  11862 一
  11397 了
  10998 不
   9913 是
   7952 有
   6250 和
   6152 个
   5422 将

==> data/local/lm/word.counts <==
  57486 的
  13098 在
  11861 一
  11396 了
  10997 不
   9912 是
   7951 有
   6249 和
   6151 个
   5421 将

==> data/local/lm/wordlist <==
的
在
一
了
不
是
有
和
个
将

Output

fstaddselfloops 'echo 4234 |' 'echo 123660 |' 
Lexicon and Token FSTs compiling succeeded
arpa2fst --read-symbol-table=data/lang_test/words.txt --keep-symbols=true - 
LOG (arpa2fst[5.5.0~1-5a37]:Read():arpa-file-parser.cc:94) Reading \data\ section.
LOG (arpa2fst[5.5.0~1-5a37]:Read():arpa-file-parser.cc:149) Reading \1-grams: section.
LOG (arpa2fst[5.5.0~1-5a37]:Read():arpa-file-parser.cc:149) Reading \2-grams: section.
LOG (arpa2fst[5.5.0~1-5a37]:Read():arpa-file-parser.cc:149) Reading \3-grams: section.
Checking how stochastic G is (the first of these numbers should be small):
fstisstochastic data/lang_test/G.fst 
0 -1.14386
fsttablecompose data/lang_test/L.fst data/lang_test/G.fst 
fstminimizeencoded 
fstdeterminizestar --use-log=true 
fsttablecompose data/lang_test/T.fst data/lang_test/LG.fst 
Composing decoding graph TLG.fst succeeded
Aishell build TLG done.
data/
├── lang_test
│   ├── G.fst
│   ├── L.fst
│   ├── LG.fst
│   ├── T.fst
│   ├── TLG.fst
│   ├── tokens.txt
│   ├── units.txt
│   └── words.txt
└── local
    ├── lang
    │   ├── L.fst
    │   ├── T.fst
    │   ├── tokens.txt
    │   ├── units.txt
    │   └── words.txt
    └── tmp
        ├── disambig.list
        ├── lexiconp_disambig.txt
        ├── lexiconp.txt
        └── units.list