nlp - 需要了解kenlm查询的输出格式

标签 nlp n-gram language-model

kenlm 论文似乎对 LM 有好处。我觉得提供的文档很少,难以理解。

因此,作为了解 kenlm 的一部分,我需要了解查询模型的输出格式。请提供一些详细信息。

我无法在 lm、kenlm 上正确标记,因为标记不可用。

详细信息:

执行:

bin/query trainingdata.binary < temp.txt

输出:

city=274 2 -3.71333 </s>=2 1 -0.914832  Total: -4.62817 OOV: 0

new=1037 2 -2.64194 york=2124 2 -2.27023    </s>=2 1 -0.867251  Total: -5.77943 OOV: 0

samsung=3 2 -2.39176    galaxy=4 3 -0.193832    s5=5 4 -0.536524    </s>=2 5 -0.595418  Total: -3.71753 OOV: 0

fingers=6 2 -4.25789    crossed=7 3 -1.00535    samsung=3 4 -0.766757   </s>=2 5 -0.757035  Total: -6.78703 OOV: 0

jessica=8 2 -3.77437    simpson=9 3 -0.45866    collection=10 4 -1.24209    </s>=2 5 -0.144034  Total: -5.61916 OOV: 0

plexus=11 2 -4.46277    slim=12 3 -0.804323 </s>=2 4 -0.606899  Total: -5.87399 OOV: 0

under=13 2 -3.23437 armour=14 3 -0.575785   outlet=15 4 -1.32109    </s>=2 5 -0.18898   Total: -5.32022 OOV: 0

amazon=16 2 -2.05178    seller=17 3 -2.5683 central=18 4 -0.94366   </s>=2 5 -0.643415  Total: -6.20716 OOV: 0

garcinia=19 2 -2.6464   cambogia=20 3 -0.101819 reviews=21 4 -1.86317   </s>=2 5 -0.0987858 Total: -4.71017 OOV: 0

womens=22 2 -3.10627    organic=23 3 -1.64262   lube.=24 4 -1.12123 </s>=2 5 -0.505745  Total: -6.37587 OOV: 0

doc=25 2 -3.00747   mcstuffins=26 3 -0.130808   </s>=2 4 -0.485077  Total: -3.62336 OOV: 0
</s>=2 1 -0.975736  Total: -0.975736 OOV: 0

Perplexity including OOVs:  30.9347

Perplexity excluding OOVs:  30.9347
OOVs:   0

Total time including destruction:

Name:query  VmPeak:30664 kB VmRSS:1748 kB   RSSMax:3132 kB  user:0.000999   sys:0   CPU:0.000999    real:0.000817598

最佳答案

输出格式是格式中的单词序列

word=ID LENGTH LOG_PROB

其中 ID 是单词的内部 ID(在语言模型中),LENGTH 是 n-gram 匹配的长度,LOG_PROB 是该单词的概率。

关于nlp - 需要了解kenlm查询的输出格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24293394/

相关文章:

python - 使用 NLTK 删除停用词

python-3.x - 使用 NLP 模型查找该语句中存在的特定对象

elasticsearch - 如何获得Elasticsearch为匹配顺序的 token 字符串分配更高的分数?

nlp - 如何使用 Transformers 库从 XLNet 的输出中获取单词

python - 使用 kenlm 的负面结果

nlp - Spacy 手动下载 en_core_web_lg

python - 逆文档频率公式

python - 如果手动加载 wordnet,如何在 synsets (nltk) 中使用语言选项?

elasticsearch - Elasticsearch Edge Ngram token 生成器返回的相关项较少

elasticsearch - Ngram Tokenizer在字段上,不在查询上