我想知道计算文档中字数的最佳方法。如果我有自己的“corp.txt”语料库设置,我想知道“students, trust, ayre”在文件“corp.txt”中出现的频率。我能用什么?
会不会是以下之一:
....
full=nltk.Text(mycorpus.words('FullReport.txt'))
>>> fdist= FreqDist(full)
>>> fdist
<FreqDist with 34133 outcomes>
// HOW WOULD I CALCULATE HOW FREQUENTLY THE WORDS
"students, trust, ayre" occur in full.
谢谢, 雷
最佳答案
我建议查看 collections.Counter。特别是对于大量文本,这很有效并且仅受可用内存的限制。它在具有 12Gb 内存的计算机上一天半内计算了 300 亿个 token 。伪代码(变量词实际上是对文件或类似文件的引用):
from collections import Counter
my_counter = Counter()
for word in Words:
my_counter.update(word)
完成后,单词会在字典 my_counter 中,然后可以将其写入磁盘或存储在其他地方(例如 sqlite)。
关于python - 如何计算语料库文档中的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8139239/