python - 如何从文本文件创建自己的 NLTK 文本？

标签 python nltk

我是一名文学研究生，我一直在阅读 O'Reilly 的自然语言处理书籍 (nltk.org/book)。它看起来非常有用。我已经玩过第 1 章中的所有示例文本和示例任务，比如索引。我现在知道白鲸用了多少次“鲸鱼”这个词。问题是，我无法弄清楚如何对我自己的一篇文章进行这些计算。我找到了有关如何创建自己的语料库的信息(O'Reilly 书的第 2 章)，但我不认为这正是我想要做的。也就是说，我希望能够做到

import nltk 
text1.concordance('yellow')

并获取在我的文本中使用“黄色”一词的地方。目前我可以用示例文本做到这一点，但不是我自己的。

我对 python 和编程非常陌生，所以这些东西非常令人兴奋，但也非常令人困惑。

最佳答案

自己找到了答案。这很尴尬。或者很棒。

来自Ch。 3:

f=open('my-file.txt','rU')
raw=f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

成功了。

关于python - 如何从文本文件创建自己的 NLTK 文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10467024/

上一篇：Python pandas，多行的绘图选项

下一篇：python - 推迟代码以供以后在 python 中执行(如 javascript 中的 setTimeout)

相关文章：

python - NLTK(python)中如何处理中文？

nlp - nltk 词干分析器 : string index out of range

machine-learning - 在多类分类中，如何计算每个类的 F1 度量？

使用 cElementTree.iterparse 解析 XML 的 Python 内存不足

python - 如何在Jupyter笔记本中转到函数的定义？

python - Dive Into Python 过时了吗？

python - 无法在 Ubuntu 16.04.5 中安装 geograpy python 包

python - 使用NLTK/Python生成N个随机英文单词的字符串

python - 迭代python中的特定目录

python - 如何修复 TypeError : load() missing 1 required positional argument: 'Loader' error in Colab?