python - 编辑 NLTK 语料库

标签 python nltk corpus tagged-corpus

除了nltk自带的语料库之外,我想用自己的遵循相同词性规则的语料库来训练它。如何找到它正在使用的语料库,以及如何添加我自己的语料库(另外,不是作为替代)?

编辑:这是我当前使用的代码:

inpy = raw_input("$")
text = nltk.word_tokenize(inpy)
d = nltk.pos_tag(text)

最佳答案

NLTK 附带大量不同的语料库。如果您更详细地指定要增强哪个语料库,将会有所帮助。 NLTK 中主要的英语 POS 语料库是 Brown corpus 。另请参阅http://www.nltk.org/book/ch05.html以及http://en.wikipedia.org/wiki/Brown_Corpushttp://www.nltk.org/nltk_data/

关于python - 编辑 NLTK 语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28996432/

相关文章:

python - PySide 文本编辑器

python - 将具有排序的唯一值的嵌套 DataFrame 转换为 Python 中的嵌套字典

python - 查找错误 : Resource 'corpora/stopwords' not found

mysql - 从大型语料表中填充句子

installation - 以编程方式安装 NLTK 语料库/模型,即无需 GUI 下载器?

bash - 使用 AWK 中的第一个字段作为文件名

python - AWS Glue Spark Sagemaker 笔记本出现故障

python - 导入错误 : No module named cryptography. hazmat.backends - Mac 上的 boxsdk

python-3.x - 检查一串单词是否是一个句子

Python:从偏移输入中检索 WordNet 上位词