python - NLTK - 在没有 Downloader UI 的情况下从命令行下载除 corpara 之外的所有 nltk 数据

我们可以使用以下方式下载所有 nltk 数据:

> import nltk
> nltk.download('all')

或特定数据使用:

> nltk.download('punkt')
> nltk.download('maxent_treebank_pos_tagger')

但我想下载除“corpara”文件之外的所有数据，例如 - 所有词 block 分析器、语法分析器、模型、词干分析器、标记器、分词器等

没有下载器 UI 有什么方法可以做到这一点吗？类似的东西，

> nltk.download('all-taggers')

最佳答案

列出所有语料库 ID 并设置 _status_cache[pkg.id] = 'installed'。

它会将所有语料库的状态值设置为“已安装”，并且当我们使用nltk.download() 时将跳过语料库包。

如果您不确定需要哪个语料库/包，请使用 nltk.download('popular')，而不是下载所有语料库和模型。

import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('popular')

下载特定文件夹的所有包。

import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

关于python - NLTK - 在没有 Downloader UI 的情况下从命令行下载除 corpara 之外的所有 nltk 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38030703/

上一篇：python - 在 any() 语句中迭代一个小列表是否更快？

下一篇：python - 如何有效地获取具有 NaN 值的数据帧的相关矩阵(具有 p 值)？

相关文章：

python - Bert 模型按自己的方式分割单词

python 标记化 UnicodeDecodeError

python - 在表格中垂直显示项目列表而不是水平显示

python - 如何在Python 3.x中获得类似2.x的排序行为？

python - 如何使用 Python 计算 Excel 文件中的工作表总数

python - Sklearn 使用自然语言处理数值数据

python - 如何导入文本文件以适合此聚类算法？

python - Django - 按相关字段对列表进行排序

python - NLTK 中的斯坦福 NER 未正确标记多个句子 - Python

python - 如何使用 NLTK 词干