python - 在 airgapped 环境中安装 nltk 数据

标签 python hadoop nltk anaconda

我想通过 Pyspark 在 hadoop 集群上利用 NLTK 执行 NLP 任务。我们使用 Anaconda 发行版。 集群处于气隙环境中,因此我无法运行 nltk.download()

我想我需要将数据下载到可以访问互联网的辅助机器上。我从哪里下载它?以及如何将它安装在 hadoop 集群上?我只是复制文件吗?或者 nltk 是否需要知道数据在哪里?是否需要在所有节点上复制数据?

最佳答案

Where do I download it from?

您可以在您的机器上执行 nltk.download(),数据将下载到您的主目录下的文件夹 nltk_data

And how do I install it on the hadoop cluster? Do I just copy the files? Or does nltk needs to know where the data is?

如果您将 nltk_data 复制到执行进程的用户下的计算机上的主文件夹中,就足够了。如果不可能,您可以使用 NLTK_DATA 环境变量来设置位置。参见 How to config nltk data directory from code?对此进行更多讨论

Does the data need to be copied on all nodes?

关于python - 在 airgapped 环境中安装 nltk 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41514516/

相关文章:

python - 用于拆分包含逗号的字符串的正则表达式?

hadoop - 如何在 EMR 上安装 cloudera impala?

hadoop - spark 是否有可能同时读取 HDFS 数据和进行一些计算?

Hadoop - 为单个键生成多个值

python - 从 python 中的计数器中删除停用词列表

python - 使用 'word groups' 创建字典

python - NLTK。检测一个句子是否是疑问句?

python - 给定另一个要从中切片的 id 列表来切片列表的优雅方法

python - 旧版本的 spaCy 在尝试安装模型时抛出 "KeyError: ' 包'"错误

python - 抛出 numpy.array() 异常(对于最初可怕的标题感到抱歉)