python - 在 airgapped 环境中安装 nltk 数据

我想通过 Pyspark 在 hadoop 集群上利用 NLTK 执行 NLP 任务。我们使用 Anaconda 发行版。集群处于气隙环境中，因此我无法运行 nltk.download()。

我想我需要将数据下载到可以访问互联网的辅助机器上。我从哪里下载它？以及如何将它安装在 hadoop 集群上？我只是复制文件吗？或者 nltk 是否需要知道数据在哪里？是否需要在所有节点上复制数据？

最佳答案

Where do I download it from?

您可以在您的机器上执行 nltk.download()，数据将下载到您的主目录下的文件夹 nltk_data

And how do I install it on the hadoop cluster? Do I just copy the files? Or does nltk needs to know where the data is?

如果您将 nltk_data 复制到执行进程的用户下的计算机上的主文件夹中，就足够了。如果不可能，您可以使用 NLTK_DATA 环境变量来设置位置。参见 How to config nltk data directory from code?对此进行更多讨论

Does the data need to be copied on all nodes?

是

关于python - 在 airgapped 环境中安装 nltk 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41514516/

相关文章：

python - 用于拆分包含逗号的字符串的正则表达式？