我想通过 Pyspark 在 hadoop 集群上利用 NLTK 执行 NLP 任务。我们使用 Anaconda 发行版。
集群处于气隙环境中,因此我无法运行 nltk.download()
。
我想我需要将数据下载到可以访问互联网的辅助机器上。我从哪里下载它?以及如何将它安装在 hadoop 集群上?我只是复制文件吗?或者 nltk 是否需要知道数据在哪里?是否需要在所有节点上复制数据?
最佳答案
Where do I download it from?
您可以在您的机器上执行 nltk.download()
,数据将下载到您的主目录下的文件夹 nltk_data
And how do I install it on the hadoop cluster? Do I just copy the files? Or does nltk needs to know where the data is?
如果您将 nltk_data
复制到执行进程的用户下的计算机上的主文件夹中,就足够了。如果不可能,您可以使用 NLTK_DATA
环境变量来设置位置。参见 How to config nltk data directory from code?对此进行更多讨论
Does the data need to be copied on all nodes?
是
关于python - 在 airgapped 环境中安装 nltk 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41514516/