我刚刚开始自然语言处理,我想知道如何正确运行 word_tokenize 和 sent_tokenize。我知道 python 已经建议执行以下操作
import nltk
nltk.download('punkt')
但是我们的代理阻止我们使用 python“下载”。 幸运的是,我可以通过http://www.nltk.org/nltk_data/下载文件。
我尝试创建 nltk_data 并在那里提取 punkt,但问题仍然存在。我想知道如何利用您的专业知识来解决这个问题。
最佳答案
已修复!
您不应将 punkt 放在 nltk_data 下,而应在 nltk_data 内创建一个标有“tokenizers”的新文件夹punkt 应该放在里面
示例:
C:\Users\(username)\nltk_data\tokenizers\punkt
关于python - 未找到朋克,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53604895/