我已经下载了适用于 Windows 的 TreeTaggerv3.2,并根据 install.txt 对其进行了配置。我正在尝试在 R 中使用 koRpus 包。我已将 kRp.env 设置为 -
set.kRp.env(TT.cmd="C:\\TreeTagger\\bin\\tag-english.bat", lang="en",
preset="en", treetagger="manual", format="file",
TT.tknz=TRUE, encoding="UTF-8" )
.我要标记的数据在一个文件中并试图将其用作 treetag("myfile.txt") 但它抛出错误-
Error in matrix(unlist(strsplit(tagged.text, "\t")), ncol = 3, byrow = TRUE, : 'data' must be of a vector type, was 'NULL'
In addition: Warning message: running command 'C:\windows\system32\cmd.exe /c C:\TreeTagger\bin\tag-english.bat
C:\Users\vivsingh\Desktop\NLP\tree_tag_ex.txt' had status 255
Windows 正在开发独立的 TreeTagger。知道它是如何工作的吗?
最佳答案
在 Bernhard Learns blog 之后尝试对 R 词向量进行词形还原时,我遇到了完全相同的错误和警告使用 Windows 7 和 R 3.4.1 (x64)。使用 textstem 包时也会出现此问题,但 TreeTagger 在 cmd 窗口中正常运行。
我混合了在这篇文章中找到的几个答案,这里是我的步骤和正确运行的代码:
进入 R win_library (~\Documents\R\win-library\3.4\rJava\jri\x64\jri.dll
) 并复制 jri.dll
(谢谢 kravi!)将其替换为父文件夹。
关闭并重启R
library(koRpus)
set.kRp.env(TT.cmd="C:\\TreeTagger\\bin\\tag-english.bat", lang="en", preset="en", treetagger="manual", format="file", TT.tknz=TRUE, encoding="UTF-8")
lemma_tagged <- treetag(lemma_unique$word_clean, treetagger="manual", format="obj", TT.tknz=FALSE , lang="en", TT.options=list(path="c:/TreeTagger", preset="en"))
lemma_tagged_tbl <- tbl_df(lemma_tagged@TT.res)
希望对您有所帮助。
关于r - R 中的树标记器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34988254/