r - R 中的树标记器

我已经下载了适用于 Windows 的 TreeTaggerv3.2，并根据 install.txt 对其进行了配置。我正在尝试在 R 中使用 koRpus 包。我已将 kRp.env 设置为 -

set.kRp.env(TT.cmd="C:\\TreeTagger\\bin\\tag-english.bat", lang="en", 
   preset="en", treetagger="manual", format="file", 
    TT.tknz=TRUE, encoding="UTF-8" )

.我要标记的数据在一个文件中并试图将其用作 treetag("myfile.txt") 但它抛出错误-

Error in matrix(unlist(strsplit(tagged.text, "\t")), ncol = 3, byrow = TRUE, : 'data' must be of a vector type, was 'NULL'

In addition: Warning message: running command 'C:\windows\system32\cmd.exe /c C:\TreeTagger\bin\tag-english.bat

C:\Users\vivsingh\Desktop\NLP\tree_tag_ex.txt' had status 255

Windows 正在开发独立的 TreeTagger。知道它是如何工作的吗？

最佳答案

在 Bernhard Learns blog 之后尝试对 R 词向量进行词形还原时，我遇到了完全相同的错误和警告使用 Windows 7 和 R 3.4.1 (x64)。使用 textstem 包时也会出现此问题，但 TreeTagger 在 cmd 窗口中正常运行。

我混合了在这篇文章中找到的几个答案，这里是我的步骤和正确运行的代码:

进入 R win_library (~\Documents\R\win-library\3.4\rJava\jri\x64\jri.dll) 并复制 jri.dll (谢谢 kravi!)将其替换为父文件夹。

关闭并重启R

library(koRpus)

set.kRp.env(TT.cmd="C:\\TreeTagger\\bin\\tag-english.bat", lang="en", preset="en", treetagger="manual", format="file", TT.tknz=TRUE, encoding="UTF-8")
lemma_tagged <- treetag(lemma_unique$word_clean, treetagger="manual", format="obj", TT.tknz=FALSE , lang="en", TT.options=list(path="c:/TreeTagger", preset="en"))
lemma_tagged_tbl <- tbl_df(lemma_tagged@TT.res)

希望对您有所帮助。

关于r - R 中的树标记器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34988254/

r - R 中的树标记器

上一篇：regex - VIM:在光标位置添加空格

下一篇：r - 如何计算每月的时差？