r - R 中的树标记器

标签 r pos-tagger treetagger

我已经下载了适用于 Windows 的 TreeTaggerv3.2,并根据 install.txt 对其进行了配置。我正在尝试在 R 中使用 koRpus 包。我已将 kRp.env 设置为 -

set.kRp.env(TT.cmd="C:\\TreeTagger\\bin\\tag-english.bat", lang="en", 
   preset="en", treetagger="manual", format="file", 
    TT.tknz=TRUE, encoding="UTF-8" )

.我要标记的数据在一个文件中并试图将其用作 treetag("myfile.txt") 但它抛出错误-

Error in matrix(unlist(strsplit(tagged.text, "\t")), ncol = 3, byrow = TRUE, : 'data' must be of a vector type, was 'NULL'

In addition: Warning message: running command 'C:\windows\system32\cmd.exe /c C:\TreeTagger\bin\tag-english.bat

C:\Users\vivsingh\Desktop\NLP\tree_tag_ex.txt' had status 255

Windows 正在开发独立的 TreeTagger。知道它是如何工作的吗?

最佳答案

Bernhard Learns blog 之后尝试对 R 词向量进行词形还原时,我遇到了完全相同的错误和警告使用 Windows 7 和 R 3.4.1 (x64)。使用 textstem 包时也会出现此问题,但 TreeTagger 在 cmd 窗口中正常运行。

我混合了在这篇文章中找到的几个答案,这里是我的步骤和正确运行的代码:

进入 R win_library (~\Documents\R\win-library\3.4\rJava\jri\x64\jri.dll) 并复制 jri.dll (谢谢 kravi!)将其替换为父文件夹。

关闭并重启R

library(koRpus)

set.kRp.env(TT.cmd="C:\\TreeTagger\\bin\\tag-english.bat", lang="en", preset="en", treetagger="manual", format="file", TT.tknz=TRUE, encoding="UTF-8")
lemma_tagged <- treetag(lemma_unique$word_clean, treetagger="manual", format="obj", TT.tknz=FALSE , lang="en", TT.options=list(path="c:/TreeTagger", preset="en"))
lemma_tagged_tbl <- tbl_df(lemma_tagged@TT.res)

希望对您有所帮助。

关于r - R 中的树标记器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34988254/

相关文章:

nlp - 为什么 Penn Treebank POS 标签集对 'to' 一词有单独的标签?

python - 使用 Python-Treetaggerwrapper 进行分块

Python-错误 : could not create 'treetagger.egg-info' : Permission denied

r - 如何在 R 中绘制相关矩阵之上的相关图?

r - 使用IBrokers包的问题

python - CESS_ESP 标签的定义

r - 我可以在分组 data.table 时打印一些东西吗?

r - 如何在 Apple Silicon (M1) Mac 上安装 RcppArmadillo

python-3.x - 使用 TF-IDF 或 Word2Vec 从职位描述中提取技能