java - 使用 stanford pos tagger 进行阿拉伯语标记

标签 java arabic stanford-nlp pos-tagger

我对 NLP 世界完全陌生,我需要你的帮助来开始使用漂亮的斯坦福词性标注器来标记阿拉伯语句子。

我已经安装了完整版本,其中包含两个经过训练的阿拉伯语标记器。

请指导我使用 java 和 eclipse 在阿拉伯语中应用此标记器,

  1. 我应该导入什么?
  2. 我应该向模型添加什么
  3. 哪些函数和库可以处理阿拉伯语
  4. 即使不在训练集中,此标记器也能给出正确的标记吗?

事实上,我已经浏览过斯坦福大学的官方网站,但它并没有那么有帮助

提前谢谢

最佳答案

这里是下载斯坦福解析器的链接:nlp.stanford.edu/software/lex-parser.shtml

我希望你已经有了可以工作的Java环境。因此,进入放置解析器文件的目录。

java -mx200m edu.stanford.nlp.parser.lexparser.LexicalizedParser -retainTMPSubcategories -outputFormat "wordsAndTags,penn,typedDependencies" englishPCFG.ser.gz mumbai.txt

mumbai.txt 是输入文件。

但我发现伯克利解析更好。您可以从https://code.google.com/p/berkeleyparser/downloads/list下载

下载阿拉伯语文本的解析器 jar 文件和语法。

然后执行简单的命令:

java -jar BerkeleyParser-1.7gr eng_sm6.gr 

现在输入您想要解析的任何句子。

对于 POS,您可以从 http://nlp.stanford.edu/software/tagger.shtml 获取下载

关于java - 使用 stanford pos tagger 进行阿拉伯语标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25974338/

相关文章:

javac 根据赋值方法不同地处理 static final

java - 何时创建以编程方式添加的 fragment View ?

java - 两个完全相同的阿拉伯字母 "as they appear"在 NetBeans 中不相等

nlp - 用于生成基于 NLP 的文本注释器的性能报告的实用程序

java - 在镜头之间添加延迟(按键)

java - 当作为字符串传递时,为什么相同的数组不被视为相等?

javascript - 下载的 Excel 中的阿拉伯字符出现错误

php - 如何使用PHP和MYSQL将mysql数据库中的垃圾字符与阿拉伯字母匹配

python - 如何安装和调用 Stanford NERTagger?

java - 如何禁用斯坦福 POS 标记器的日志消息?