我对 NLP 世界完全陌生,我需要你的帮助来开始使用漂亮的斯坦福词性标注器来标记阿拉伯语句子。
我已经安装了完整版本,其中包含两个经过训练的阿拉伯语标记器。
请指导我使用 java 和 eclipse 在阿拉伯语中应用此标记器,
- 我应该导入什么?
- 我应该向模型添加什么
- 哪些函数和库可以处理阿拉伯语
- 即使不在训练集中,此标记器也能给出正确的标记吗?
事实上,我已经浏览过斯坦福大学的官方网站,但它并没有那么有帮助
提前谢谢
最佳答案
这里是下载斯坦福解析器的链接:nlp.stanford.edu/software/lex-parser.shtml
我希望你已经有了可以工作的Java环境。因此,进入放置解析器文件的目录。
java -mx200m edu.stanford.nlp.parser.lexparser.LexicalizedParser -retainTMPSubcategories -outputFormat "wordsAndTags,penn,typedDependencies" englishPCFG.ser.gz mumbai.txt
mumbai.txt 是输入文件。
但我发现伯克利解析更好。您可以从https://code.google.com/p/berkeleyparser/downloads/list下载
下载阿拉伯语文本的解析器 jar 文件和语法。
然后执行简单的命令:
java -jar BerkeleyParser-1.7gr eng_sm6.gr
现在输入您想要解析的任何句子。
对于 POS,您可以从 http://nlp.stanford.edu/software/tagger.shtml 获取下载
关于java - 使用 stanford pos tagger 进行阿拉伯语标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25974338/