java - 在 Eclipse 中重新训练 stanford NLP pos tagger

我对 nlp 很陌生，我正在尝试找出 pos 标签。目前我正在尝试 stanford nlp pos tagger，网址:http://nlp.stanford.edu/software/tagger.shtml

从上面的链接中，有这样一句话:

The tagger can be retrained on any language, given POS-annotated training text for the language.

但是，我无法让它工作。我现在能做的就是给它一个文本文件来标记。例如String test = "this is a test"; 将返回 this_DT is_VBZ a_DT test_NN。

我该如何重新训练标注器？假设我希望以上字符串返回为 this_DT is_VBZ a_DT test_VB?

感谢这里的任何答案。

最佳答案

除非您有一个 POS 标记语料库，其中包含许多您想要纠正的现象/现象的示例，否则您可能无法成功地重新训练标记器模型。澄清一下，根据我对斯坦福大学工具进行训练的期望，没有机制可以添加单个示例来改变模型。您将需要拥有完整的语料库并重新训练。

如果你确实有语料库，那么我会引用这个previously posted question获取有关文件格式的详细信息以及训练斯坦福 CoreNLP 模型的正确步骤。

否则，最好的办法是编写一些覆盖行为的后处理规则/正则表达式模式。此类规则的用途是确保单词列表中的人物和地点被标记为专有名词 (NNP)。

祝你好运!

关于java - 在 Eclipse 中重新训练 stanford NLP pos tagger，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18954471/

相关文章：

java - Eclipse在android中步入类