我对 nlp 很陌生,我正在尝试找出 pos 标签。 目前我正在尝试 stanford nlp pos tagger,网址:http://nlp.stanford.edu/software/tagger.shtml
从上面的链接中,有这样一句话:
The tagger can be retrained on any language, given POS-annotated training text for the language.
但是,我无法让它工作。我现在能做的就是给它一个文本文件来标记。例如String test = "this is a test";
将返回 this_DT is_VBZ a_DT test_NN。
我该如何重新训练标注器?假设我希望以上字符串返回为 this_DT is_VBZ a_DT test_VB?
感谢这里的任何答案。
最佳答案
除非您有一个 POS 标记语料库,其中包含许多您想要纠正的现象/现象的示例,否则您可能无法成功地重新训练标记器模型。澄清一下,根据我对斯坦福大学工具进行训练的期望,没有机制可以添加单个示例来改变模型。您将需要拥有完整的语料库并重新训练。
如果你确实有语料库,那么我会引用这个previously posted question获取有关文件格式的详细信息以及训练斯坦福 CoreNLP 模型的正确步骤。
否则,最好的办法是编写一些覆盖行为的后处理规则/正则表达式模式。此类规则的用途是确保单词列表中的人物和地点被标记为专有名词 (NNP)。
祝你好运!
关于java - 在 Eclipse 中重新训练 stanford NLP pos tagger,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18954471/