java - 在 Eclipse 中重新训练 stanford NLP pos tagger

标签 java eclipse nlp pos-tagger

我对 nlp 很陌生,我正在尝试找出 pos 标签。 目前我正在尝试 stanford nlp pos tagger,网址:http://nlp.stanford.edu/software/tagger.shtml

从上面的链接中,有这样一句话:

The tagger can be retrained on any language, given POS-annotated training text for the language.

但是,我无法让它工作。我现在能做的就是给它一个文本文件来标记。例如String test = "this is a test"; 将返回 this_DT is_VBZ a_DT test_NN。

我该如何重新训练标注器?假设我希望以上字符串返回为 this_DT is_VBZ a_DT test_VB?

感谢这里的任何答案。

最佳答案

除非您有一个 POS 标记语料库,其中包含许多您想要纠正的现象/现象的示例,否则您可能无法成功地重新训练标记器模型。澄清一下,根据我对斯坦福大学工具进行训练的期望,没有机制可以添加单个示例来改变模型。您将需要拥有完整的语料库并重新训练。

如果你确实有语料库,那么我会引用这个previously posted question获取有关文件格式的详细信息以及训练斯坦福 CoreNLP 模型的正确步骤。

否则,最好的办法是编写一些覆盖行为的后处理规则/正则表达式模式。此类规则的用途是确保单词列表中的人物和地点被标记为专有名词 (NNP)。

祝你好运!

关于java - 在 Eclipse 中重新训练 stanford NLP pos tagger,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18954471/

相关文章:

java - Eclipse在android中步入类

c++ - 通过 cmake 文件在 Eclipse 中设置编译器特定设置和项目构建位置

jupyter-notebook - 如何解决 google colab 上没有名为 'nltk.translate.meteor_score' 的模块

python - 如何使用 nltk 正则表达式模式来提取特定的短语 block ?

java - 使用带 SI 的文件适配器移动文件

Java 日历日期仍在 UTC 日期 00 :00 上添加时间

java - 为什么 JMF 不使用 Mjsip 处理音频流?

java - 如何在 Blackberry 中使用轨迹球 API?

c - Eclipse 调试 C

nlp - 无趣单词列表