Java 自然语言解析器

标签 java parsing nlp

我正在寻找一个能够执行以下操作的 java 解析器(或生成的解析器):

  1. 我将提供已经带有词性标记的句子。我将使用我自己的标签集。
  2. 我没有任何统计数据。因此,如果解析器是统计性的,我希望能够在没有此功能的情况下使用它。
  3. 轻松适应其他语言。学习曲线低

最佳答案

Stanford Parser (在其他问题中列出)将执行您列出的所有操作。

您可以提供自己的 POS 标签,但如果它们尚未采用该格式,则需要对 Penn TreeBank 集进行一些转换。解析器要么是统计性的,要么不是。如果不是,您需要一套语法规则。除了作为玩具之外,不再真正以这种方式构建解析器,因为它们真的很糟糕™。因此,您可以依赖斯坦福解析器使用的统计数据(无需您进行额外的工作)。然而,这确实意味着有关您自己的标签的统计信息(如果它们没有直接映射到 Penn TreeBank 标签)将被忽略。但由于您无论如何都没有标签的统计信息,所以这应该是预料之中的。

他们也有针对其他几种语言进行过培训的解析器,但是如果您想使用他们没有的语言,您将需要自己的标记数据。无论您使用哪种解析器,都无法回避这个问题。

如果您了解 Java(我假设您了解),Stanford Parser 非常简单且易于上手。他们的邮件列表也是一个很好的资源并且相当活跃。

关于Java 自然语言解析器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3831487/

相关文章:

c++ - 从 DXF 文件中解析不完整的椭圆

Android的XML解析技术

parsing - Clojure - 解析 Elasticsearch 查询响应并提取值

python - Scikit学习: TypeError: float() argument must be a string or a number,而不是 'Bunch'

java - Appium:断言启动画面

java - 无法引用已声明的对象字段

java - ReactiveRedisTemplate opsForHash put 不会覆盖值

api - 您知道评估英语发音的API服务吗?

python - 如何解析时间表达式(尤其是时间范围),Python?

javac 根据赋值方法不同地处理 static final