java - 无监督命名实体识别(NER),带有自定义控制的词汇表,用于 Java 中的交联建议

标签 java information-retrieval text-mining named-entity-recognition

我正在寻找一个 Java 库,它可以使用自定义受控词汇表进行命名实体识别 (NER),而无需首先使用带标签的训练数据。我在 SE 上搜索了一些,但大多数问题都不具体。

考虑以下用例:

  • 一位编辑正在 CMS 中输入文章(大约 500 字)。
  • 文本可能包含对特定域实体的引用(以纯文本形式)。例如:
    • 兴趣点的名称,例如酒吧、餐馆以及社区等。
  • 存在这些实体的受控词汇表(大约 5.000 个实体)。
    • 我想象一个实体是词汇表中的一个元组
  • 完成文本后,用户应该能够保存文档。
  • 这会触发工作流,通过与实体名称进行比较,根据词汇表扫描一段文本。不需要 100% 匹配:Jarao-winkler 上的 97% 或其他(我不熟悉算法的 NER 使用的)可能就足够了,我需要它是可配置的。
  • 命中返回到 Controller 服务器端。这反过来将 JSON 返回给包含实体的客户端,这些实体表示为对编辑器的建议交叉链接。

理想情况下,我正在寻找一个使用 NRE 来建议 CMS 环境中的交叉链接的项目。 (例如,我确定存在 wordpress 插件)不太确定 Java 中是否存在类似的东西。

也欢迎所有其他更通用的指向与受控自定义词汇表一起使用的 NRE 库的指针。

最佳答案

对于将来查找此内容的人:

“基于字典的近似分块” 参见:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

(已编辑 URL。)

关于java - 无监督命名实体识别(NER),带有自定义控制的词汇表,用于 Java 中的交联建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7663428/

相关文章:

lucene - 部分词的文档搜索

lucene - 如何创建更复杂的Lucene查询字符串?

nlp - 爬网

r - 使用 R 进行阿拉伯文本挖掘

java - 如何在速度工具中获取 HttpServletRequest?

java - 解析headers信息并设置到bean中

java - 在何处以及如何实例化输入映射和 Action 映射

java - void 方法应使用哪个测试替身

artificial-intelligence - 识别英语句子中无意义的成分

javascript - 如何衡量句子之间的字符串相似度?