我正在寻找一个 Java 库,它可以使用自定义受控词汇表进行命名实体识别 (NER),而无需首先使用带标签的训练数据。我在 SE 上搜索了一些,但大多数问题都不具体。
考虑以下用例:
- 一位编辑正在 CMS 中输入文章(大约 500 字)。
- 文本可能包含对特定域实体的引用(以纯文本形式)。例如:
- 兴趣点的名称,例如酒吧、餐馆以及社区等。
- 存在这些实体的受控词汇表(大约 5.000 个实体)。
- 我想象一个实体是词汇表中的一个元组
- 完成文本后,用户应该能够保存文档。
- 这会触发工作流,通过与实体名称进行比较,根据词汇表扫描一段文本。不需要 100% 匹配:Jarao-winkler 上的 97% 或其他(我不熟悉算法的 NER 使用的)可能就足够了,我需要它是可配置的。
- 命中返回到 Controller 服务器端。这反过来将 JSON 返回给包含实体的客户端,这些实体表示为对编辑器的建议交叉链接。
理想情况下,我正在寻找一个使用 NRE 来建议 CMS 环境中的交叉链接的项目。 (例如,我确定存在 wordpress 插件)不太确定 Java 中是否存在类似的东西。
也欢迎所有其他更通用的指向与受控自定义词汇表一起使用的 NRE 库的指针。
最佳答案
关于java - 无监督命名实体识别(NER),带有自定义控制的词汇表,用于 Java 中的交联建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7663428/