我想使用命名实体识别 (NER) 为数据库中的文本找到足够的标签。我不想使用像 NLTK 或 Lingpipe 这样的工具,而是想构建自己的工具。
所以我的问题是:
我应该使用哪种算法?
构建这个工具有多难?
最佳答案
我前段时间研究马尔可夫链的时候就是这样做的。
无论如何,答案是:
Which algorithm should I use?
例如,斯坦福 NLP 使用条件随机场 (CRF)。如果您没有尝试有效地做到这一点,那么您就像《Jackass 3d》中在风中撒尿
的家伙。没有简单的方法来解析人类语言,因为它的结构很复杂并且有很多异常(exception)。
How hard is to build this tool?
好吧,如果您知道自己在做什么,那么一点也不难。输入规则和逻辑的过程可能很烦人且耗时,修复错误可能很重要。但在 20 年内,你可以做出几乎有用的东西(对你自己)。
关于java - 使用 Java 进行命名实体识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5571519/