我想使用命名实体识别 (NER) 来为数据库中的文本找到足够的标签。
我知道有一篇关于此的 Wikipedia 文章以及许多其他描述 NER 的页面,我希望从您那里听到有关此主题的一些信息:
- 您对各种算法有何经验?
- 您会推荐哪种算法?
- 哪种算法最容易实现(PHP/Python)?
- 算法如何工作?是否需要手动培训?
例子:
“去年,我在伦敦见到了巴拉克奥巴马。” => 标签:伦敦,巴拉克奥巴马
我希望你能帮助我。非常感谢您!
最佳答案
首先结帐http://www.nltk.org/如果你打算使用 python,虽然据我所知代码不是“工业实力”,但它会让你开始。
查看 http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html 中的第 7.5 节但要理解这些算法,您可能需要阅读大量书籍。
还可以查看 http://nlp.stanford.edu/software/CRF-NER.shtml .它是用java完成的,
NER 不是一个简单的主题,可能没有人会告诉你“这是最好的算法”,他们中的大多数都有自己的优缺点。
我的 0.05 美元。
干杯,
关于php - 命名实体识别算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1026925/