有哪些好的算法可以自动用城市/地区或原产地标记文本?也就是说,如果一个博客是关于纽约的,我怎么能以编程方式告诉它。是否有包裹/文件声称可以肯定地做到这一点?
我看过一些基于 tfidf 的方法、专有名词交集,但到目前为止,还没有取得惊人的成功,我会很感激你的想法!
更一般的问题是给定一些主题列表,将文本分配给主题。
简单/幼稚的方法比完全使用贝叶斯方法更受欢迎,但我持开放态度。
最佳答案
您正在寻找 named entity recognition系统,或简称 NER。有several good toolkits可以帮助你。 LingPipe 特别有一个很decent tutorial . CAGEclass似乎是围绕地理地名的NER,但我还没有使用它。
Here's一个很好的博客条目,关于 NER 与地理地名的困难。
如果您要使用 Java,我建议您使用 LingPipe NER 类。 OpenNLP 也有一些,但前者有更好的文档。
如果您正在寻找一些理论背景,Chavez et al. (2005)构建了一个有趣的系统并记录了它。
关于algorithm - 地理标记或地理标记文本内容的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/163923/