algorithm - 地理标记或地理标记文本内容的方法

标签 algorithm statistics nlp named-entity-recognition

有哪些好的算法可以自动用城市/地区或原产地标记文本?也就是说,如果一个博客是关于纽约的,我怎么能以编程方式告诉它。是否有包裹/文件声称可以肯定地做到这一点?

我看过一些基于 tfidf 的方法、专有名词交集,但到目前为止,还没有取得惊人的成功,我会很感激你的想法!

更一般的问题是给定一些主题列表,将文本分配给主题。

简单/幼稚的方法比完全使用贝叶斯方法更受欢迎,但我持开放态度。

最佳答案

您正在寻找 named entity recognition系统,或简称 NER。有several good toolkits可以帮助你。 LingPipe 特别有一个很decent tutorial . CAGEclass似乎是围绕地理地名的NER,但我还没有使用它。

Here's一个很好的博客条目,关于 NER 与地理地名的困难。

如果您要使用 Java,我建议您使用 LingPipe NER 类。 OpenNLP 也有一些,但前者有更好的文档。

如果您正在寻找一些理论背景,Chavez et al. (2005)构建了一个有趣的系统并记录了它。

关于algorithm - 地理标记或地理标记文本内容的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/163923/

相关文章:

MySQL : splitting the processing of a particular table between different nodes

java - 将 Java 对象排序到桶中,然后在桶内排序的算法

machine-learning - 为什么主成分在最大方差的方向?

machine-learning - 自动摘要中句子提取的基于图的加权?

NLP法律文本?

php - 正则表达式不能正确处理土耳其字符

c# - 搜索 IP 范围 - 算法/数据结构?

algorithm - 了解 FastICA 实现

r - 如何从数据框中选择和绘制每小时平均值?

statistics - 如何从一组加权样本中估计高斯(混合)密度?