web-crawler - 信息检索——寻找术语同义词

标签 web-crawler information-retrieval

这是一个相当广泛的问题,我不是在寻找具体的实现(好吧,如果解决这个问题的东西已经存在,那就太棒了)。如果有人能告诉我如何检索请求的信息,那将是完美的。

让我用一个例子来描述这个问题。我有大学的名称(例如牛津大学)。我将过滤推特以找到提到这所大学的推文。显然,它们中的大多数不会直接包含“牛津大学”一词,而是可能会使用“Oxon”、“Oxf”或“Oxford”之类的词。

我的问题是如何自动找到一个词的所有同义词(更精确 - 我只对大学名称感兴趣)。

最佳答案

这类问题没有简单直接的解决方案,但您可以实现这篇论文:Named Entity Recognition from Tweets

如果您想阅读更多有关此问题的信息,请搜索命名实体识别 (NER)。

关于web-crawler - 信息检索——寻找术语同义词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40680331/

相关文章:

php - 如何限制 cURL 使用的并发连接数

Python网络爬虫,通过链接爬取并找到特定的词

mean - 关于(平均)平均精度的困惑

nlp - 主题发现/发现的最佳模型

java - 如何根据字段值过滤 ElasticSearch 结果?

math - 如何计算 f(2) 度量?

information-retrieval - 如何使用tf-idf选择停用词? (非英语语料库)

python - 使用 Scrapy 从文本文件中的多个 URL 中抓取所有外部链接

javascript - 搜索蜘蛛是否会爬取已被js删除的元素?

php - 如何获取域上的所有网页