java - 以编程方式搜索博客、论坛、新闻站点

标签 java ruby search

<分区>

我想创建一个工具,用于生成某个单词或短语在博客、论坛、社交媒体和新闻网站中出现频率的统计信息,即。 e.像这样:

2011 年 11 月 20 日;足球;800302

21.11.2011;足球;1000000

等等

此工具每天都会进行搜索,然后保存特定日期搜索项的提及次数。

我如何在 Java 或 Ruby 中实现此功能(以编程方式进行 Google/Yandex 搜索)?

有 Google Blog Search API (http://code.google.com/apis/blogsearch/),但现在已弃用。

最佳答案

如果您有特定的网站,那么您可以每天抓取一次,但如果您正在寻找帖子中提到的更广泛的网站集,那可就太难了。我会尝试使用谷歌趋势- http://www.google.com/trends?q=football或谷歌博客搜索 http://www.google.com/search?q=football&tbm=blg .

这样会省去很多麻烦。否则,您可能需要编写自己的爬虫并索引非常大量的数据。您可能想看看 Nutch http://nutch.apache.org/和 Lucene http://lucene.apache.org在这种情况下。

关于java - 以编程方式搜索博客、论坛、新闻站点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8215582/

相关文章:

search - 如何计算查询的 TF-IDF?

java - 无法在 Android 搜索小部件中传递搜索变量

java - 2D KD树和最近邻搜索

java - 遍历树收集节点组合

java - 正确使用泛型与集合实例工厂

java - Lucene 对整个文本进行模糊搜索

JAVA:计算二维光束武器的推力

ruby-on-rails - Select2自动添加空白值

ruby - 将键值对象数组转换为键值对象(ruby)

Ruby PHP 解析库?