java - 如何在 Java 中抓取 scholar.google.com？

我想编写一个 Java 函数 grabTopResults(String f) 以便 grabTopResults("automata theory") 返回关于学者的前 100 篇引用论文的列表.google.com 用于“自动机理论”。

有没有人对哪些图书馆能让我的生活变得轻松有什么建议？

谢谢!

最佳答案

因为我确信 Google 可以负担得起带宽，所以我将忽略这是否不道德/非法/Google 的 T&C 禁止的问题

您需要做的第一件事是弄清楚您需要发出什么 HTTP 请求(或多个请求)才能获得包含您需要的数据的页面。弄清楚后，使用 HttpClient从 Java 代码发出相同的请求。上一个链接显示了解释如何执行此操作的示例代码。

下载相关页面的内容后，您需要使用 HTML 解析器提取您感兴趣的数据。Jericho parser peperg 的建议是一个不错的选择。

如果 Google 警察来敲门，你一定没听说过我，好吗？

关于java - 如何在 Java 中抓取 scholar.google.com？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2056632/

相关文章：

java - 使用选项类型是否不需要 if 语句？