我想编写一个 Java 函数 grabTopResults(String f)
以便 grabTopResults("automata theory")
返回关于学者的前 100 篇引用论文的列表.google.com 用于“自动机理论”。
有没有人对哪些图书馆能让我的生活变得轻松有什么建议?
谢谢!
最佳答案
因为我确信 Google 可以负担得起带宽,所以我将忽略这是否不道德/非法/Google 的 T&C 禁止的问题
您需要做的第一件事是弄清楚您需要发出什么 HTTP 请求(或多个请求)才能获得包含您需要的数据的页面。弄清楚后,使用 HttpClient从 Java 代码发出相同的请求。上一个链接显示了解释如何执行此操作的示例代码。
下载相关页面的内容后,您需要使用 HTML 解析器提取您感兴趣的数据。Jericho parser peperg 的建议是一个不错的选择。
如果 Google 警察来敲门,你一定没听说过我,好吗?
关于java - 如何在 Java 中抓取 scholar.google.com?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2056632/