java - 如何在 Java 中抓取 scholar.google.com?

标签 java web-scraping

我想编写一个 Java 函数 grabTopResults(String f) 以便 grabTopResults("automata theory") 返回关于学者的前 100 篇引用论文的列表.google.com 用于“自动机理论”。

有没有人对哪些图书馆能让我的生活变得轻松有什么建议?

谢谢!

最佳答案

因为我确信 Google 可以负担得起带宽,所以我将忽略这是否不道德/非法/Google 的 T&C 禁止的问题

您需要做的第一件事是弄清楚您需要发出什么 HTTP 请求(或多个请求)才能获得包含您需要的数据的页面。弄清楚后,使用 HttpClient从 Java 代码发出相同的请求。上一个链接显示了解释如何执行此操作的示例代码。

下载相关页面的内容后,您需要使用 HTML 解析器提取您感兴趣的数据。Jericho parser peperg 的建议是一个不错的选择。

如果 Google 警察来敲门,你一定没听说过我,好吗?

关于java - 如何在 Java 中抓取 scholar.google.com?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2056632/

相关文章:

java - 使用选项类型是否不需要 if 语句?

java - try,catch,finally的执行顺序是什么

python - 如何从kayak.com上抓取给定区域的酒店最低价格?

html - 通过 .Click 激活搜索按钮

java - Selenium WebDriver 中的 URL Malformed 异常使用 Java 查找断开的链接

java - 已解决 [org.springframework.web.HttpRequestMethodNotSupportedException : Request method 'POST' not supported]

python - 用scrapy下载整页

python - 使用 Beautiful Soup 识别 DJIA 数据

python - 使用输入按钮处理网站上的分页

java - 使用多线程并行化 Java 中的 for 循环