html - 使用 Crawler4j 抓取 PDF

标签 html url pdf web-crawler crawler4j

我目前使用 crawler4j 来抓取网站并返回页面 url 和该页面的父页面 url。我正在使用基本的爬虫,它工作正常,只是它不返回 PDF。 我知道它会抓取 PDF,因为我已经检查了它在添加过滤器和显示 pdf 之前抓取的内容。 PDF 在进入时似乎消失/跳过了

public void visit(Page page) {

我不知道为什么要这样做。 谁能帮我这个? 这将不胜感激! 谢谢

最佳答案

这非常及时,实际上我今天正在处理同样的问题并且遇到了完全相同的问题。我在 shouldVisit 中为 PDF 网址返回 true,但是我没有看到它们像您一样出现在访问(页面页面)中。我追踪到 CrawlConfig 的来源:

config.setIncludeBinaryContentInCrawling(true)

将其设置为 true 将使 PDF 显示在访问方法中。尽管看起来读取二进制数据必须在实现者方面使用 Apache PDFBox 或 Apache Tika(或其他一些 PDF 库)来完成。希望这会有所帮助。

关于html - 使用 Crawler4j 抓取 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25291740/

相关文章:

javascript - JQuery 表排序器不适用于日期范围字符串

IOS:检查远程文件是否存在

html - 使用iText,图像base64将html解析为pdf

pdf - "hybrid PDF file"使用的标准是什么?

javascript - 当父项中的选择发生更改时,如何重置依赖子项的值?

javascript - 如何将文本输入定向到 html 页面中的隐藏字段?

PHP URL GET 参数,如果存在,是否替换?

MYSQL - 在托管未知 URL 时我应该选择哪种变量类型?

asp.net - 使用 IE 在 ASP.NEt 中强制下载 PDF

javascript - 更改 div 的 css 类然后改回