javascript - 如何通过crawler4j下载JavaScript文件中包含的文本?

标签 javascript web-crawler crawler4j

我正在尝试使用crawler4j从某些网站提取文本。但是,虽然我已更改过滤器以允许通过以下方式使用 js 进行扩展

 private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|gif|jpg"
        + "|png|mp3|mp3|zip|gz))$");

我不知道如何将此文本存储到文件中(如果对于 js 文件中的文本而不是常规文本有不同的方法)

最佳答案

页面成功处理后,调用“visit” 网络爬虫。然后内容包含在该对象中。

我建议,您可以使用提供的方法写下您爬取的 javascript 内容,例如解析二进制内容。

@Override
 public void visit(Page page) {
     //parse the binary content contained in the page object
}

一个例子(嗯,它与图像有关,但方式基本相同)可以在这里找到:https://github.com/yasserg/crawler4j/blob/master/src/test/java/edu/uci/ics/crawler4j/examples/imagecrawler/ImageCrawler.java

关于javascript - 如何通过crawler4j下载JavaScript文件中包含的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30857005/

相关文章:

javascript - Jquery Count 复选框选中的位置和父显示 block

javascript - 使用 Python 在链接的 href 中执行 JavaScript

python-3.x - 如何在python中使用selenium Xpath从tr标签中获取所有td[3]标签

java - 有没有办法在爬行过程中清除crawler4j中的访问队列

java - 无法部署涉及 Crawler4j 的项目

javascript - 我可以通过 Javascript 在页面上注册外部 JS 文件吗?

javascript - CKEditor css 样式损坏

python - 递归 Scrapy 爬取问题

java - Crawler4j在shouldVisit()和visit()方法中显示不同的URL名称

javascript - 我无法让 $inject 注释在我的 Typescript AngularJS 类中工作