我正在尝试使用crawler4j
从某些网站提取文本。但是,虽然我已更改过滤器以允许通过以下方式使用 js 进行扩展
private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|gif|jpg"
+ "|png|mp3|mp3|zip|gz))$");
我不知道如何将此文本存储到文件中(如果对于 js 文件中的文本而不是常规文本有不同的方法)
最佳答案
页面成功处理后,调用“visit” 网络爬虫。然后内容包含在该对象中。
我建议,您可以使用提供的方法写下您爬取的 javascript 内容,例如解析二进制内容。
@Override
public void visit(Page page) {
//parse the binary content contained in the page object
}
一个例子(嗯,它与图像有关,但方式基本相同)可以在这里找到:https://github.com/yasserg/crawler4j/blob/master/src/test/java/edu/uci/ics/crawler4j/examples/imagecrawler/ImageCrawler.java
关于javascript - 如何通过crawler4j下载JavaScript文件中包含的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30857005/