javascript - 如何通过crawler4j下载JavaScript文件中包含的文本？

我正在尝试使用crawler4j从某些网站提取文本。但是，虽然我已更改过滤器以允许通过以下方式使用 js 进行扩展

 private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|gif|jpg"
        + "|png|mp3|mp3|zip|gz))$");

我不知道如何将此文本存储到文件中(如果对于 js 文件中的文本而不是常规文本有不同的方法)

最佳答案

页面成功处理后，调用“visit” 网络爬虫。然后内容包含在该对象中。

我建议，您可以使用提供的方法写下您爬取的 javascript 内容，例如解析二进制内容。

@Override
 public void visit(Page page) {
     //parse the binary content contained in the page object
}

关于javascript - 如何通过crawler4j下载JavaScript文件中包含的文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30857005/