java - Crawler4j在shouldVisit()和visit()方法中显示不同的URL名称

标签 java crawler4j

我正在使用crawler4j来抓取网站。该网站在一些网址末尾有某些参数,例如 http://www.abcd.com/xyz/?pqrs

当调用此类 url 的 shouldVisit() 方法时,我得到的 webURL 为 http://www.abcd.com/xyz/?pqrs但是当调用同一 URL 上的访问方法时,我得到的 URL 为 http://www.abcd.com/xyz/

如何访问最后带有某些参数的页面?

最佳答案

Crawl4j默认会访问带有这些参数的页面。

你的意思是在访问方法中无法获取带有参数的url?

看下面的代码,url有字符串http://www.abcd.com/xyz/?pqrs并且parentUrl有http://www.abcd.com/xyz/

@Override
public void visit(Page page) {
    String url = page.getWebURL().getURL();
    String parentUrl = page.getWebURL().getParentUrl();
}

希望我的回答可以帮到你。

关于java - Crawler4j在shouldVisit()和visit()方法中显示不同的URL名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22133785/

相关文章:

java - 是否可以从不同的 JVM 调用 Java 应用程序中的方法?

java - 当按下设备上或底部栏上的后退按钮时,不会调用 onBackPressed

java - 指导 Crawler4j Solr 中的搜索深度

java - 运行 mvn clean install 时出现 Maven 错误?

java - 是否可以忽略 Http Content-Length?

java - 为什么会出现 "java.net.SocketException: Broken pipe"?

java - 通过 Lotus Notes 使用 java Apache Commons Mail 发送电子邮件

java - 将 map 数组添加到java应用程序

java - Crawler4j,一些网址被毫无问题地抓取而另一些则根本没有被抓取

jsoup - Groovy 中的爬虫(JSoup VS Crawler4j)