我正在使用crawler4j来抓取网站。该网站在一些网址末尾有某些参数,例如 http://www.abcd.com/xyz/?pqrs
当调用此类 url 的 shouldVisit() 方法时,我得到的 webURL 为 http://www.abcd.com/xyz/?pqrs但是当调用同一 URL 上的访问方法时,我得到的 URL 为 http://www.abcd.com/xyz/ 。
如何访问最后带有某些参数的页面?
最佳答案
Crawl4j默认会访问带有这些参数的页面。
你的意思是在访问方法中无法获取带有参数的url?
看下面的代码,url有字符串http://www.abcd.com/xyz/?pqrs并且parentUrl有http://www.abcd.com/xyz/
@Override
public void visit(Page page) {
String url = page.getWebURL().getURL();
String parentUrl = page.getWebURL().getParentUrl();
}
希望我的回答可以帮到你。
关于java - Crawler4j在shouldVisit()和visit()方法中显示不同的URL名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22133785/