我希望crawler4j以仅属于种子域的方式访问页面。种子中有多个域。我该怎么做?
假设我要添加种子网址:
- www.google.com
- www.yahoo.com
- www.wikipedia.com
现在我开始抓取,但我希望我的抓取工具仅访问上述三个域中的页面(就像 shouldVisit()
)。显然有外部链接,但我希望我的爬虫程序仅限于这些域。子域、子文件夹都可以,但不能在这些域之外。
最佳答案
代表 OP 发布:
在这里找到解决方案:http://code.google.com/p/crawler4j/issues/detail?id=94#c1
关于java - 将 URL 限制为仅种子 URL 域crawler4j,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19875318/