java - 将 URL 限制为仅种子 URL 域crawler4j

标签 java web-crawler crawler4j

我希望crawler4j以仅属于种子域的方式访问页面。种子中有多个域。我该怎么做?

假设我要添加种子网址:

  • www.google.com
  • www.yahoo.com
  • www.wikipedia.com

现在我开始抓取,但我希望我的抓取工具仅访问上述三个域中的页面(就像 shouldVisit() )。显然有外部链接,但我希望我的爬虫程序仅限于这些域。子域、子文件夹都可以,但不能在这些域之外。

最佳答案

代表 OP 发布:

在这里找到解决方案:http://code.google.com/p/crawler4j/issues/detail?id=94#c1

关于java - 将 URL 限制为仅种子 URL 域crawler4j,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19875318/

相关文章:

java - 我将如何测试我的应用程序中的日志记录? Mockito 新手和测试 - 寻求方向

python - scrapy 没有抓取所有链接

jquery - 无法使用 Google Search Console 抓取我的新网站

java - 抓取具有特定前缀的网址

java - !FILTER 是什么意思?

java - 从不同线程修改JavaFX应用程序场景?

java - 运行java程序的Mac shell脚本将两个图标放在dock中

java - 推荐的 PDF 到 HTML API/工具

web-crawler - 带下拉菜单的 import.io 网络爬虫

java - 如何禁用 Crawler4J 记录器?