java - 将 URL 限制为仅种子 URL 域crawler4j

标签 java web-crawler crawler4j

我希望crawler4j以仅属于种子域的方式访问页面。种子中有多个域。我该怎么做？

假设我要添加种子网址:

www.google.com
www.yahoo.com
www.wikipedia.com

现在我开始抓取，但我希望我的抓取工具仅访问上述三个域中的页面(就像 shouldVisit() )。显然有外部链接，但我希望我的爬虫程序仅限于这些域。子域、子文件夹都可以，但不能在这些域之外。

最佳答案

代表 OP 发布:

在这里找到解决方案:http://code.google.com/p/crawler4j/issues/detail?id=94#c1

关于java - 将 URL 限制为仅种子 URL 域crawler4j，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19875318/

上一篇：java - GAE+JDO : Deleting Child object cause issue in google app engine java

下一篇：java - Hibernate Projections 不同记录

相关文章：

java - 我将如何测试我的应用程序中的日志记录？ Mockito 新手和测试 - 寻求方向

python - scrapy 没有抓取所有链接

jquery - 无法使用 Google Search Console 抓取我的新网站

java - 抓取具有特定前缀的网址

java - !FILTER 是什么意思？

java - 从不同线程修改JavaFX应用程序场景？

java - 运行java程序的Mac shell脚本将两个图标放在dock中

java - 推荐的 PDF 到 HTML API/工具

web-crawler - 带下拉菜单的 import.io 网络爬虫

java - 如何禁用 Crawler4J 记录器？

©2024 IT工具网联系我们