apache - 错误 Nutch 'http.agent.name' 中没有列出代理

标签 apache web-crawler nutch

我使用的是nutch2.2.1。日志文件生成以下错误

错误协议(protocol).RobotRulesParser - 我们宣传的代理 (nutch-spider-2.2.1) 未在“http.robots.agents”属性中首先列出!

我的 nutch-site.xml 是(用于上述属性)

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

我的 nutch-default.xml 是

<property>
<name>http.agent.name</name>
<value></value>
</property>

实际问题在哪里?请指导清楚(正确解释)。 此问题已发布 here但我必须悬赏这个问题(如果需要的话),这就是为什么要再次发布它。

最佳答案

你应该添加“http.robots.agents”的属性并将http.agent.name的值作为第一个代理名称,并在列表的末尾保留默认的*。就像:

<property>
     <name>http.robots.agents</name>
     <value>nutch-spider-2.2.1,*</value>
</property>

关于apache - 错误 Nutch 'http.agent.name' 中没有列出代理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27104145/

相关文章:

hadoop - 哪个版本的 hadoop 与 nutch 1.15 一起使用

java - 在 eclipse 中运行 nutch 单元测试的配置

javascript - 尽管启用了 CORS,$http Angular 仍无法工作

java - Spring Boot 和 OAuth2 : redirect url over reverse proxy

apache - 如何使用 Apache Commons Codec 在 Java 中解码 JWT( header 和正文)?

python - Scrapy:CrawlSpider 规则 process_links vs process_request vs 下载中间件

java - 一个数组列表可以容纳多少个字符串?

python - scrapy Spider 的输出与 scrapy shell 的输出不同

java - Nutch - 无法从资源 org/sonar/ant/antlib.xml 加载定义

apache - 为什么RewriteCond%{REQUEST_FILENAME}!-d是必需的?