hadoop - Nutch FetchData 作业太慢

标签 hadoop mapreduce web-crawler amazon-emr nutch

我正在使用 Apache Nutch 以编程方式在 EMR 集群中以 6 个周期抓取大约 7000 个 URL(抓取过程中很少有自定义 map-reduce 作业)。 版本是:nutch=v1.15 hadoop=2.7.3 我在具有 20 个 EC2 m4.large spot 实例的 Amazon EMR 集群上运行它。抓取的代码是:

    public crawl(Folder seeds, Folder output) 
        throws IOException, InterruptedException {
        final Folder crawldb = output.folder("crawldb");
        try {
            new Injector(this.conf).inject(
                crawldb.path(), seeds.path(),
                true, true
            );
        } catch (final ClassNotFoundException err) {
            throw new IOException("Failed to inject URLs", err);
        }
        final Folder segments = output.mkdir("segments");
        // cycles = 6 in my case
        for (int idx = 0; idx < cycles; ++idx) {
            this.cycle(crawldb, segments);
        }
    }

    private void cycle(final Folder crawldb, final Folder segments)
        throws IOException, InterruptedException {
        try {
            Logger.info(this, "Generating...");
            // configured as 1_000_000 in EMR cluster
            final int topn = this.conf.getInt("yc.gen.topn", 1000);
            // configured as 40 (2 x slave_nodes) in EMR cluster
            final int nfetch = this.conf.getInt("yc.gen.nfetch", 1);
            new Generator(this.conf).generate(
                crawldb.path(),
                segments.path(),
                nfetch, topn, System.currentTimeMillis()
            );
            // the latest segment
            final Optional<Folder> next = Batch.nextSegment(segments);
            if (next.isPresent()) {
                final Path sgmt = next.get().path();
                Logger.info(this, "Fetching %s...", sgmt);
                new Fetcher(this.conf).fetch(
                    // @checkstyle MagicNumber (1 line)
                    sgmt, 10
                );
                Logger.info(this, "Parsing %s...", sgmt);
                new ParseSegment(this.conf).parse(sgmt);
            }
            new CrawlDb(this.conf).update(
                crawldb.path(),
                // all segments paths
                segments.subfolders().stream()
                    .toArray(Path[]::new),
                true, true
            );
        } catch (final ClassNotFoundException err) {
            throw new IOException(
                "Failed to generate/fetch/parse segment", err
            );
        }
    }

当我使用 7000 个种子 URL 和 6 个运行周期运行它时,Nutch 在 FetchData 作业上变得非常慢:它运行了大约 3 个小时,而且似乎正在等待最后一个映射器完成大约 2.5 最后几个小时(见附件截图)。这项工作可能有什么问题,我怎样才能加快 FetchData 阶段,也许我可以将它配置为跳过慢速提取程序(如果我错过了几个 URL,那不是什么大问题)。 job mappers

最佳答案

Nutch 的生成器作业按主机(或者域,请参阅 partition.url.mode)将获取列表划分为队列。一个获取队列的所有 URL 都在一个 getter 映射任务中处理,以确保礼貌约束——任何时候只有一个连接到一台主机,并且保证对同一主机的请求之间有延迟。分区对于性能也很重要,因为 DNS 解析、robots.txt 解析和结果缓存可以在 map task 中本地完成。

如果一个或几个抓取队列太长或抓取的主机响应太慢,这些队列会“阻塞”抓取进程。为了克服这个问题,可以将三个选项组合起来:

  1. 使用属性 fetcher.timelimit.mins 限制 fetcher 映射任务允许运行的时间。如果达到时间限制,则跳过提取队列中剩余的 URL,并在下一个周期中提取。
  2. 使用 generate.max.countgenerate.count.mode 确保没有队列变得太大
  3. (仅当您被允许抓取具有更激进设置的所有 主机时)您可以使用较短的抓取延迟 (fetcher.server.delay) 或什至允许并行连接(fetcher.threads.per.queue)

有更多选项可以调整爬网性能,所有属性都记录在文件 conf/nutch-default.xml 中。默认值有助于确保仅限于一组主机/域的爬网的完整性,并且需要更改默认值以在广泛的爬网中获得高吞吐量,因为某些主机/域无法被详尽地爬网。

关于hadoop - Nutch FetchData 作业太慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57608574/

相关文章:

hadoop - 我们可以将s3存储桶的输入路径用于映射器和化简器以运行MR作业吗?

java - 带有openjdk的Hadoop:start-dfs.sh(SSH?)错误

apache - 在 Windows 上构建 hadoop 2.2

php - 网站内容如何存储?

javascript - 使用 Selenium 收集 Javascript 下拉菜单上的每个选项

python - 使用 beautifulsoup 提取电子邮件地址(TypeError : 'int' object is not subscriptable)

hadoop - 如果没有,如何处理 Spark RDD 分区。执行者 < 没有。 RDD分区

关于 Job 类的 setJarByClass 方法的 Hadoop 查询

algorithm - 制作距离矩阵或重复计算距离

azure - pipelinemapred waitoutputthreads 子进程失败,代码为 255