javascript - async.series 和 async.each 没有按预期工作

标签 javascript node.js asynchronous node-async

我正在尝试使用 nodeJS 构建一个网络抓取工具,它在网站的 HTML 中搜索图像,缓存图像源 URL,然后搜索最大尺寸的图像。

我遇到的问题是 deliverLargestImage() 在循环遍历图像源 URL 数组以获取其文件大小之前触发。我正在尝试同时使用 async.seriesasync.each 以使其正常工作。

如何强制 deliverLargestImage() 等到 getFileSizes() 中的 async.each 完成?

JS

var async, request, cheerio, gm;
async = require('async');
request = require('request');
cheerio = require('cheerio');
gm = require('gm').subClass({ imageMagick: true });

function imageScraper () {
  var imgSources, largestImage;
  imgSources = [];
  largestImage = {
    url: '',
    size: 0
  };

  async.series([
    function getImageUrls (callback) {
      request('http://www.example.com/', function (error, response, html) {
        if (!error && response.statusCode === 200) {
          var $ = cheerio.load(html);
          $('img').each(function (i, elem) {
            if ( $(this).attr('src').indexOf('http://') > -1 ) {
              var src = $(this).attr('src');
              imgSources.push(src);
            }
          });
        }
        callback();
      });
    },
    function getFileSizes (callback) {
      async.each(imgSources, function (img, _callback) {
        gm(img).filesize(function (err, value) {
          checkSize(img, value);
          _callback();
        });
      });
      callback();
    },
    function deliverLargestImage (callback) {
      callback();
      return largestImage;
    }
  ]);

  function checkSize (imgUrl, value) {
    var r, raw;
    if (value !== undefined) {
      r = /\d+/;
      raw = value.match(r)[0];
      if (raw >= largestImage.size) {
        largestImage.url = imgUrl;
        largestImage.size = raw;
      }
    }
  }
}

imageScraper();

最佳答案

尝试将 callback() 移到这里:

function getFileSizes (callback) {
  async.each(imgSources, function (img, _callback) {
    gm(img).filesize(function (err, value) {
      checkSize(img, value);
      _callback();
    });
  }, function(err){ callback(err); }); /* <-- put here */
  /* callback(); <-- wrong here */
},

each 接受回调作为 third parameter当每个元素的内部循环完成时执行:

Arguments

  • arr - An array to iterate over.
  • iterator(item, callback) - A function to apply to each item in arr. The iterator is passed a callback(err) which must be called once it has completed. If no error has occured, the callback should be run without arguments or with an explicit null argument.
  • callback(err) - A callback which is called when all iterator functions have finished, or an error occurs.

关于javascript - async.series 和 async.each 没有按预期工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22998494/

相关文章:

c# - 同步函数内的异步调用

php - 索引.php :13 Uncaught SyntaxError: Unexpected token: error message in Ci

javascript - 如何使用 FontFace API 加载后备字体格式

node.js - 如何将 React 应用程序部署到 Heroku

javascript - 将参数传递给回调 node.js

node.js - 我们如何在 https.agent 中设置 SSL 证书密码?

javascript - 网络抓取和 promise

javascript - 如何从异步调用返回响应?

javascript - 使用 React 并使用相同组件处理不同 HTML 结构的方法

javascript - 如果已选择,则禁用选择框中的选项