node.js - 是否需要在异步调用中嵌套异步调用? ( Node .js)

标签 node.js asynchronous

我正在使用 Node.js,并且创建了一个简单的脚本,用于将文件从目录上传到服务器:

var request = require('request');
var file = require('file');
var fs = require('fs');
var path = require('path');


VERSION = '0.1'
CONFIG_FILE = path.join(__dirname, 'etc', 'sender.conf.json');


var config = JSON.parse(
  fs.readFileSync(CONFIG_FILE).toString()
);

var DATA_DIR = __dirname
config['data_dir'].forEach(function(dir) {
  DATA_DIR = path.join(DATA_DIR, dir)
});


console.log('sending data from root directory: ' + DATA_DIR);
file.walk(
  DATA_DIR,
  function(err, dir_path, dirs, files) {
    if(err) {
      return console.error(err);
    } 
    sendFiles(dir_path, files);
  } 
);

function sendFiles(dir_path, files)
{
  files
    .filter(function(file) {
      return file.substr(-5) === '.meta';
    })
    .forEach(function(file) {
      var name = path.basename(file.slice(0, -5));
      sendFile(dir_path, name);
    })
  ; 
} 

function sendFile(dir_path, name)
{
  console.log("reading file start: " + dir_path + "/" + name);
  fs.readFile(
    path.join(dir_path, name + '.meta'),
    function(err, raw_meta) {
      if(err) {
        return console.error(err);
      }
      console.log("reading file done: " + dir_path + "/" + name);
      sendData(
        name,
        JSON.parse(raw_meta),
        fs.createReadStream(path.join(dir_path, name + '.data'))
      );
    }
  );
  console.log("reading file async: " + dir_path + "/" + name);
}

function sendData(name, meta, data_stream)
{ 
  meta['source'] = config['data_source'];

  var req = request.post(
    config['sink_url'],
    function(err, res, body) {
      if(err) {
        console.log(err);
      }
      else {
        console.log(name);
        console.log(meta);
        console.log(body);
      }
    }
  );
  var form = req.form();

  form.append(
    'meta',
    JSON.stringify(meta),
    { 
      contentType: 'application/x-www-form-urlencoded'
    }
  );

  form.append(
    'data',
    data_stream
  );
}

当仅使用几个文件运行时,它工作正常。但是当我在包含大量文件的目录上运行它时,它会窒息。这是因为它不断创建大量任务来读取文件,但从未真正执行读取操作(因为文件太多)。这可以在输出中观察到:

sending data from root directory: .../data
reading file start: .../data/ac/ad/acigisu-adruire-sabeveab-ozaniaru-fugeef-wemathu-lubesoraf-lojoepe
reading file async: .../data/ac/ad/acigisu-adruire-sabeveab-ozaniaru-fugeef-wemathu-lubesoraf-lojoepe
reading file start: .../data/ac/ab/acodug-abueba-alizacod-ugvut-nucom
reading file async: .../data/ac/ab/acodug-abueba-alizacod-ugvut-nucom
reading file start: .../data/ac/as/acigisu-asetufvub-liwi-ru-mitdawej-vekof
reading file async: .../data/ac/as/acigisu-asetufvub-liwi-ru-mitdawej-vekof
reading file start: .../data/ac/av/ace-avhad-bop-rujan-pehwopa
reading file async: .../data/ac/av/ace-avhad-bop-rujan-pehwopa
...

对于每个文件,在调用 fs.readFile 之前立即生成控制台输出 “reading file start”,并在安排异步读取后立即生成 “reading file async”。但是,即使我让它运行很长时间,也没有“读取文件完成”消息,这意味着任何文件的读取可能从未被计划过(这些文件的大小为 100 个字节,因此一旦计划,这些读取可能会一次性完成)。

这引导我进行以下思考过程。 Node.js 中的异步调用是因为事件循环本身是单线程的,我们不想阻止它。 但是,一旦满足此要求,将进一步的异步调用嵌套到本身嵌套在异步调用等中的异步调用中是否有意义?它会用于任何特定目的吗?此外,如果单个文件的完整处理仅由同步调用组成,那么由于并非真正需要的调度开销并且可以完全避免,这难道不是对代码的实际悲观吗?

鉴于上述思考过程,我的行动方针是使用 this question 中的解决方案:

  • 将所有文件的名称异步推送到 async.queue
  • 通过设置 queue.concurrency 限制并行任务数量
  • 提供完全同步的文件上传处理程序,即同步读取文件内容,完成后同步向服务器发送 POST 请求

这是我第一次尝试使用 Node.js 和/或 JavaScript,因此很可能我完全错了(请注意,例如 sync-request package 非常清楚地表明同步调用是不可取的,这与我上面的思维过程相矛盾 - 问题是为什么)。任何关于上述思维过程的有效性以及所提出的解决方案和最终替代方案的可行性的评论将不胜感激。

最佳答案

==更新==

有很好的article直接在 Node.js 文档中详细解释了这一切。

至于当前的具体问题,确实是文件系统walker模块的选择问题。解决方案是使用例如walk而不是file :

@@ -4,7 +4,7 @@


 var request = require('request');
-var file = require('file');
+var walk = require('walk');
 var fs = require('fs');
 var path = require('path');

@@ -24,13 +24,19 @@ config['data_dir'].forEach(function(dir) {


 console.log('sending data from root directory: ' + DATA_DIR);
-file.walk(
-  DATA_DIR,
-  function(err, dir_path, dirs, files) {
-    if(err) {
-      return console.error(err);
-    }
-    sendFiles(dir_path, files);
+var walker = walk.walk(DATA_DIR)
+walker.on(
+  'files',
+  function(dir_path, files, next) {
+    sendFiles(dir_path, files.map(function(stats) { return stats.name; }));
+    next();
+  }
+);
+walker.on(
+  'errors',
+  function(dir_path, node_stats, next) {
+    console.error('file walker:', node_stats);
+    next();
   }
 );

==原帖==

经过更多研究后,我将尝试回答我自己的问题。这个答案仍然只是部分解决方案(非常感谢有 Node.js 实际经验的人提供更完整的答案)。

对上述主要问题的简短回答是,它确实不仅是可取的,而且几乎总是有必要从已经异步的函数中调度更多的异步函数。详细解释如下。

这是因为 Node.js 调度的工作方式:"Everything runs on a different thread except our code." 。链接博客文章下方的讨论中有两条非常重要的评论:

  • “Javascript 总是首先完成当前正在执行的函数。事件永远不会中断函数。” [ Twitchard ]
  • “另请注意,它不仅会完成当前函数,它还会运行直至完成所有同步函数,并且我相信在处理请求回调之前,所有与 process.nextTick 一起排队的内容...”。 [ Tim Oxley ]

process.nextTick 的文档中也有一条注释提到了这一点。 :“在处理额外的 I/O 之前,在事件循环的每次传递中,下一个刻度队列都会被完全耗尽。因此,递归设置 nextTick 回调将阻止任何 I/O 的发生,就像 while(true); 循环一样。”

所以,总而言之,脚本本身的所有代码都在单线程上运行,并且仅在单线程上运行。计划运行的异步回调在同一单线程上执行,并且仅在整个当前下一个滴答队列耗尽后才执行。使用异步回调提供了唯一的一点,即可以安排运行其他函数。如果文件上传处理程序不会按照问题中的描述安排任何其他异步任务,则其执行将阻止其他所有任务,直到整个文件上传处理程序完成。这是不可取的。

这也解释了为什么输入文件的实际读取从未发生(“递归设置 nextTick 回调将阻止任何 I/O 发生” - 见上文)。它最终会在遍历的整个目录层次结构的所有任务都已安排好之后发生。 但是,如果不进一步研究,我无法回答如何限制计划的文件上传任务的数量(实际上是任务队列的大小)并阻止调度循环,直到其中一些任务被处理(任务队列上的一些空间已被释放)。因此这个答案仍然不完整。

关于node.js - 是否需要在异步调用中嵌套异步调用? ( Node .js),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43518318/

相关文章:

node.js - Azure Function Linux Nodejs 和 @azure/storage-blob 给出错误 : Cannot read property 'startsWith' of undefined

node.js - Sequelize 更新更改预初始化的变量

node.js - 如何在 Mongoose 查询中连接多个字段?

c# - 如何使用异步来提高 WinForms 性能?

mysql - Node - 如何确保一切都在异步环境中完成

java - 关闭上下文时出现 Jetty 错误 : java. lang.IllegalStateException : IDLE, initial

javascript - 用于嵌套对象/数组的 Node console.log/util.inspect

node.js - 即使不存在唯一约束, Mongoose 唯一验证错误

c# - 异步任务仍然阻塞 UI 线程

Python asyncio,可以等待/产生整个 myFunction()