Node.js readStream 用于大文件末尾

标签 node.js logging stream filestream large-files

我偶尔想通过电子邮件通知发送大型日志文件 (>100MB) 的最后 2kB。现在,我正在尝试以下操作:

var endLogBytes = fs.statSync(logFilePath).size;
var endOfLogfile = fs.createReadStream(logFilePath, {start: endLogBytes-2000, end: endLogBytes - 1, autoClose: true, encoding: 'utf8'});
endOfLogfile.on('data', function(chunk) {
    sendEmailFunction(chunk);
}

由于我刚刚重新启动,我的日志文件只有 ~2MB,但随着它们变得越来越大,我想知道:

1)读取数据是否需要很长时间(Node是否会遍历整个文件直到到达我想要的字节,或者Node是否跳转到我想要的字节?)

2)消耗了多少内存?

3)什么时候释放内存空间?如何释放内存空间?

最佳答案

在这种情况下你不应该使用ReadStream;因为它是一个流,所以它必须(我想)在到达最后两千字节之前将所有前置数据磨碎。 所以我会先使用打开文件的描述符进行 fs.open 操作,然后使用 fs.read 操作。像这样:

fs.open(logFilePath, 'r', function(e, fd) {
  if (e)
    throw e; //or do whatever you usually doing in such kind of situations
  var endOfLogfile = new Buffer(2048);
  fs.read(fd, endOfLogFile, endLogBytes-2048, 2048, null, function(e, bytesRead, data) {
    if (e)
      throw e;
    //don't forget to data.toString('ascii|utf8|you_name_it')
    sendEmailFunction(data.toString('ascii'));
  });
});
<小时/>

更新: 看起来 ReadStream 的当前实现足够智能,可以仅读取所需的数据量。请参阅:https://github.com/joyent/node/blob/v0.10.29/lib/fs.js#L1550 。它在底层使用 fs.open 和 fs.read 。所以你可以放心使用ReadStream。 无论如何,我会选择 fs open/read,因为它更明确、C 方式、更好的风格等等。

关于内存和释放它。您将需要至少 2Mb 内存用于数据缓冲区 + 一些开销。我不认为有什么方法可以准确地告诉我们需要多少开销。只需使用您的目标操作系统和 Node 版本进行测试即可。您可以使用此模块进行分析:https://www.npmjs.org/package/webkit-devtools-agent .

当您不使用带有数据的缓冲区时,内存将被释放,GC 将决定这是收集一些垃圾的好时机。 GC 是不确定的(即不可预测)。您不应该尝试预测它的行为或以任何方式强制它进行垃圾收集。

关于Node.js readStream 用于大文件末尾,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24336558/

相关文章:

node.js - 如何从node.js以编程方式运行 `yarn tag`?

javascript - Mocha 返回原型(prototype)方法未定义

c++ - 关于c++中fstream的几个问题

node.js - 管道未启动后nodejs流完成回调

c++ - 避免 while (!is_eof)

node.js - 如何修复 nodejs 上的这个快速和文件系统错误?

node.js - 如何在 Linux 生产环境上部署 Meteor 应用程序?

php - YII 单独的日志文件来按类别存储消息

linux - 在 Catalina.out 中控制 SQL 日志记录级别

python - Django 日志记录项目和应用程序命名空间