我正在为 mongodb 数据库开发一个复杂的 map-reduce 过程。我已将一些更复杂的代码拆分为模块,然后通过将其包含在我的 scopeObj
中,使其可用于我的 map/reduce/finalize 函数,如下所示:
const scopeObj = {
userCalculations: require('../lib/userCalculations')
}
function myMapFn() {
let userScore = userCalculations.overallScoreForUser(this)
emit({
'Key': this.userGroup
}, {
'UserCount': 1,
'Score': userScore
})
}
function myReduceFn(key, objArr) { /*...*/ }
db.collection('userdocs').mapReduce(
myMapFn,
myReduceFn,
{
scope: scopeObj,
query: {},
out: {
merge: 'userstats'
}
},
function (err, stats) {
return cb(err, stats);
}
)
...这一切都很好。直到最近我还认为不可能将模块代码包含到 map-reduce scopeObj
中,但事实证明这只是因为我试图包含的模块都依赖于其他模块。完全独立的模块似乎工作得很好。
这让我(最终)想到了我的问题。我如何——或者,就此而言,我应该——将更复杂的模块(包括我从 npm 提取的东西)合并到我的 map-reduce 代码中?一个想法是我使用 Browserify 或类似的东西将我所有的依赖项拉到一个文件中,然后以某种方式包含它......但我不确定这样做的正确方法是什么。而且我也不确定我的 map-reduce 代码会在多大程度上冒着严重膨胀的风险,这(出于显而易见的原因)必须是高效的。
有没有人做过这样的事情?它是如何解决的,如果有的话?我是不是走错了路?
更新:澄清我正在努力克服的问题:
在上面的代码中, require('../lib/userCalculations')
由 Node 执行——它读入文件 ../lib/userCalculations.js
和将该文件的 module.exports
对象的内容分配给 scopeObj.userCalculations
。但是,假设在 userCalculations.js
中的某处调用了 require(...)
。该调用实际上尚未执行。因此,当我尝试在 Map 函数中调用 userCalculations.overallScoreForUser()
时,MongoDB 会尝试执行 require
函数。并且 require
没有在 mongo 上定义。
Browserify 通过将所有必需模块中的所有代码编译到一个没有 require
调用的单个 javascript 文件中来处理这个问题,因此它可以在浏览器中运行。但这在这里并不完全有效,因为我需要将生成的代码本身作为一个我可以使用的模块,就像我在代码示例中使用 userCalculations
一样。也许有一种奇怪的方式来运行我不知道的 browserify?还是其他工具将整个模块层次结构“扁平化”为单个模块?
希望能澄清一点。
最佳答案
作为一般性的回答,您的问题的答案:我如何——或者,就此而言,我应该——将更复杂的模块(包括我从 npm 中提取的东西)合并到我的 map 中——减少代码? - 不,您不能在计划发送到 MongoDB 以执行 mapReduce 作业的 Node 代码中安全地包含复杂模块。
您自己提到了这个问题 - 嵌套的 require
语句。现在,require 是同步的,但是如果你在里面有嵌套函数,这些 require 调用直到调用时才会执行,并且 MongoDB VM 会在此时抛出。
考虑以下三个文件的示例:data.json
、dep.js
和 main.js
。
// data.json - just something we require "lazily"
false
// dep.js -- equivalent of your userCalculations
module.exports = {
isValueTrue() {
// The problem: nested require
return require('./data.json');
}
}
// main.js - from here you send your mapReduce to MongoDB.
// require dependency instantly
const calc = require('./dep.js');
// require is synchronous, the effectis the same if you do:
// const calc = (function () {return require('./dep.js')})();
console.log('Calc is loaded.');
// Let's mess with unwary devs
require('fs').writeFileSync('./data.json', 'false');
// Is calc.isValueTrue() true or false here?
console.log(calc.isValueTrue());
作为一般解决方案,这是不可行的。虽然绝大多数模块可能没有嵌套的 require
语句、HTTP 调用,甚至是内部、服务调用、全局变量和类似的,但还是有的。你不能保证这会奏效。
现在,作为您的本地实现:例如你需要使用这种技术很好地测试过的特定版本的 NPM 模块,并且你知道它会起作用,或者你自己发布了它们,这在某种程度上是可行的。
但是,即使在这种情况下,如果这是一个团队的努力,肯定会有一个开发人员不知道您的依赖项在哪里使用或如何使用全局变量(不是故意的,而是由于疏忽,例如他们错误地计算了 this
) 或者根本不知道他们所做的任何事情的含义。如果你有强大的集成测试套件,你可以防范这种情况,但问题是,它是不可预测的。我个人认为,当您可以在不可预测和可预测之间进行选择时,几乎总是应该使用可预测的。
现在,如果您明确说明了要在 MongoDB mapReduce 中使用某个库的目的,那么这将起作用。你必须很好地防范疏忽和问题,并在基础上进行强大的测试,但我会确保目的是明确的,然后才能感到足够安全来执行此操作。但是,当然,如果您使用的东西非常复杂以至于需要多个 npm 包来执行,也许您可以直接在 MongoDB 服务器上使用这些功能,也许您可以使用更适合该目的的方法来执行 mapReducing,或类似的.
总结:作为一个有目的地构建的库,它具有明确的使命声明,它将与 node 和 MongoDB mapReduce 一起使用,我会确保我的测试涵盖我所有的关键任务和重要功能,然后导入这样的 npm 包。否则我不会使用也不推荐这种方法。
关于javascript - MongoDB map-reduce(通过nodejs): How to include complex modules (with dependencies) in scopeObj?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49238973/