这个问题是由于创建crossfilter
数据集时遇到的一些困难而产生的,特别是如何对不同维度进行分组并计算派生值。最终目标是使用维度和组获得许多 dc.js
图表。
( fiddle 示例 https://jsfiddle.net/raino01r/0vjtqsjL/ )
问题
在继续解释设置之前,关键问题如下:
如何创建自定义add
、remove
、init
、传入.reduce
的函数这样前两个就不会多次对同一特征求和?
数据
假设我想监控多台机器的故障率(仅作为示例)。我使用不同的维度来做到这一点:月份、机器位置和故障类型。
例如,我有以下形式的数据:
| month | room | failureType | failCount | machineCount |
|---------|------|-------------|-----------|--------------|
| 2015-01 | 1 | A | 10 | 5 |
| 2015-01 | 1 | B | 2 | 5 |
| 2015-01 | 2 | A | 0 | 3 |
| 2015-01 | 2 | B | 1 | 3 |
| 2015-02 | . | . | . | . |
预期
对于三个给定的维度,我应该:
- month_1_rate = $\frac{10+2+0+1}{5+3}$;
- room_1_rate = $\frac{10+2}{5}$;
- type_A_rate = $\frac{10+0}{5+3}$。
想法
本质上,在此设置中重要的是一对(天,房间)
。 IE。给定一天和一个房间,应该有一个附加费率(然后交叉过滤器应该考虑其他过滤器)。
因此,一种方法可能是存储已使用的对,并且不对它们求和 machineCount
- 但我们仍然想更新 failCount
值。
尝试(失败)
我的尝试是创建自定义化简函数,而不是对已考虑的 MachineCount
求和。
但是有一些意想不到的行为。 我确信这不是正确的方法 - 所以我希望对此有一些建议。 //维度是以下之一: //ndx = crossfilter(数据); //ndx.dimension(function(d){return d.month;}) //ndx.dimension(function(d){return d.room;}) //ndx.dimension(function(d){return d.failureType;}) //目标:有一个通用方法来获取给定维度的组:
function get_group(dim){
return dim.group().reduce(add_rate, remove_rate, initial_rate);
}
// month is given as datetime object
var monthNameFormat = d3.time.format("%Y-%m");
//
function check_done(p, v){
return p.done.indexOf(v.room+'_'+monthNameFormat(v.month))==-1;
}
// The three functions needed for the custom `.reduce` block.
function add_rate(p, v){
var index = check_done(p, v);
if (index) p.done.push(v.room+'_'+monthNameFormat(v.month));
var count_to_sum = (index)? v.machineCount:0;
p.mach_count += count_to_sum;
p.fail_count += v.failCount;
p.rate = (p.mach_count==0) ? 0 : p.fail_count*1000/p.mach_count;
return p;
}
function remove_rate(p, v){
var index = check_done(p, v);
var count_to_subtract = (index)? v.machineCount:0;
if (index) p.done.push(v.room+'_'+monthNameFormat(v.month));
p.mach_count -= count_to_subtract;
p.fail_count -= v.failCount;
p.rate = (p.mach_count==0) ? 0 : p.fail_count*1000/p.mach_count;
return p;
}
function initial_rate(){
return {rate: 0, mach_count:0, fail_count:0, done: new Array()};
}
与 dc.js 连接
如前所述,需要使用前面的代码来创建要使用 dc.js
在三个不同的条形图中传递的维度、组
。
每个图表都会有.valueAccessor(function(d){return d.value.rate};)
。
有关实现,请参阅 jsfiddle ( https://jsfiddle.net/raino01r/0vjtqsjL/ )。数字不同,但数据结构相同。请注意,在 fiddle 中,您预计机器数
为 18(在这两个月中),但您总是得到双倍的值(因为有 2 个不同的位置)。
编辑
还原+dc.js
根据 Ethan Jewett 的回答,我使用 reductio
来处理分组。更新的 fiddle 在这里https://jsfiddle.net/raino01r/dpa3vv69/
在对 machineCount
值求和时,我的 reducer
对象需要两个异常 (month, room)
。因此它的构建如下:
var reducer = reductio()
reducer.value('mach_count')
.exception(function(d) { return d.room; })
.exception(function(d) { return d.month; })
.exceptionSum(function(d) { return d.machineCount; })
reducer.value('fail_count')
.sum(function(d) { return d.failCount; })
这似乎可以修复渲染图表时的数字。
但是,在过滤单个月份并查看 type
图表中的数字时,我确实有一种奇怪的行为。
相反,双重创建了两个异常,我可以在处理数据时合并这两个字段。 IE。一旦定义了数据,我就可以:
data.foreach(function(x){
x['room_month'] = x['room'] + '_' + x['month'];
})
那么上面的归约代码应该变成:
var reducer = reductio()
reducer.value('mach_count')
.exception(function(d) { return d.room_month; })
.exceptionSum(function(d) { return d.machineCount; })
reducer.value('fail_count')
.sum(function(d) { return d.failCount; })
这个解决方案似乎有效。但是我不确定这是否是明智的做法:如果数据集很大,添加新功能可能会大大减慢速度!
最佳答案
一些事情:
不要在 Crossfilter reducer 中计算费率。计算比率的组成部分。这将变得更简单、更快。在您的值访问器中进行实际的除法。
你的想法基本上是正确的。我认为我立即看到两个问题:
在您的
remove_rate
中,您没有从p.done
数组中删除 key 。您应该执行类似if (index) p.done.splice(p.done.indexOf(v.room+'_'+monthNameFormat(v.month)), 1); 的操作来删除它.
在您的reduce函数中,
index
是一个 bool 值。(index == -1)
永远不会计算为true
,IIRC。因此,您添加的机器计数将始终为 0。使用 var count_to_sum = index ? v.machineCount:0; 相反。
如果您想编写一个可行的示例,我相信我或其他人会很乐意为您提供它。
您可能还想尝试Reductio 。 Crossfilter reducer 很难正确且高效地完成,因此使用库来提供帮助可能是有意义的。使用 Reductio,创建一个计算机器计数和故障计数的组,如下所示:
var reducer = reductio()
reducer.value('mach_count')
.exception(function(d) { return d.room; })
.exceptionSum(function(d) { return d.machineCount; })
reducer.value('fail_count')
.sum(function(d) { return d.failCount; })
var dim = ndx.dimension(...)
var grp = dim.group()
reducer(group)
关于dc.js - 避免在自定义交叉过滤器归约函数中进行多次求和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42391290/