dc.js - 避免在自定义交叉过滤器归约函数中进行多次求和

标签 dc.js crossfilter reductio

这个问题是由于创建crossfilter数据集时遇到的一些困难而产生的,特别是如何对不同维度进行分组并计算派生值。最终目标是使用维度和组获得许多 dc.js 图表。

( fiddle 示例 https://jsfiddle.net/raino01r/0vjtqsjL/ )

问题

在继续解释设置之前,关键问题如下:

如何创建自定义addremoveinit、传入.reduce的函数这样前两个就不会多次对同一特征求和?

数据

假设我想监控多台机器的故障率(仅作为示例)。我使用不同的维度来做到这一点:月份、机器位置和故障类型。

例如,我有以下形式的数据:

| month   | room | failureType | failCount | machineCount |
|---------|------|-------------|-----------|--------------|
| 2015-01 |  1   |  A          |  10       |  5           |
| 2015-01 |  1   |  B          |   2       |  5           |
| 2015-01 |  2   |  A          |   0       |  3           |
| 2015-01 |  2   |  B          |   1       |  3           |
| 2015-02 |  .   |  .          |   .       |  .           |

预期

对于三个给定的维度,我应该:

  • month_1_rate = $\frac{10+2+0+1}{5+3}$;
  • room_1_rate = $\frac{10+2}{5}$;
  • type_A_rate = $\frac{10+0}{5+3}$。

想法

本质上,在此设置中重要的是一对(天,房间)。 IE。给定一天和一个房间,应该有一个附加费率(然后交叉过滤器应该考虑其他过滤器)。

因此,一种方法可能是存储已使用的对,并且不对它们求和 machineCount - 但我们仍然想更新 failCount值。

尝试(失败)

我的尝试是创建自定义化简函数,而不是对已考虑的 MachineCount 求和。

但是有一些意想不到的行为。 我确信这不是正确的方法 - 所以我希望对此有一些建议。 //维度是以下之一: //ndx = crossfilter(数据); //ndx.dimension(function(d){return d.month;}) //ndx.dimension(function(d){return d.room;}) //ndx.dimension(function(d){return d.failureType;}) //目标:有一个通用方法来获取给定维度的组:

function get_group(dim){
    return dim.group().reduce(add_rate, remove_rate, initial_rate);
}

// month is given as datetime object
var monthNameFormat = d3.time.format("%Y-%m");
//
function check_done(p, v){
    return p.done.indexOf(v.room+'_'+monthNameFormat(v.month))==-1;
}    

// The three functions needed for the custom `.reduce` block.
function add_rate(p, v){
    var index = check_done(p, v);
    if (index) p.done.push(v.room+'_'+monthNameFormat(v.month));
    var count_to_sum = (index)? v.machineCount:0;
    p.mach_count += count_to_sum;
    p.fail_count += v.failCount;
    p.rate = (p.mach_count==0) ? 0 : p.fail_count*1000/p.mach_count;
    return p;
}
function remove_rate(p, v){
    var index = check_done(p, v);
    var count_to_subtract = (index)? v.machineCount:0;
    if (index) p.done.push(v.room+'_'+monthNameFormat(v.month));
    p.mach_count -= count_to_subtract;
    p.fail_count -= v.failCount;
    p.rate = (p.mach_count==0) ? 0 : p.fail_count*1000/p.mach_count;
    return p;
}
function initial_rate(){
    return {rate: 0, mach_count:0, fail_count:0, done: new Array()};
}

与 dc.js 连接

如前所述,需要使用前面的代码来创建要使用 dc.js 在三个不同的条形图中传递的维度、组

每个图表都会有.valueAccessor(function(d){return d.value.rate};)

有关实现,请参阅 jsfiddle ( https://jsfiddle.net/raino01r/0vjtqsjL/ )。数字不同,但数据结构相同。请注意,在 fiddle 中,您预计机器数为 18(在这两个月中),但您总是得到双倍的值(因为有 2 个不同的位置)。


编辑

还原+dc.js

根据 Ethan Jewett 的回答,我使用 reductio 来处理分组。更新的 fiddle 在这里https://jsfiddle.net/raino01r/dpa3vv69/

在对 machineCount 值求和时,我的 reducer 对象需要两个异常 (month, room)。因此它的构建如下:

var reducer = reductio()
reducer.value('mach_count')
       .exception(function(d) { return d.room; })
       .exception(function(d) { return d.month; })
       .exceptionSum(function(d) { return d.machineCount; })
reducer.value('fail_count')
       .sum(function(d) { return d.failCount; })

这似乎可以修复渲染图表时的数字。

但是,在过滤单个月份并查看 type 图表中的数字时,我确实有一种奇怪的行为。

可能的解决方案

相反,双重创建了两个异常,我可以在处理数据时合并这两个字段。 IE。一旦定义了数据,我就可以:

data.foreach(function(x){
    x['room_month'] = x['room'] + '_' + x['month'];
})

那么上面的归约代码应该变成:

var reducer = reductio()
reducer.value('mach_count')
       .exception(function(d) { return d.room_month; })
       .exceptionSum(function(d) { return d.machineCount; })
reducer.value('fail_count')
       .sum(function(d) { return d.failCount; })

这个解决方案似乎有效。但是我不确定这是否是明智的做法:如果数据集很大,添加新功能可能会大大减慢速度!

最佳答案

一些事情:

  1. 不要在 Crossfilter reducer 中计算费率。计算比率的组成部分。这将变得更简单、更快。在您的值访问器中进行实际的除法。

  2. 你的想法基本上是正确的。我认为我立即看到两个问题:

    • 在您的 remove_rate 中,您没有从 p.done 数组中删除 key 。您应该执行类似 if (index) p.done.splice(p.done.indexOf(v.room+'_'+monthNameFormat(v.month)), 1); 的操作来删除它.

    • 在您的reduce函数中,index是一个 bool 值。 (index == -1) 永远不会计算为 true,IIRC。因此,您添加的机器计数将始终为 0。使用 var count_to_sum = index ? v.machineCount:0; 相反。

如果您想编写一个可行的示例,我相信我或其他人会很乐意为您提供它。

您可能还想尝试Reductio 。 Crossfilter reducer 很难正确且高效地完成,因此使用库来提供帮助可能是有意义的。使用 Reductio,创建一个计算机器计数和故障计数的组,如下所示:

var reducer = reductio()
reducer.value('mach_count')
  .exception(function(d) { return d.room; })
  .exceptionSum(function(d) { return d.machineCount; })
reducer.value('fail_count')
  .sum(function(d) { return d.failCount; })

var dim = ndx.dimension(...)
var grp = dim.group()
reducer(group)

关于dc.js - 避免在自定义交叉过滤器归约函数中进行多次求和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42391290/

相关文章:

dc.js - 如何从 crossfilter/reductionio 中的组创建组?

javascript - dc.js 按 y 轴/值排序顺序折线图

javascript - 更改 dc.js 图表颜色

javascript - 在条形图中的条形顶部显示值

javascript - 每天使用 dc.js 进行规模化

javascript - dc.js - 基于单个 csv 文件中单独类别的多个折线图

javascript - dc.js 模拟点击图表并触发过滤器

d3.js - 按聚合划分聚合 (D3/DC/Crossfilter/Reductio)

javascript - 如何创建在 y 轴上具有唯一计数、在 x 轴上具有类别的基本条形图?