graph-databases - 从根节点遍历到所有节点并返回 OrientDB 图形数据库时聚合数据

标签 graph-databases gremlin orientdb

我正在使用OrientDB图形数据库。我必须遍历一棵树并收集每个节点的数据并汇总。例如:

如果 A 是根节点,并且它具有通过“has a”关系连接的 A1 和 A2 节点。 A1 以“具有”关系连接到 A11 和 A12。类似地,A2 ​​以“具有”关系连接到 A21 和 A22。叶节点 A11、A12、A21 和 A22 具有称为“点”的属性。我必须根据子节点计算每个父节点的平均分。如果A11.points=20并且A12.points=10。那么A1处的平均分就变成了15。对于A节点,我必须根据A1和A2处计算的平均分来计算平均分。

                        A
                      /   \
                    A1     A2
                   /  \    /  \
                 A11  A12 A21  A22

简而言之,我必须从树的根节点开始,继续遍历所有节点,然后遍历回来收集数据。有人知道如何使用 OrientDB APIGremlin 做到这一点吗?

实际上我试图简化问题陈述。平均数不是简单平均数,而是加权平均数。叶节点处还有一个字段,比方说“小时”。平均值会根据小时而变化。如果A11 100小时90分,A12 10小时10分。在计算平均分时我们还需要考虑小时数。

最佳答案

此解决方案可能会让您更接近您所需要的,但我不确定它是否完全适合,因为它只能让您计算层次结构的选定级别(即“A”或“A1”)的平均值)。这是我的 Gremlin session :

gremlin> g = new TinkerGraph()
==>tinkergraph[vertices:0 edges:0]
gremlin> a = g.addVertex("a")  
==>v[a]
gremlin> a1 = g.addVertex("a1")
==>v[a1]
gremlin> a2 = g.addVertex("a2")
==>v[a2]
gremlin> a.addEdge('has',a1)    
==>e[0][a-has->a1]
gremlin> a.addEdge('has',a2)
==>e[1][a-has->a2]
gremlin> a1.addEdge('relationship',g.addVertex("a11",[points:20]))
==>e[2][a1-relationship->a11]
gremlin> a1.addEdge('relationship',g.addVertex("a12",[points:20]))
==>e[3][a1-relationship->a12]
gremlin> a2.addEdge('relationship',g.addVertex("a21",[points:100]))
==>e[4][a2-relationship->a21]
gremlin> a2.addEdge('relationship',g.addVertex("a22",[points:0]))  
==>e[5][a2-relationship->a22]
gremlin> p=g.v("a").out.loop(1){it.loops<10}{true}.path.filter{it.last().getProperty("points")!=null}.toList()               
==>[v[a], v[a2], v[a22]]
==>[v[a], v[a2], v[a21]]
==>[v[a], v[a1], v[a12]]
==>[v[a], v[a1], v[a11]]
gremlin> p.collect{[it, it.last().getProperty("points")]}._().groupBy{it[0][0]}{it[1]}{it.sum()/it.size()}.cap.next()
==>v[a]=35
gremlin> p.collect{[it, it.last().getProperty("points")]}._().groupBy{it[0][1]}{it[1]}{it.sum()/it.size()}.cap.next()
==>v[a1]=20
==>v[a2]=50

因此,这一行为我们提供了重要的路径(即以具有 points 的叶节点结尾的路径:

p=g.v("a").out.loop(1){it.loops<10}{true}.path.filter{it.last().getProperty("points")!=null}.toList()

我将它们存储在 p 中供以后使用。请注意,这将探索树的深度为 10,由 it.loops<10 控制。 。从那里使用起来非常简单 p计算平均值。以下是计算 A 的示例:

p.collect{[it, it.last().getProperty("points")]}._().groupBy{it[0][0]}{it[1]}{it.sum()/it.size()}.cap.next()

上面基本上是说,对于每个路径,将其转换为一个新的 List,其中第一项是路径,第二项是叶节点处的点。将该列表转换为具有恒等函数的管道,并在路径中的第一项(由 it[0][0] 标识)上进行分组,并获取该路径的点值(第二个闭包为 groupBy )。第三次关闭至groupBy是一个归约函数,它将点相加并计算平均值。

如果您只需要计算单个顶点的平均值,则另一种选择是使用此方法:

gremlin> g.v("a").out.loop(1){it.loops<10}{true}.path{it.points}.filter{it.last()!=null}
                 .transform{it.last()}.gather.transform{it.sum()/it.size()}
==>35

请注意,遍历在开始时基本相同,但在获取路径时使用闭包。该闭包将顶点转换为 points 的值属性(请注意,使用 it.getProperty("points")it.points 效率更高)。从那里,我再次过滤掉路径中最后一项为空值的路径(即,由于叶节点是唯一具有点属性的节点,这应该给我们留下以叶子结尾的路径)。然后,我转换这些路径以获取点,将它们收集到一个列表中,并将该列表转换为“A”的平均点。

关于graph-databases - 从根节点遍历到所有节点并返回 OrientDB 图形数据库时聚合数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21407521/

相关文章:

neo4j - 划分Neo4j

java - 在 titan 图形数据库中使用 gremlin 服务器加载 Json

java - getHardwareAddress 不适用于 IBMi (iSeries) reqd for OrientDB

java - OrientDB - 确保状态一致

neo4j - GraphQL是否否定了对图数据库的需求

neo4j - 每个标签限制节点

neo4j - 可以通过bulbs/Rexster连接到多个neo4j数据库吗?

graph - Neo4j 上的节点度查询,具有巨大的图(百万节点和链接)

OrientDB:创建从父到子的边缘