我正在使用OrientDB图形数据库。我必须遍历一棵树并收集每个节点的数据并汇总。例如:
如果 A 是根节点,并且它具有通过“has a”关系连接的 A1 和 A2 节点。 A1 以“具有”关系连接到 A11 和 A12。类似地,A2 以“具有”关系连接到 A21 和 A22。叶节点 A11、A12、A21 和 A22 具有称为“点”的属性。我必须根据子节点计算每个父节点的平均分。如果A11.points=20并且A12.points=10。那么A1处的平均分就变成了15。对于A节点,我必须根据A1和A2处计算的平均分来计算平均分。
A
/ \
A1 A2
/ \ / \
A11 A12 A21 A22
简而言之,我必须从树的根节点开始,继续遍历所有节点,然后遍历回来收集数据。有人知道如何使用 OrientDB API 或 Gremlin 做到这一点吗?
实际上我试图简化问题陈述。平均数不是简单平均数,而是加权平均数。叶节点处还有一个字段,比方说“小时”。平均值会根据小时而变化。如果A11 100小时90分,A12 10小时10分。在计算平均分时我们还需要考虑小时数。
最佳答案
此解决方案可能会让您更接近您所需要的,但我不确定它是否完全适合,因为它只能让您计算层次结构的选定级别(即“A”或“A1”)的平均值)。这是我的 Gremlin session :
gremlin> g = new TinkerGraph()
==>tinkergraph[vertices:0 edges:0]
gremlin> a = g.addVertex("a")
==>v[a]
gremlin> a1 = g.addVertex("a1")
==>v[a1]
gremlin> a2 = g.addVertex("a2")
==>v[a2]
gremlin> a.addEdge('has',a1)
==>e[0][a-has->a1]
gremlin> a.addEdge('has',a2)
==>e[1][a-has->a2]
gremlin> a1.addEdge('relationship',g.addVertex("a11",[points:20]))
==>e[2][a1-relationship->a11]
gremlin> a1.addEdge('relationship',g.addVertex("a12",[points:20]))
==>e[3][a1-relationship->a12]
gremlin> a2.addEdge('relationship',g.addVertex("a21",[points:100]))
==>e[4][a2-relationship->a21]
gremlin> a2.addEdge('relationship',g.addVertex("a22",[points:0]))
==>e[5][a2-relationship->a22]
gremlin> p=g.v("a").out.loop(1){it.loops<10}{true}.path.filter{it.last().getProperty("points")!=null}.toList()
==>[v[a], v[a2], v[a22]]
==>[v[a], v[a2], v[a21]]
==>[v[a], v[a1], v[a12]]
==>[v[a], v[a1], v[a11]]
gremlin> p.collect{[it, it.last().getProperty("points")]}._().groupBy{it[0][0]}{it[1]}{it.sum()/it.size()}.cap.next()
==>v[a]=35
gremlin> p.collect{[it, it.last().getProperty("points")]}._().groupBy{it[0][1]}{it[1]}{it.sum()/it.size()}.cap.next()
==>v[a1]=20
==>v[a2]=50
因此,这一行为我们提供了重要的路径(即以具有 points
的叶节点结尾的路径:
p=g.v("a").out.loop(1){it.loops<10}{true}.path.filter{it.last().getProperty("points")!=null}.toList()
我将它们存储在 p
中供以后使用。请注意,这将探索树的深度为 10,由 it.loops<10
控制。 。从那里使用起来非常简单 p
计算平均值。以下是计算 A 的示例:
p.collect{[it, it.last().getProperty("points")]}._().groupBy{it[0][0]}{it[1]}{it.sum()/it.size()}.cap.next()
上面基本上是说,对于每个路径,将其转换为一个新的 List,其中第一项是路径,第二项是叶节点处的点。将该列表转换为具有恒等函数的管道,并在路径中的第一项(由 it[0][0]
标识)上进行分组,并获取该路径的点值(第二个闭包为 groupBy
)。第三次关闭至groupBy
是一个归约函数,它将点相加并计算平均值。
如果您只需要计算单个顶点的平均值,则另一种选择是使用此方法:
gremlin> g.v("a").out.loop(1){it.loops<10}{true}.path{it.points}.filter{it.last()!=null}
.transform{it.last()}.gather.transform{it.sum()/it.size()}
==>35
请注意,遍历在开始时基本相同,但在获取路径时使用闭包。该闭包将顶点转换为 points
的值属性(请注意,使用 it.getProperty("points")
比 it.points
效率更高)。从那里,我再次过滤掉路径中最后一项为空值的路径(即,由于叶节点是唯一具有点属性的节点,这应该给我们留下以叶子结尾的路径)。然后,我转换这些路径以获取点,将它们收集到一个列表中,并将该列表转换为“A”的平均点。
关于graph-databases - 从根节点遍历到所有节点并返回 OrientDB 图形数据库时聚合数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21407521/