graph-databases - 将数据加载到 Titan 数据库中

标签 graph-databases titan faunus

我有一组平面文件形式的日志数据,我想从中形成一个图形(基于日志中的信息)并将其加载到 Titan 数据库中。这些数据的大小为几 GB。我正在探索批量加载选项 Faunus 和 BatchGraph(我在 https://github.com/thinkaurelius/titan/wiki/Bulk-Loading 中了解到)。我的制表符分隔日志数据需要对文件的每一行进行一些处理,以形成我想到的图形节点和边。
Faunus/BatchGraph 会为这个用例服务吗?如果是,我的输入文件应该采用什么格式才能使这些工具工作?如果没有,使用 BluePrints API 是否可行?由于我是新手,因此非常感谢您可以就您的建议分享任何资源。谢谢!

最佳答案

要以简单的方式回答您的问题,我想您会想要使用 Faunus加载您的数据。如果可能,我建议首先使用外部工具清理和转换数据。制表符分隔是一种很好的格式,但是您准备这些文件的方式可能会影响加载性能(例如,有时简单地以正确的方式对数据进行排序可以大大提高速度。)

更完整的答案在于这两个资源。他们应该帮助您决定一种方法:

http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/
http://thinkaurelius.com/2014/06/02/powers-of-ten-part-ii/

我会提供这个额外的建议——如果你真的是一个新手,我建议你找到一些产生 100K 到 1M 边缘之间的数据片段。专注于简单地加载 BatchGraph或者只是那些博客文章的第一部分中描述的蓝图 API。通过在这个小案例中查询数据来稍微习惯 Gremlin。利用这段时间开发验证您加载的内容的方法。一旦您对所有这些感到满意,然后将其放大到完整尺寸。

关于graph-databases - 将数据加载到 Titan 数据库中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24689765/

相关文章:

java - Faunus json 读取器在 json 文件格式中出现错误

database - 图遍历 : How do I query for "friends and friends of friends" using Gremlin

neo4j - 围绕图数据库的炒作......为什么?

grails - 东方数据库:无法创建索引

unique - 如何避免 DSE 图/Titan 中的重复顶点条目

Titan:添加新顶点或边后刷新图形

graph - Titan 需要多大的 Faunus 图形分析框架?

database - 用于查找交叉点的良好图形数据库(Neo4j?Pegasus?Allegro?...)

linux - 在 Linux 中将 Rexster 作为守护进程运行的脚本