我有一组平面文件形式的日志数据,我想从中形成一个图形(基于日志中的信息)并将其加载到 Titan 数据库中。这些数据的大小为几 GB。我正在探索批量加载选项 Faunus 和 BatchGraph(我在 https://github.com/thinkaurelius/titan/wiki/Bulk-Loading 中了解到)。我的制表符分隔日志数据需要对文件的每一行进行一些处理,以形成我想到的图形节点和边。
Faunus/BatchGraph 会为这个用例服务吗?如果是,我的输入文件应该采用什么格式才能使这些工具工作?如果没有,使用 BluePrints API 是否可行?由于我是新手,因此非常感谢您可以就您的建议分享任何资源。谢谢!
最佳答案
要以简单的方式回答您的问题,我想您会想要使用 Faunus加载您的数据。如果可能,我建议首先使用外部工具清理和转换数据。制表符分隔是一种很好的格式,但是您准备这些文件的方式可能会影响加载性能(例如,有时简单地以正确的方式对数据进行排序可以大大提高速度。)
更完整的答案在于这两个资源。他们应该帮助您决定一种方法:
http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/
http://thinkaurelius.com/2014/06/02/powers-of-ten-part-ii/
我会提供这个额外的建议——如果你真的是一个新手,我建议你找到一些产生 100K 到 1M 边缘之间的数据片段。专注于简单地加载 BatchGraph
或者只是那些博客文章的第一部分中描述的蓝图 API。通过在这个小案例中查询数据来稍微习惯 Gremlin。利用这段时间开发验证您加载的内容的方法。一旦您对所有这些感到满意,然后将其放大到完整尺寸。
关于graph-databases - 将数据加载到 Titan 数据库中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24689765/