java - 使用 Neo4j 图数据库创建图需要太长时间

标签 java neo4j

我使用以下代码通过 Neo4j 图形数据库创建图形:

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;

import org.neo4j.graphdb.RelationshipType;
import org.neo4j.graphdb.index.IndexHits;
import org.neo4j.helpers.collection.MapUtil;
import org.neo4j.index.lucene.unsafe.batchinsert.LuceneBatchInserterIndexProvider;
import org.neo4j.unsafe.batchinsert.BatchInserter;
import org.neo4j.unsafe.batchinsert.BatchInserterIndex;
import org.neo4j.unsafe.batchinsert.BatchInserterIndexProvider;
import org.neo4j.unsafe.batchinsert.BatchInserters;


public class Neo4jMassiveInsertion implements Insertion {

    private BatchInserter inserter = null;
    private BatchInserterIndexProvider indexProvider = null;
    private BatchInserterIndex nodes = null;

    private static enum RelTypes implements RelationshipType {
        SIMILAR
    }

    public static void main(String args[]) {
        Neo4jMassiveInsertion test = new Neo4jMassiveInsertion();
        test.startup("data/neo4j");
        test.createGraph("data/enronEdges.txt");
        test.shutdown();
    }

    /**
     * Start neo4j database and configure for massive insertion
     * @param neo4jDBDir
     */
    public void startup(String neo4jDBDir) {
        System.out.println("The Neo4j database is now starting . . . .");
        Map<String, String> config = new HashMap<String, String>();
        inserter = BatchInserters.inserter(neo4jDBDir, config);
        indexProvider = new LuceneBatchInserterIndexProvider(inserter);
        nodes = indexProvider.nodeIndex("nodes", MapUtil.stringMap("type", "exact"));
    }

    public void shutdown() {
        System.out.println("The Neo4j database is now shuting down . . . .");
        if(inserter != null) {
            indexProvider.shutdown();
            inserter.shutdown();
            indexProvider = null;
            inserter = null;
        }
    }

    public void createGraph(String datasetDir) {
        System.out.println("Creating the Neo4j database . . . .");
        try {
            BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(datasetDir)));
            String line;
            int lineCounter = 1;
            Map<String, Object> properties;
            IndexHits<Long> cache;
            long srcNode, dstNode;
            while((line = reader.readLine()) != null) {
                if(lineCounter > 4) {
                    String[] parts = line.split("\t");
                    cache = nodes.get("nodeId", parts[0]);
                    if(cache.hasNext()) {
                        srcNode = cache.next();
                    }
                    else {
                        properties = MapUtil.map("nodeId", parts[0]);
                        srcNode = inserter.createNode(properties);
                        nodes.add(srcNode, properties);
                        nodes.flush();
                    }
                    cache = nodes.get("nodeId", parts[1]);
                    if(cache.hasNext()) {
                        dstNode = cache.next();
                    }
                    else {
                        properties = MapUtil.map("nodeId", parts[1]);
                        dstNode = inserter.createNode(properties);
                        nodes.add(dstNode, properties);
                        nodes.flush();
                    }
                    inserter.createRelationship(srcNode, dstNode, RelTypes.SIMILAR, null);
                }
                lineCounter++;
            }
            reader.close();
        } 
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

与其他图数据库技术(titan、orientdb)相比,它需要太多时间。所以我可能做错了什么。有没有办法加快进程?

我使用 neo4j 1.9.5,我的机器有 2.3 Ghz CPU (i5)、4GB RAM 和 320GB 磁盘,我在 Macintosh OSX Mavericks (10.9) 上运行。我的堆大小也是 2GB。

最佳答案

通常我可以在我的 MacBook 上每秒导入大约 1M 个节点和 200k 个关系。

刷新和搜索

请不要在每次插入时刷新和搜索,这会完全降低性能。 将您的nodeIds保存在从数据到node-id的HashMap中,并且仅在导入期间写入lucene。

(如果您关心内存使用情况,您也可以使用 gnu-trove 之类的东西)

内存

内存映射

您还使用了太少的 RAM(我通常使用 4 到 60GB 之间的堆,具体取决于数据集大小),并且您没有任何配置集。

请检查类似这样的合理配置,根据您的数据量,我会提高这些数字。

cache_type=none
use_memory_mapped_buffers=true
neostore.nodestore.db.mapped_memory=200M
neostore.relationshipstore.db.mapped_memory=1000M
neostore.propertystore.db.mapped_memory=250M
neostore.propertystore.db.strings.mapped_memory=250M

并确保为其提供足够的堆。您的磁盘可能也不是最快的。尝试将堆增加到至少 3GB。还要确保拥有最新的 JDK,1.7.._b25 有内存分配问题(它只为

关于java - 使用 Neo4j 图数据库创建图需要太长时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21384866/

相关文章:

用于多线程批量导入的Java框架

Java二十一点计分问题

java - 错误的整数值 :'javax. swing.JFormattedtextField

java - Neo4j Java OGM 带锁选择

java - maven 中的 neo4j EmbeddedNeo4j.java try-with-resources 错误

stored-procedures - 如何知道 apoc 过程输出名称

java - 如何使用 Neo4J 和 java-rest-binding 获取深度请求的结果?

java - 解析 csv 字符串并映射到 java 对象

Neo4j ruby​​ gem 简介截屏

java - Android ArrayIndexOutOfBoundsException 和 AbsListViewRecycleBin.addScrapView