java - Hazelcast 和 MapDB——实现一个简单的分布式数据库

标签 java hazelcast mapdb nosql

我已经实现了一个 hazelcast 服务,该服务通过 MapStoreFactory 和 newMapLoader 将其数据存储到本地 mapdb 实例中。如果需要重新启动集群,可以通过这种方式加载 key :

public class HCMapStore<V> implements MapStore<String, V> {

Map<String, V> map;

/** specify the mapdb e.g. via 
  * DBMaker.newFileDB(new File("mapdb")).closeOnJvmShutdown().make() 
  */
public HCMapStore(DB db) {
    this.db = db;
    this.map = db.createHashMap("someMapName").<String, Object>makeOrGet();
}

// some other store methods are omitted
@Override
public void delete(String k) {
    logger.info("delete, " + k);
    map.remove(k);
    db.commit();
}

// MapLoader methods
@Override
public V load(String key) {
    logger.info("load, " + key);
    return map.get(key);
}

@Override
public Set<String> loadAllKeys() {
    logger.info("loadAllKeys");
    return map.keySet();
}

@Override
public Map<String, V> loadAll(Collection<String> keys) {
    logger.info("loadAll, " + keys);
    Map<String, V> partialMap = new HashMap<>();
    for (String k : keys) {
        partialMap.put(k, map.get(k));
    }
    return partialMap;
}}

我现在面临的问题是来自 hazelcast 的 MapLoader 接口(interface)的 loadAllKeys 方法需要返回整个集群的所有键,但每个节点只存储它拥有的对象。

示例:我有两个节点并存储 8 个对象,然后例如5个对象存储在node1的mapdb中,3个对象存储在node2的mapdb中。我认为哪个对象由哪个节点拥有由 hazelcast 决定。现在重新启动时,node1 将为 loadAllKeys 返回 5 个键,node2 将返回 3 个。Hazelcast 决定忽略这 3 个项目,数据“丢失”。

对此有什么好的解决方案?

赏金更新:Here我在提到 2 个选项的 hc 邮件列表上问过这个问题(我会再添加 1 个),我想知道 hazelcast 3.2 或 3.3 是否已经可以实现这样的事情:

  1. 目前 MapStore 接口(interface)只能从本地节点获取数据或更新。是否可以将全集群的每一次存储 Action 通知MapStore接口(interface)?或者也许这已经可以通过一些听众魔法实现?也许我可以强制 hazelcast 将所有对象放入一个分区,并在每个节点上有 1 个副本。

  2. 如果我重新启动,例如2 个节点,然后使用我的本地数据库为 node1 和 node2 正确调用 MapStore 接口(interface)。但是当两个节点都加入时,node2 的数据将被删除,因为 Hazelcast 假设只有主节点是正确的。我可以教 hazelcast 接受来自两个节点的数据吗?

最佳答案

根据 Hazelcast 3.3 文档 MapLoader 初始化流程如下:

When getMap() is first called from any node, initialization will start depending on the the value of InitialLoadMode. If it is set as EAGER, initialization starts. If it is set as LAZY, initialization actually does not start but data is loaded at each time a partition loading is completed.

  1. Hazelcast will call MapLoader.loadAllKeys() to get all your keys on each node
  2. Each node will figure out the list of keys it owns
  3. Each node will load all its owned keys by calling MapLoader.loadAll(keys)
  4. Each node puts its owned entries into the map by calling IMap.putTransient(key,value)

上面的意思是,如果节点以不同的顺序启动,那么 key 的分布也会不同。因此,每个节点都不会在其本地存储中找到所有/部分分配的键。您应该能够通过在 HCMapStore.loadAllKeys 和 HCMapStore.loadAll 中设置断点来验证它,并将您重新检索到的键与检索到的键进行比较。

在我看来,您要实现的目标与 Hazelcast 等具有弹性特性的分布式缓存的概念相矛盾,因此是不可能的。 IE。当一个节点消失(无论出于何种原因发生故障或断开连接)时,集群将通过移动部分数据来重新平衡,每次节点加入集群时都会发生相同的过程。因此,如果集群发生变化,丢失节点的本地后备存储将变得过时。

Hazelcast 集群本质上是动态的,因此它不能依赖具有静态分布式拓扑的后台存储。本质上,您需要有一个共享的后备存储才能使其与动态 hazelcast 集群一起工作。后台存储也可以分发,例如cassandra,但其拓扑必须独立于缓存集群拓扑。

更新:在我看来,您想要实现的目标以具有本地缓存​​的分布式数据存储(在 MapDB 之上)的形式更符合逻辑。

希望对您有所帮助。

关于java - Hazelcast 和 MapDB——实现一个简单的分布式数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25621860/

相关文章:

java - 为整个应用设置静音/取消静音复选框

java - Apache/mod_jk 模块运行一段时间后无法连接 jboss

java - Hazelcast Spring 集成问题

java - MapDB中领域对象的序列化

java - 获取 DIV 值、CSS 值 - WebDriver (Selenium 2) - JAVA

java - 为什么在给mvn clean程序包时出现此错误:找不到表?

java - Hazelcast - 通用 map 配置

java - TestHazelcastFactory 客户端模拟无法正常工作

java - MapDB 文件备份

java - 如何从mapDB数据库检索数据,而不是每次都覆盖它?