hadoop - HBase : get(. ..) vs 扫描和内存表

标签 hadoop mapreduce hbase

我在 HBase 上执行 MR。

reducer 中的业务逻辑大量访问两个表,比如 T1(40k 行)和 T2(90k 行)。目前,我正在执行以下步骤:

1.在reducer类的构造函数中,做这样的事情:

HBaseCRUD hbaseCRUD = new HBaseCRUD();

HTableInterface t1= hbaseCRUD.getTable("T1",
                            "CF1", null, "C1", "C2");
HTableInterface t2= hbaseCRUD.getTable("T2",
                            "CF1", null, "C1", "C2");

在减少(...)

 String lowercase = ....;

/* Start : HBase code */
/*
 * TRY using get(...) on the table rather than a
 * Scan!
 */
Scan scan = new Scan();
scan.setStartRow(lowercase.getBytes());
scan.setStopRow(lowercase.getBytes());

/*scan will return a single row*/
ResultScanner resultScanner = t1.getScanner(scan);

for (Result result : resultScanner) {
 /*business logic*/
}

虽然首先不确定上面的代码是否合理,但我有一个问题 - get(...) 会比扫描提供任何性能优势吗?

Get get = new Get(lowercase.getBytes());
Result getResult = t1.get(get);

由于 T1 和 T2 将是只读的(大部分),我认为如果保留在内存中,性能将会提高。根据 HBase 文档,我将不得不重新创建表 T1 和 T2。请验证我理解的正确性:

public void createTables(String tableName, boolean readOnly,
            boolean blockCacheEnabled, boolean inMemory,
            String... columnFamilyNames) throws IOException {
        // TODO Auto-generated method stub

        HTableDescriptor tableDesc = new HTableDescriptor(tableName);
        /* not sure !!! */
        tableDesc.setReadOnly(readOnly);

        HColumnDescriptor columnFamily = null;

        if (!(columnFamilyNames == null || columnFamilyNames.length == 0)) {

            for (String columnFamilyName : columnFamilyNames) {

                columnFamily = new HColumnDescriptor(columnFamilyName);
                /*
                 * Start : Do these steps ensure that the column
                 * family(actually, the column data) is in-memory???
                 */
                columnFamily.setBlockCacheEnabled(blockCacheEnabled);
                columnFamily.setInMemory(inMemory);
                /*
                 * End : Do these steps ensure that the column family(actually,
                 * the column data) is in-memory???
                 */

                tableDesc.addFamily(columnFamily);
            }
        }

        hbaseAdmin.createTable(tableDesc);
        hbaseAdmin.close();
    }

一旦完成:

  1. 如何验证列在内存中(当然,描述语句和浏览器反射(reflect)了它)并从那里访问而不是磁盘?
  2. 从内存或从磁盘读取对客户端来说是透明的吗?简而言之,我是否需要更改我的 reducer 类中的 HTable 访问代码?如果是,有哪些变化?

最佳答案

get(...) 会比扫描提供任何性能优势吗?

Get 直接对由作为参数传递给 Get 实例的 rowkey 标识的特定行进行操作。当 Scan 对所有行进行操作时,如果您没有通过向 Scan 实例提供开始和结束行键来使用范围查询。显然,如果您事先知道要对哪一行进行操作,效率会更高。您可以直接去那里执行所需的操作。

如何验证列在内存中(当然,描述语句和浏览器反射(reflect)了它)并从那里访问而不是磁盘?

您可以使用 HColumnDescriptor 提供的 isInMemory() 方法来验证特定 CF 是否在内存中。但是,您无法确定整个表都在内存中,也无法确定是从磁盘还是内存中获取数据。尽管内存中的 block 具有最高优先级,但并不能 100% 确定所有内容一直都在内存中。这里的一件重要事情是,即使在内存 CF 的情况下,数据也会持久保存到磁盘。

从内存或从磁盘读取对客户端来说是透明的吗?简而言之,我是否需要更改我的 reducer 类中的 HTable 访问代码?如果是,有哪些变化?

是的。它是完全透明的。您无需执行任何额外操作。

关于hadoop - HBase : get(. ..) vs 扫描和内存表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18737212/

相关文章:

hadoop - 是否可以配置clickhouse数据存储为hdfs

python - Python NameNode脚本

hadoop - 如何在Hadoop中查看Map Task的内存占用

hadoop - 运行 WordCount v1.0 示例时 part-00000 中没有输出

hadoop - 为什么我的 Hadoop 作业得到 Map task num = 1 ,并生成了 300 多个结果文件?

hadoop - 在 hbase 集群上设置多个 tsd

mysql - Acculo 中的模式/数据库

amazon-s3 - Hadoop 输入文件

hadoop - 在HIVE选择查询中,Mapper Reducer不会从零增加

hadoop - 在hadoop Map-Reduce中,如何知道map任务结束或filesplit结束