hadoop - Hbase、区域服务器、存储文件大小、索引

标签 hadoop indexing compression hbase hortonworks-data-platform

您是否对 Hbase 中的索引表使用压缩? 如果是这样,您使用什么类型的压缩?

我注意到我的索引表的大小很大,并且每天都在增长......添加新存储后,大小甚至更大。

我有例如表A,其大小为108.3 G

在/apps/hbase/data/data/default中,索引表大小为380.0 G

在/apps/hbase/data/archive/data/default 中,索引表的大小为1.2 T

您能建议我如何处理索引表的大小吗?

为什么HDFS上归档的数据这么大? /apps/hbase/data/archive/data/default

HDFS 上归档目录的大小可以通过某种方式进行管理吗? 存档占用了我的 HDFS 空间的 2/3 以上。

我还注意到,我在三个表上有一百多个“分割区域”,其他表没有“分割区域”。你知道这可能是什么原因吗?

最佳答案

我在stage环境中发现,/apps/hbase/data/archive/中数据量大的原因是由cron运行的每日hbase快照引起的。

所以,现在我将重写脚本,并只保留一两个表快照。

关于hadoop - Hbase、区域服务器、存储文件大小、索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41096775/

相关文章:

c++ - C++-使用uint8_t指针将字符串值传递给函数

hadoop - Apache PIG-将毫秒转换为TimeStamp Unix

python - Numpy 从形状广播索引

python - 在 Pandas 中选择感兴趣的行之前和之后的行

java - 获取我刚刚添加到 Java/Android 中的 ArrayList 的对象的索引

ffmpeg - 为什么 LZW 压缩中压缩缓冲区需要大于输入缓冲区?

python - 是否存在 UCL 的 Python 实现或接口(interface)?

hadoop - 在 LINUX 命令行运行 HIVE 时出错。java 版本 = 1.7,HADOOP 2.3.0,Apache HIVE 1.1.0

objective-c - 从 Objective-C 中的 bz2 文件读取日志文件

mongodb - 使用 Apache Sqoop 将数据从 Mongo/Cassandra 导出到 HDFS