这是我想要做的:
将Hive中的数据加载到通过 Protocol Buffer 序列化的HBase中。
我尝试了多种方法:
但是现在我想以一种更有效的方式实现这一目标:
从S3中的Hive表导出我的数据,将它们序列化为 Protocol Buffer 对象,然后生成HFile并将HFile直接安装到HBase上。
我正在使用Spark作业从Hive读取数据,这可以给我JavaRDD,然后可以构建 Protocol Buffer 对象,但我无所适从。
所以我的问题是:如何从 Protocol Buffer 对象生成HFile。
我们不想将它们另存为本地磁盘或HDFS上的文本文件,如何从那里直接生成HFile?
非常感谢!
最佳答案
感谢@Samson指出了该很棒的帖子。
经过反复试验,我得到了解决的办法。
为了减轻别人的痛苦,这是工作中的example。
它能做什么:
它使用Spark从S3读取数据,将它们重新划分为相应的区域,生成HFiles。
关于hadoop - 关于如何通过HFile将 Protocol Buffer 文件批量加载到HBase上的任何想法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44311678/