hadoop - Hive插入HBase-可能生成 key ?

标签 hadoop hive key hbase generator

我一直在尝试通过Hive将.csv文件导入HBase,以避免在Java中编写批量加载程序。我已经设法将整个.csv(十亿行)加载到Hive中,并且由于我在Hbase中遇到了一些问题,因此我试图仅导入前10行,然后再导入其余的行。

事实是,.csv文件没有为要分配为HBase所需的HBase表键的每一行唯一的值。这导致INSERT OVERWRITE仅插入10的最后一行,因为我最初定义为键的列在所有10行中都包含相同的值(但是在整个文件中并非如此)

Hive / Hbase是否有一种方法可以生成具有递增整数/浮点数/任何其他类型的键列?

最佳答案

我看到几种解决方案:

  • 配置单元hbase集成支持复合主键
  • concat_ws(列)
  • 反射(reflect)(“java.util.UUID”,“randomUUID”)
  • sha1(concat_ws(columns))#可能导致碰撞

  • 参见https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration#HBaseIntegration-SimpleCompositeRowKeys

    关于hadoop - Hive插入HBase-可能生成 key ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31030887/

    相关文章:

    hadoop - 启动 hiveserver2

    带有 chrome 驱动程序的 python selenium "send_keys"会掉落字符

    JavaScript 重新排序对象的元素

    apache - 向 Oozie 工作流通知添加授权

    mysql - 计算 hiveql 中有假期列表的工作日

    hadoop - 在Spark中读取级联序列文件

    c++ - 矩形的 OpenGL 渐变不起作用

    azure - HDInsight Azure Blob存储更改

    mysql - Hive表和Netezza表之间的匹配记录

    hive - 访问被拒绝 - EMR Presto - 基于文件的授权