我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS,然后将它们导出到 SequenceFile格式,然后最后按照此处所述将最新版本导入 Bigtable: https://cloud.google.com/bigtable/docs/exporting-importing
我最初将 CSV 文件作为 Hive 中的外部表导入,然后通过将它们插入到 SequenceFile 支持的表中来导出它们。
但是(可能是因为 dataproc 似乎与 Hive 1.0 一起提供?),我遇到了此处提到的转换异常错误:Bigtable import error
我似乎无法在 dataproc 主虚拟机上启动和运行 HBase shell 或 ZooKeeper,因此我无法从 CLI 运行简单的导出作业。
是否有其他方法可以从 dataproc 导出兼容 bigtable 的序列文件?
从 Dataproc VM 主节点运行 HBase 和 ZooKeeper 的正确配置是什么?
最佳答案
您链接到的导入说明是从现有 HBase 部署导入数据的说明。
如果您使用的输入格式是 CSV,则创建 SequenceFiles 可能是一个不必要的步骤。如何编写一个 Hadoop MapReduce 来处理 CSV 文件并直接写入 Cloud Bigtable?数据流也很适合这里。
看看这里的示例: https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java
关于google-cloud-bigtable - 使用Google Dataproc导入Bigtable中的CSV数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32868700/