google-cloud-bigtable - 使用Google Dataproc导入Bigtable中的CSV数据

我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS，然后将它们导出到 SequenceFile格式，然后最后按照此处所述将最新版本导入 Bigtable: https://cloud.google.com/bigtable/docs/exporting-importing

我最初将 CSV 文件作为 Hive 中的外部表导入，然后通过将它们插入到 SequenceFile 支持的表中来导出它们。

但是(可能是因为 dataproc 似乎与 Hive 1.0 一起提供？)，我遇到了此处提到的转换异常错误:Bigtable import error

我似乎无法在 dataproc 主虚拟机上启动和运行 HBase shell 或 ZooKeeper，因此我无法从 CLI 运行简单的导出作业。

最佳答案

您链接到的导入说明是从现有 HBase 部署导入数据的说明。

如果您使用的输入格式是 CSV，则创建 SequenceFiles 可能是一个不必要的步骤。如何编写一个 Hadoop MapReduce 来处理 CSV 文件并直接写入 Cloud Bigtable？数据流也很适合这里。

关于google-cloud-bigtable - 使用Google Dataproc导入Bigtable中的CSV数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32868700/