google-cloud-bigtable - 使用Google Dataproc导入Bigtable中的CSV数据

标签 google-cloud-bigtable google-cloud-dataproc

我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS,然后将它们导出到 SequenceFile格式,然后最后按照此处所述将最新版本导入 Bigtable: https://cloud.google.com/bigtable/docs/exporting-importing

我最初将 CSV 文件作为 Hive 中的外部表导入,然后通过将它们插入到 SequenceFile 支持的表中来导出它们。

但是(可能是因为 dataproc 似乎与 Hive 1.0 一起提供?),我遇到了此处提到的转换异常错误:Bigtable import error

我似乎无法在 dataproc 主虚拟机上启动和运行 HBase shell 或 ZooKeeper,因此我无法从 CLI 运行简单的导出作业。

  1. 是否有其他方法可以从 dataproc 导出兼容 bigtable 的序列文件?

  2. 从 Dataproc VM 主节点运行 HBase 和 ZooKeeper 的正确配置是什么?

最佳答案

您链接到的导入说明是从现有 HBase 部署导入数据的说明。

如果您使用的输入格式是 CSV,则创建 SequenceFiles 可能是一个不必要的步骤。如何编写一个 Hadoop MapReduce 来处理 CSV 文件并直接写入 Cloud Bigtable?数据流也很适合这里。

看看这里的示例: https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java

关于google-cloud-bigtable - 使用Google Dataproc导入Bigtable中的CSV数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32868700/

相关文章:

apache-spark - Spark HBase/BigTable - 宽/稀疏数据帧持久性

hadoop - 谷歌云存储的 S3Guard 或 s3committer

apache-spark - 如何重命名在 Dataproc Serverless 上运行的 Spark 中的 GCS 文件?

apache-spark - dataproc 上的 Spark 默认设置,尤其是 Spark.yarn.am.memory

go - 将行写入 Cloud Bigtable 时出现客户端错误

bigtable - BigTable 中的 Bloom Filter 可以仅根据行 ID 进行过滤吗?

google-cloud-firestore - 对于 Cloud Bigtable,我们是否需要至少 3 个节点一直运行?

java - Google Cloud Bigtable 实例

python - 如何使用 pyspark 将 Spark DataFrame 保存回 Google BigQuery 项目?

java - 使用 Spark 驱动程序中的 Java native readObject 进行反序列化时出现 ClassCastException