hadoop - 将数据从 Hadoop 传输到 Google Cloud Storage 时如何加快 distcp 速度

标签 hadoop hdfs google-cloud-storage google-cloud-dataproc google-hadoop

Google 云提供了用于使用 Hadoop 的连接器。( https://cloud.google.com/hadoop/google-cloud-storage-connector )

使用连接器,我从 hdfs 接收数据到谷歌云存储

例如)

hadoop discp hdfs://${path} gs://${path}

但是数据太大(16TB),接收速度只有2mb/s

因此,我尝试更改设置 distcp( map 属性、bandwith 属性...)

但是速度是相同的。

如何在将数据从 HDFS 传输到 Google Cloud Storage 时加快 distcp 速度

最佳答案

official documentation指出将数据从本地集群传输到 GCP 的最佳选择之一是使用 VPN tunnel通过互联网,甚至使用多个 VPN tunnels以获得额外的带宽。

建议的其他选项包括在 Google 的边缘接入点 ( PoPs ) 和您的网络之间使用直接对等互连,或者在 Cloud Interconnect service provider 的帮助下建立与 Google 网络的直接连接。 .

关于hadoop - 将数据从 Hadoop 传输到 Google Cloud Storage 时如何加快 distcp 速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42974485/

相关文章:

hadoop - hadoop的日志记录框架

hadoop - map 与过滤器操作

hadoop - 配置单元未通过 “where”子句运行Map Reduce

java - 将图像(字节数组)写入hdfs

Hadoop:生成序列文件的示例过程,其中包含要在 map/reduce 中处理的图像二进制文件

apache-kafka - 如何使用Kafka连接输出到GCS中的动态目录?

R 没有连接到 HDFS

hadoop - HDFS保存数据的格式有哪些?

http - 谷歌云存储返回旧数据

google-app-engine - 将 Google Datastore 备份从数据存储加载到 Google BigQuery