Google 云提供了用于使用 Hadoop 的连接器。( https://cloud.google.com/hadoop/google-cloud-storage-connector )
使用连接器,我从 hdfs 接收数据到谷歌云存储
例如)
hadoop discp hdfs://${path} gs://${path}
但是数据太大(16TB),接收速度只有2mb/s
因此,我尝试更改设置 distcp( map 属性、bandwith 属性...)
但是速度是相同的。
如何在将数据从 HDFS 传输到 Google Cloud Storage 时加快 distcp 速度
最佳答案
official documentation指出将数据从本地集群传输到 GCP 的最佳选择之一是使用 VPN tunnel通过互联网,甚至使用多个 VPN tunnels以获得额外的带宽。
建议的其他选项包括在 Google 的边缘接入点 ( PoPs ) 和您的网络之间使用直接对等互连,或者在 Cloud Interconnect service provider 的帮助下建立与 Google 网络的直接连接。 .
关于hadoop - 将数据从 Hadoop 传输到 Google Cloud Storage 时如何加快 distcp 速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42974485/