我在 Windows 命令行上工作,因为 Unix 和防火墙的问题阻止 gsutil
工作。我可以读取我的 Google Cloud Storage 文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到 HDFS(我正在“进入”)?有没有人这样做过?理想情况下,这是第一部分,第二部分是为 Google Cloud Storage 数据创建 Hive 表,以便我们可以使用 HiveQL 和 Pig。
最佳答案
您可以使用 Google Cloud Storage connector它为您在 Google Cloud Storage 中的数据提供了一个 HDFS-API 兼容接口(interface),因此您甚至不需要将其复制到任何地方,只需直接读取和写入您的 Google Cloud Storage 存储桶/对象即可。
设置连接器后,如有必要,您还可以使用 hdfs
工具在 HDFS 和 Google Cloud Storage 之间复制数据。
关于hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34207593/