hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表

标签 hadoop hive hdfs google-cloud-storage

我在 Windows 命令行上工作,因为 Unix 和防火墙的问题阻止 gsutil 工作。我可以读取我的 Google Cloud Storage 文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到 HDFS(我正在“进入”)?有没有人这样做过?理想情况下,这是第一部分,第二部分是为 Google Cloud Storage 数据创建 Hive 表,以便我们可以使用 HiveQL 和 Pig。

最佳答案

您可以使用 Google Cloud Storage connector它为您在 Google Cloud Storage 中的数据提供了一个 HDFS-API 兼容接口(interface),因此您甚至不需要将其复制到任何地方,只需直接读取和写入您的 Google Cloud Storage 存储桶/对象即可。

设置连接器后,如有必要,您还可以使用 hdfs 工具在 HDFS 和 Google Cloud Storage 之间复制数据。

关于hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34207593/

相关文章:

执行字数统计程序时的 Hadoop 错误

hadoop - block 级别的 HDFS 压缩

sql - 如何用 Hive 做 Max in count(*)?

hadoop - 在 pig 中分组时如何处理倾斜数据

python - 在文件夹中使用Python库进行Hive转换

macos - 为什么自制 Hadoop 2.3 不能运行 OSX Mavericks?

hadoop - Orc 不比 Hive 中的 csv 快?

sql - 将 mysql 查询重写为 hive

azure - 在Azure Hdinsight上将数据从HDFS加载到Hive时出错

hadoop - Hbase 0.92.1 二级索引示例