hadoop - 用Impala写入S3 Parquet

标签 hadoop amazon-s3 hive impala

我想以 Parquet 格式将整个表写入s3a。
我们将其称为表abc_schem.thattable。我想使用Impala查询来
SELECT * WHERE to_date(create_time)='YYYY-MM-DD'

写入Parquet S3的确切语法是什么？

最佳答案

您可以在特定位置创建一个外部表，然后在已配置s3系统的情况下将其插入其中

CREATE EXTERNAL TABLE abc_schem.thattable(
... 
) 
STORED AS PARQUET 
LOCATION 's3a://bucket/path';

然后使用一些LOAD DATA或INSERT INTO... SELECT... FROM命令在此处获取数据

关于hadoop - 用Impala写入S3 Parquet ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53310733/

上一篇：docker - 无法在 Docker 文件中添加 rabbitmq 用户

下一篇：powershell - 在 Windows Docker 容器 Windows Server 2016 中运行时出现 Windows Defender/更新问题

相关文章：

hadoop - Apache-Pig，转换子组

hadoop - org.apache.hadoop.mapred.TaskTracker:运行子级错误:java.lang.OutOfMemoryError:Java堆空间

amazon-web-services - 无法使用 Hadoop 访问 S3 存储桶

java - 尝试使用 Hive streaming api 建立连接时，hive 暂存目录的权限被拒绝

hadoop - 如何在超过3个级别的配置单元中加载嵌套集合

csv - 通过Ambari将大型csv文件加载到Hive

hadoop - yarn 模式下的 Spark RDD map 不允许访问变量？

c# - 'Amazon.S3.AmazonS3Client' 的类型初始值设定项抛出异常

amazon-web-services - 如何使用 Go 跟踪分段上传到 s3 的进度？

php - AWS 开发工具包 (PHP) : Invoking lambda function asynchronously, 检索状态

©2024 IT工具网联系我们