hadoop - 用Impala写入S3 Parquet

标签 hadoop amazon-s3 hive impala

我想以 Parquet 格式将整个表写入s3a。
我们将其称为表abc_schem.thattable。我想使用Impala查询来
SELECT * WHERE to_date(create_time)='YYYY-MM-DD'

写入Parquet S3的确切语法是什么?

最佳答案

您可以在特定位置创建一个外部表,然后在已配置s3系统的情况下将其插入其中

CREATE EXTERNAL TABLE abc_schem.thattable(
... 
) 
STORED AS PARQUET 
LOCATION 's3a://bucket/path';

然后使用一些LOAD DATAINSERT INTO... SELECT... FROM命令在此处获取数据

关于hadoop - 用Impala写入S3 Parquet ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53310733/

相关文章:

hadoop - Apache-Pig,转换子组

hadoop - org.apache.hadoop.mapred.TaskTracker:运行子级错误:java.lang.OutOfMemoryError:Java堆空间

amazon-web-services - 无法使用 Hadoop 访问 S3 存储桶

java - 尝试使用 Hive streaming api 建立连接时,hive 暂存目录的权限被拒绝

hadoop - 如何在超过3个级别的配置单元中加载嵌套集合

csv - 通过Ambari将大型csv文件加载到Hive

hadoop - yarn 模式下的 Spark RDD map 不允许访问变量?

c# - 'Amazon.S3.AmazonS3Client' 的类型初始值设定项抛出异常

amazon-web-services - 如何使用 Go 跟踪分段上传到 s3 的进度?

php - AWS 开发工具包 (PHP) : Invoking lambda function asynchronously, 检索状态