hadoop - 根据上次修改将文件从 s3 下载到 Hive 中?

标签 hadoop amazon-s3 hive

我想下载一组 last modified 日期在特定时间段内的文件,比如 2015-5-62015-6 -17。这些文件的内容将直接放入一个 Hive 表中以供进一步处理。

我知道this是可能的,但是它要么只适用于一个文件,要么适用于整个存储桶。我想下载某个时间范围内 last modified 的存储桶中的所有文件。

如何根据上述需求将多个文件下载到一个Hive表中?

最佳答案

你试过吗

CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION   
's3n://mys3bucket/myDir/* ;  or  
's3n://mys3bucket/myDir/filename*'(if it starts with something common)

关于hadoop - 根据上次修改将文件从 s3 下载到 Hive 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30991639/

相关文章:

java - 使用 hadoop map reduce 处理 HTML 文件

hadoop - 无法将数据加载到 hive 表中

hadoop - 名称节点启动错误

hadoop - 从 HDFS 加载数据不适用于 Elephantbird

arrays - 是否有任何 Hive 数组比较函数/udf

amazon-web-services - Amazon Redshift - 卸载到 S3 - 动态 S3 文件名

python - S3 boto 列表键有时会返回目录键

angularjs - 在页面刷新时使用 Angular JS ui.router html5Mode(true) 配置 Amazon S3 静态站点

java - Hive JDBC 连接问题

mysql - SQL 元存储不适用于 hadoop 伪集群中的 hive