amazon-web-services - s3 - 如何获得文件的快速行数? wc -l 太慢了

标签 amazon-web-services amazon-s3 boto boto3 aws-cli

有没有人可以快速获取 S3 中托管文件的行数?最好使用 CLI、s3api,但我也对 python/boto 持开放态度。
注意:解决方案必须以非交互方式运行,即隔夜批处理。

对,不,我正在这样做,它可以工作,但 20GB 文件需要大约 10 分钟:

 aws cp s3://foo/bar - | wc -l

最佳答案

这里有两种方法可能对你有用......

Amazon S3 有一项名为 S3 Select 的新功能它允许您查询存储在 S3 上的文件。

您可以对文件中的记录(行)数进行计数,它甚至可以处理 GZIP 文件。结果可能因您的文件格式而异。

S3 Select

亚马逊雅典娜 也是一个可能合适的类似选项。它可以查询存储在 Amazon S3 中的文件。

关于amazon-web-services - s3 - 如何获得文件的快速行数? wc -l 太慢了,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49683929/

相关文章:

amazon-web-services - JMeter AWS HTTPS SNI 问题

python - 如何使用 boto 在 S3 中设置元数据?

python - IAM 凭证错误 404

python - 如何转换 unicode 键名以便 amazon-s3 能够识别它?

hadoop - 我可以将 Hadoop 与 AWS4-HMAC-SHA256 一起使用吗?

amazon-web-services - 如何在cloudformation模板中生成并插入ssh公钥定义?

mysql - 从 SQL 触发器调用 AWS SNS 主题

amazon-web-services - 控制从我的应用程序对 AWS S3 文件的访问

php - 亚马逊 S3 : What are considered PUT/COPY/POST/LIST request?

javascript - AWS S3 访问仅有时被拒绝