我一直在努力下载这里提到的 arXiv 文章大约一个星期:http://arxiv.org/help/bulk_data_s3#src .
我尝试了很多东西:s3Browser
, s3cmd
.我可以登录到我的存储桶,但无法从 arXiv 存储桶下载数据。
我试过:
s3cmd get s3://arxiv/pdf/arXiv_pdf_1001_001.tar
见:
$ s3cmd get s3://arxiv/pdf/arXiv_pdf_1001_001.tar
s3://arxiv/pdf/arXiv_pdf_1001_001.tar -> ./arXiv_pdf_1001_001.tar [1 of 1]
s3://arxiv/pdf/arXiv_pdf_1001_001.tar -> ./arXiv_pdf_1001_001.tar [1 of 1]
ERROR: S3 error: Unknown error
s3cmd get
与 x-amz-request-payer:requester
它再次给了我同样的错误:
$ s3cmd get --add-header="x-amz-request-payer:requester" s3://arxiv/pdf/arXiv_pdf_manifest.xml
s3://arxiv/pdf/arXiv_pdf_manifest.xml -> ./arXiv_pdf_manifest.xml [1 of 1]
s3://arxiv/pdf/arXiv_pdf_manifest.xml -> ./arXiv_pdf_manifest.xml [1 of 1]
ERROR: S3 error: Unknown error
我也试过从那个文件夹复制文件。
$ aws s3 cp s3://arxiv/pdf/arXiv_pdf_1001_001.tar .
A client error (403) occurred when calling the HeadObject operation: Forbidden
Completed 1 part(s) with ... file(s) remaining
这可能意味着我犯了一个错误。问题是我不知道如何添加以及添加什么来表达我对支付下载费用的许可。
我无法弄清楚从 S3 下载数据应该怎么做。我在 AWS 网站上阅读了很多内容,但无处可找到我的问题的精确解决方案。
如何批量下载 arXiv 数据?
最佳答案
下载试试s3cmd
版本1.6.0
:http://sourceforge.net/projects/s3tools/files/s3cmd/
$ s3cmd --configure
输入您在 Amazon AWS 网站界面的账户管理选项卡中找到的凭证。
$ s3cmd get --recursive --skip-existing s3://arxiv/src/ --requester-pays
关于amazon-web-services - 如何从亚马逊的请求者支付桶下载数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28784528/