curl - 如何从没有附加内容 URL 的下载按钮获取或 curl ?

标签 curl wget

我正在尝试从 https://dataverse.harvard.edu/dataverse/icews 的 ICEWS 数据集中下载一些文件.我正在尝试在 Google VM 实例上执行此操作,因为我的连接速度很慢,数据限制很昂贵。我试过 curlwget 都没有成功。对于我要下载的任何给定文件,都有一个附加了 URL 的下载按钮,例如:

http://dataverse.harvard.edu/file.xhtml?persistentId=doi:10.7910/DVN/28075/K7L9Y8#

但是这个 URL 似乎只是指向当前页面上按钮位置的链接。将此 URL 与 wgetcurl 一起使用会导致下载当前页面的 HTML,而不是下载文件内容。我找不到内容本身的直接链接,也找不到打印导致单击下载按钮的重定向链的方法。

这个问题有什么好的解决方案?命令行是首选,但如果有一些特定于 GCP 的解决方法,那也很好。我在这两个方面都是新手,越简单越好。

最佳答案

看看this link它将解释如何使用 wget 下载包。转到您提供的链接 here ,在“元数据选项卡”中,我复制了“下载 URL”>> 使用 wget 下载文件:

wget https://dataverse.harvard.edu/api/access/datafile/:persistentId?persistentId=doi:10.7910/DVN/28075/K7L9Y8

并且能够很好地查看数据:

:persistentId?persistentId=doi:10.7910%2FDVN%2F28075% 100%[======================================================================================================================>] 221.56M  4.02MB/s    in 84s     

2020-10-05 14:36:43 (2.62 MB/s) - ‘:persistentId?persistentId=doi:10.7910%2FDVN%2F28075%2FK7L9Y8.1’ saved [232325743/232325743]

th@instance-667:~$ ls
':persistentId?persistentId=doi:10.7910%2FDVN%2F28075%2FK7L9Y8'  ':persistentId?persistentId=doi:10.7910%2FDVN%2F28075%2FK7L9Y8.1'

th@instance-667:~$ cat ':persistentId?persistentId=doi:10.7910%2FDVN%2F28075%2FK7L9Y8.1'
Event ID        Event Date      Source Name    Source Sectors   Source Country  Event Text      CAMEO Code      Intensity       Target Name     Target Sectors  Target Country  Story ID        Sentence Number Publisher    City    District        Province       Country  Latitude        Longitude
20718170        2014-01-01      Police (Australia)      Police,Government       Australia 

我想这就是您所需要的?

关于curl - 如何从没有附加内容 URL 的下载按钮获取或 curl ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64198439/

相关文章:

c++ - getaddrinfo在程序中调用assert

c++ - 如何使用 OpenSSL 测量 C++ Curl 中的握手时间?

linux - wget 下载图片,链接被截断

windows - 检查 Web 服务器并且不从同一服务器上的配置文件解析端口 80 和端口 8080

使用多个证书连接到服务器时出现 java.security.cert.CertificateException

unix - Hudson 触发器远程构建会出现禁止的 403 错误

wget - 如果页面不存在,如何使用wget下载页面但忽略404错误消息?

linux - 如何使用 cURL 从文件中读取标题?

json - 如何发布嵌套数据和图像列表

php - Paypal IPN 返回空响应 PHP