我想从 citibike 上抓一张 table :https://s3.amazonaws.com/tripdata/index.html
我的目标是一次获取所有 zip 文件的 url,而不是手动输入所有日期并每次下载一个。由于网页每月更新一次,每次运行该功能时,我都希望能够获取所有最新的数据文件。
我首先尝试使用 Rvest 和 XML 包,然后意识到该网页同时包含 html 和由 javascript 函数生成的表格。这就是问题所在。
非常感谢任何帮助,如果我可以提供更多信息,请告诉我。
最佳答案
如果我去https://s3.amazonaws.com/tripdata/ (只是根,没有 index.html
)我得到一个简单的 XML 文件。相关元素是 Key
(大写 K,小写 e,y)如果你想解析 XML 但我只想搜索纯文本,即:忽略 XML,将其视为简单文本文件,获取 <Key>
之间的每个字符串和 </Key>
将其视为文件名并加上前缀 https://s3.amazonaws.com/tripdata/
得到它。
第一个条目似乎全部在一起 (170 MB),因此您可能不介意。
关于javascript - 如何在 R 中抓取 javascript 表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37401952/