javascript - 如何在 R 中抓取 javascript 表？

我想从 citibike 上抓一张 table :https://s3.amazonaws.com/tripdata/index.html

我的目标是一次获取所有 zip 文件的 url，而不是手动输入所有日期并每次下载一个。由于网页每月更新一次，每次运行该功能时，我都希望能够获取所有最新的数据文件。

我首先尝试使用 Rvest 和 XML 包，然后意识到该网页同时包含 html 和由 javascript 函数生成的表格。这就是问题所在。

非常感谢任何帮助，如果我可以提供更多信息，请告诉我。

最佳答案

如果我去https://s3.amazonaws.com/tripdata/ (只是根，没有 index.html )我得到一个简单的 XML 文件。相关元素是 Key (大写 K，小写 e，y)如果你想解析 XML 但我只想搜索纯文本，即:忽略 XML，将其视为简单文本文件，获取 <Key> 之间的每个字符串和 </Key>将其视为文件名并加上前缀 https://s3.amazonaws.com/tripdata/得到它。

第一个条目似乎全部在一起 (170 MB)，因此您可能不介意。

关于javascript - 如何在 R 中抓取 javascript 表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37401952/

上一篇：javascript - D3 形状跟随路径

下一篇：javascript - 如何使用 JavaScript 停用带有 onClick 事件的图像？ (处理浏览器扩展)

相关文章：

r - 图例标签与指定颜色 ggplot2 不匹配

r - 使用 `!!` 而不附加 `rlang`

r - 为什么可以在 dplyr 辅助函数 "where"中检测到 tidyselect 辅助函数 "across"？

javascript - 将文本区域数据从 HTML 页面保存到 TXT 文件

R 中 URL 中每个单词的行频率

python - 从亚马逊网站获取 href 链接时出现问题。 xpath 找到的 href 链接比预期多得多。

python - 使用 BeautifulSoup 在脚本标签内查找键

javascript - 通过连接多个数组来创建列表矩阵

javascript - 通过 Angular JS 中的 ajax 调用加载模板 url

javascript - 如何在 jquery 插件中将选项扩展为全局选项