javascript - 如何在 R 中抓取 javascript 表?

标签 javascript r web-scraping

我想从 citibike 上抓一张 table :https://s3.amazonaws.com/tripdata/index.html

我的目标是一次获取所有 zip 文件的 url,而不是手动输入所有日期并每次下载一个。由于网页每月更新一次,每次运行该功能时,我都希望能够获取所有最新的数据文件。

我首先尝试使用 Rvest 和 XML 包,然后意识到该网页同时包含 html 和由 javascript 函数生成的表格。这就是问题所在。

非常感谢任何帮助,如果我可以提供更多信息,请告诉我。

最佳答案

如果我去https://s3.amazonaws.com/tripdata/ (只是根,没有 index.html )我得到一个简单的 XML 文件。相关元素是 Key (大写 K,小写 e,y)如果你想解析 XML 但我只想搜索纯文本,即:忽略 XML,将其视为简单文本文件,获取 <Key> 之间的每个字符串和 </Key>将其视为文件名并加上前缀 https://s3.amazonaws.com/tripdata/得到它。

第一个条目似乎全部在一起 (170 MB),因此您可能不介意。

关于javascript - 如何在 R 中抓取 javascript 表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37401952/

相关文章:

r - 图例标签与指定颜色 ggplot2 不匹配

r - 使用 `!!` 而不附加 `rlang`

r - 为什么可以在 dplyr 辅助函数 "where"中检测到 tidyselect 辅助函数 "across"?

javascript - 将文本区域数据从 HTML 页面保存到 TXT 文件

R 中 URL 中每个单词的行频率

python - 从亚马逊网站获取 href 链接时出现问题。 xpath 找到的 href 链接比预期多得多。

python - 使用 BeautifulSoup 在脚本标签内查找键

javascript - 通过连接多个数组来创建列表矩阵

javascript - 通过 Angular JS 中的 ajax 调用加载模板 url

javascript - 如何在 jquery 插件中将选项扩展为全局选项