我正在尝试抓取一个网站。传统的 HTML 通过 Python 中的 "urllib2.urlopen" 或 R 中的 "htmlTreeParse" 解析,无法从网页中获取数据。这是服务器有意完成的,因此查看源代码不会显示显示的数据,但是当我使用谷歌浏览器中的检查元素功能时(通过右键单击谷歌浏览器中的网站),然后我能够看到数据(元素 list 及其信息)。我的问题是如何以编程方式启动所需的页面并保存每个页面的检查元素。或者,如果我有一个程序可以启动这些链接并以某种方式使用 Control-S
将每个链接的 html 副本保存到本地磁盘。
<html>
<iframe id=frame1></iframe>
<script>
var base="http://www.yelp.ca/search?cflt=coffee&find_loc=Toronto,%20ON&start="; //the part of the url that stays the same
var pages=[20, 40, 60, 80]; //all the differing url parts to be concat'd at the end
var delay= 1000 * 30; //30 sec delay, adjust if needed
var slot=0; //current shown page's index in pages
function doNext(){
var page=pages[slot++];
if(!page){ page=pages[slot=0]; }
frame1.src=base+page;
}
setInterval(doNext, delay);
</script>
</html>