我正在尝试从此页面中抓取表格: http://data.eastmoney.com/xg/xg/ 有 18 个单独的页面,每个页面的 URL 都不会改变。
我将如何尝试抓取这些数据? 我通常使用 BeautifulSoup 来抓取 HTML 页面,但在这种情况下,数据不会出现在 HTML 代码中,因此我无法在 url 上使用 BeautifulSoup 来获取我需要的数据。
如有任何建议,我们将不胜感激。
最佳答案
看看该页面的源代码,它只是调用这个 url,它似乎返回一个 csv 类型文件,您可以弄清楚如何处理。
http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=NS&sty=NSST&st=12&sr=-1&p=1&ps=50&js=var%20IBnVRrwA={pages:%28pc%29,data :[%28x%29]}&stat=1&rt=47876809
底线是你不需要抓取这个表格
查看 &ps=50
值,这是限制,将其设置为 &ps=5000
之类的值,您不需要从一个页面到另一个页面。
&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}
位是 jsonp 回调?
关于javascript - 如何使用 python 抓取 javascript 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31279496/