javascript - 如何使用 python 抓取 javascript 表

标签 javascript python html datatable

我正在尝试从此页面中抓取表格: http://data.eastmoney.com/xg/xg/ 有 18 个单独的页面,每个页面的 URL 都不会改变。

我将如何尝试抓取这些数据? 我通常使用 BeautifulSoup 来抓取 HTML 页面,但在这种情况下,数据不会出现在 HTML 代码中,因此我无法在 url 上使用 BeautifulSoup 来获取我需要的数据。

如有任何建议,我们将不胜感激。

最佳答案

看看该页面的源代码,它只是调用这个 url,它似乎返回一个 csv 类型文件,您可以弄清楚如何处理。

http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=NS&sty=NSST&st=12&sr=-1&p=1&ps=50&js=var%20IBnVRrwA={pages:%28pc%29,data :[%28x%29]}&stat=1&rt=47876809

底线是你不需要抓取这个表格

查看 &ps=50 值,这是限制,将其设置为 &ps=5000 之类的值,您不需要从一个页面到另一个页面。

&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]} 位是 jsonp 回调?

关于javascript - 如何使用 python 抓取 javascript 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31279496/

相关文章:

Python 计数器,用于计算输出中列出的最常见字符串

html - 使用输入名称字段上传图像

javascript - 确定在我的网页中单击垂直或水平滚动条的位置

javascript - 在 jQuery .load Ajax 之后执行 if 语句

javascript - 当更改 onclick 中的 location.hash 时,它会更改为 undefined

python - 使用 pandas 或 python 替换为重复列的第一次出现值

python - 使用 0.8.8+ 版本在页眉或页脚中添加页码

javascript - web3.eth.accounts 返回一个函数

javascript - 在 javascript 中使用搜索并替换为正则表达式

jQuery:滚动后恢复为默认值