javascript - 使用 Python 抓取 javascript 生成的数据

标签 javascript python screen-scraping web-scraping

我想使用 Python 抓取以下 url 的一些数据。 http://www.hankyung.com/stockplus/main.php?module=stock&mode=stock_analysis_infomation&itemcode=078340

这是关于公司信息的汇总。

我要抓取的内容没有显示在第一页上。 通过单击名为“재무제표”的选项卡,您可以访问财务报表。然后单击名为“현금흐름표”的选项卡,您可以访问“现金流量”。

我想抓取“现金流”数据。

但是,现金流量数据是由 javascript 跨 url 生成的。 以下链接是隐藏的网址,http://stock.kisline.com/compinfo/financial/main.action?vhead=N&vfoot=N&vstay=&omit=&vwidth=

现金流量数据是通过向此 url 提交一些选项值和 cookie 生成的。

如您所见,第一个链接中的itemcode=078340表示股票代码,我要收集现金流数据的股票多达1680只。我想让它成为一个循环结构。

是否有抓取现金流数据的好方法? 我试过 scrapy,但 scrapy 很难处理我已经在使用的另一个抓取代码。

最佳答案

还有 dryscape (我写的一个库,所以推荐有点偏,显然 :) 它使用基于 Webkit 的快速内存浏览器来导航。它也理解 Javascript,但比 Selenium 轻量级得多。

关于javascript - 使用 Python 抓取 javascript 生成的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10052465/

相关文章:

python - Python 的 VS Code 函数签名 IntelliSense 从哪里来?

javascript - Python 将 2 组数据放入 JSON 对象中以进行 ajax 响应

linux - 如何使用不同的导出 IP 一次运行多个 Tor 进程?

python - 使用 StaticFileHandler 在 Tornado Python 上托管文件

python - 使用 Python 中的 requests 或 mechanize 加载所有第三方脚本

python - 用于网络抓取的旋转代理

javascript - 无法获取作为函数参数传递的数组长度

javascript - 如何从 Angular 9 正确加载和使用gapi.iframes库?

javascript - 未捕获的类型错误 : object is not a function on Google Maps

javascript - 复选框 + Jquery 隐藏/显示