javascript - 爬行网站以提取数据

标签 javascript python web-crawler

有一个网站包含我们付费访问的信息,但是访问该信息的唯一方式是通过该网站,并且有 1400 条记录。因此,由于信息量很大,我们希望将信息保存在易于管理的 Excel 电子表格中。然而,该网站的负责人并不愿意提供帮助。

我可以编写一个Python脚本来解析html并提取相关数据,但是,问题是该网站不容易被抓取,因为它是一个ASP网站,并且许多“链接”实际上是触发加载目标页面的 javascript。这意味着像 HTTrack 这样的工具确实不起作用。

是否有任何其他工具或 python 模块可以帮助我做到这一点(记住“javascript”链接)?我对这种事情完全陌生,所以我对我可以使用哪些类型的东西没有经验。

最佳答案

Jython + HtmlUnit 在您的任务中可能非常有用。

关于javascript - 爬行网站以提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26482246/

相关文章:

javascript - Require JS 定义函数中如何处理参数

python - 替换字符串 Python

Python:禁用 $HOME/.python-eggs?

asp.net - 如何解决抓取问题

javascript - 我是否需要运行我的 AngularJS 应用程序代码,或者如果我使用 ng-app,它会被 AngularJS 调用吗?

javascript - 打开带有 html 表单的页面,然后预先填写它

javascript - Kendo Grid C# - 再次选择当前页面而不刷新数据源

python - Azure 自定义视觉在其他预测资源上迁移迭代

php - 做一个友好的多语言网站

python - 如何在 scrapy - python 中将多个 URL 保存为每个 StartURL 文件?