有一个网站包含我们付费访问的信息,但是访问该信息的唯一方式是通过该网站,并且有 1400 条记录。因此,由于信息量很大,我们希望将信息保存在易于管理的 Excel 电子表格中。然而,该网站的负责人并不愿意提供帮助。
我可以编写一个Python脚本来解析html并提取相关数据,但是,问题是该网站不容易被抓取,因为它是一个ASP网站,并且许多“链接”实际上是触发加载目标页面的 javascript。这意味着像 HTTrack 这样的工具确实不起作用。
是否有任何其他工具或 python 模块可以帮助我做到这一点(记住“javascript”链接)?我对这种事情完全陌生,所以我对我可以使用哪些类型的东西没有经验。
最佳答案
Jython + HtmlUnit 在您的任务中可能非常有用。
关于javascript - 爬行网站以提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26482246/