javascript - 爬行网站以提取数据

已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。

我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便用事实和引文来回答。

已关闭 8 年前。

有一个网站包含我们付费访问的信息，但是访问该信息的唯一方式是通过该网站，并且有 1400 条记录。因此，由于信息量很大，我们希望将信息保存在易于管理的 Excel 电子表格中。然而，该网站的负责人并不愿意提供帮助。

我可以编写一个Python脚本来解析html并提取相关数据，但是，问题是该网站不容易被抓取，因为它是一个ASP网站，并且许多“链接”实际上是触发加载目标页面的 javascript。这意味着像 HTTrack 这样的工具确实不起作用。

是否有任何其他工具或 python 模块可以帮助我做到这一点(记住“javascript”链接)？我对这种事情完全陌生，所以我对我可以使用哪些类型的东西没有经验。

最佳答案

Jython + HtmlUnit 在您的任务中可能非常有用。

关于javascript - 爬行网站以提取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26482246/

相关文章：

javascript - Require JS 定义函数中如何处理参数