我正在 Windows 机器上使用 python 3.2 (newb)(尽管如果需要的话,我在虚拟机上有 ubuntu 10.04,但我更喜欢在 Windows 机器上工作)。
基本上我可以使用 http 模块和 urlib 模块来抓取网页,但仅限那些没有 java 脚本 document.write("
为了处理这些类型的网站,我很确定我需要一个浏览器 Java 脚本处理器来在页面上工作,并为我提供最终结果的输出,希望是字典或文本。
我尝试编译 python-spider Monkey,但我知道它不适用于 Windows,并且不适用于 python 3.x :-?
有什么建议吗?如果有人之前做过类似的事情,我将不胜感激!
最佳答案
我推荐 python 与 webkit 库的绑定(bind) - here is an example 。 Webkit 是跨平台的,用于在 Chrome 和 Safari 中渲染网页。一个优秀的图书馆。
关于javascript - 在 Python 中使用 java 脚本抓取网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5338979/