<分区>
我想在谷歌应用引擎中使用 selenium 或 windmill 来抓取一个充满 JS 的网站。我知道 windmill 是用 python 和 javascript 编写的。
这可能吗?如果是,如何插入库?
如果不能,您能否解释原因并提供替代方案?
谢谢。
更新
我又搜索了一下,发现scrapy是纯python的。
那行得通吗?它处理 javascript 吗?
<分区>
我想在谷歌应用引擎中使用 selenium 或 windmill 来抓取一个充满 JS 的网站。我知道 windmill 是用 python 和 javascript 编写的。
这可能吗?如果是,如何插入库?
如果不能,您能否解释原因并提供替代方案?
谢谢。
我又搜索了一下,发现scrapy是纯python的。
那行得通吗?它处理 javascript 吗?
最佳答案
任何 python“抓取”库都不可能在 appengine 上为您解释 javascript,因为它可能需要某种 C 扩展(比如绑定(bind)到 spidermonkey 或 v8),这将违反 GAE 沙盒。
但是,如果您要冒险转向 Java 方面,您可能会更幸运。我知道你可以获得 Rhino running on AppEngine , 在 env.js 的帮助下你可以模拟 DOM,快速谷歌显示一个 bunch of scraping tools for Java .这只是将它们捆绑在一起的问题。
HtmlUnit看起来它正试图这样做,但目前尚不清楚它是否对应用程序引擎友好,因为它似乎是线程化的。
关于python - 在 Google App Engine 上模拟浏览器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5930379/