python - 在 Google App Engine 上模拟浏览器

<分区>

我想在谷歌应用引擎中使用 selenium 或 windmill 来抓取一个充满 JS 的网站。我知道 windmill 是用 python 和 javascript 编写的。

这可能吗？如果是，如何插入库？
如果不能，您能否解释原因并提供替代方案？

谢谢。

我又搜索了一下，发现scrapy是纯python的。
那行得通吗？它处理 javascript 吗？

最佳答案

任何 python“抓取”库都不可能在 appengine 上为您解释 javascript，因为它可能需要某种 C 扩展(比如绑定(bind)到 spidermonkey 或 v8)，这将违反 GAE 沙盒。

但是，如果您要冒险转向 Java 方面，您可能会更幸运。我知道你可以获得 Rhino running on AppEngine , 在 env.js 的帮助下你可以模拟 DOM，快速谷歌显示一个 bunch of scraping tools for Java .这只是将它们捆绑在一起的问题。

HtmlUnit看起来它正试图这样做，但目前尚不清楚它是否对应用程序引擎友好，因为它似乎是线程化的。

关于python - 在 Google App Engine 上模拟浏览器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5930379/

相关文章：

python - 安装python包