python - 在 Google App Engine 上模拟浏览器

标签 python google-app-engine selenium scrapy windmill

<分区>

我想在谷歌应用引擎中使用 selenium 或 windmill 来抓取一个充满 JS 的网站。我知道 windmill 是用 python 和 javascript 编写的。

这可能吗?如果是,如何插入库?
如果不能,您能否解释原因并提供替代方案?

谢谢。

更新

我又搜索了一下,发现scrapy是纯python的。
那行得通吗?它处理 javascript 吗?

最佳答案

任何 python“抓取”库都不可能在 appengine 上为您解释 javascript,因为它可能需要某种 C 扩展(比如绑定(bind)到 spidermonkey 或 v8),这将违反 GAE 沙盒。

但是,如果您要冒险转向 Java 方面,您可能会更幸运。我知道你可以获得 Rhino running on AppEngine , 在 env.js 的帮助下你可以模拟 DOM,快速谷歌显示一个 bunch of scraping tools for Java .这只是将它们捆绑在一起的问题。

HtmlUnit看起来它正试图这样做,但目前尚不清楚它是否对应用程序引擎友好,因为它似乎是线程化的。

关于python - 在 Google App Engine 上模拟浏览器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5930379/

相关文章:

python - 安装python包

python - 用换行符替换每三个逗号

google-app-engine - 祖先在谷歌应用引擎数据存储中意味着什么

selenium - 如何使用 Selenium Grid Extras/json 配置文件设置 Selenium 节点的 ID?

apache - 如何使用 Selenium RC 验证我们的服务器端重定向(301、302)?

java - 如何使用java在webdriver中使用已打开的浏览器

python - 在Python中,同一事物的不同类型有两个参数更好,还是处理多个类型的一个参数更好?

python - 左旋转数组

java - 谷歌云平台不返回任何内容

python - Google Cloud App Engine 灵活 - 日志不工作