有什么好的解决方案或一些可以在 GAE 上使用的 headless 浏览器吗?我在 GAE 上开发一个应用程序,该应用程序将读取一些网页,解析它们,并对它们进行一些统计。有讨论正在进行here ,让 HTMLUnit 在 GAE 上工作,但我不确定它是否会工作。
最佳答案
如果您愿意只获取 HTML(而不执行 Javascript),jsoup.org可能值得一看:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
(示例代码无耻地从jsoup复制)
关于java - headless 浏览器在应用程序引擎上工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17132070/