我试图找出一种通过 R 脚本控制浏览器(最好是 Firefox)的方法,以便在网站中检索由 AJAX/Javascript 控制的信息。例如,如何在 http://www.mobile.de/home/index.html 处检索字段“Modell”中的值? ?
AFAIU, Gabe Becker 的包裹"RFirefox"确实在 R 和 Firefox 之间提供了某种联系。但是作为一个 Windows-Kid(不是因为信念,而是长期存在的网络效应 ;-)),我自己还不能尝试,所以我不确定它是否能达到我想要的效果。
那么:有没有人对 RFirefox 或通过 R 处理 AJAX 有一些经验?不想让你做我的功课,但在我进入 Linux 世界之前,我只想评估一下它是否值得。
尽管如此,任何代码示例将不胜感激。 ;-)
最佳答案
我不清楚为什么您需要浏览器来执行此操作。这只是网络抓取;当然,它需要某种解析器,但不一定是浏览器。我认为 RFirefox 可能是在吠叫错误的树。如果您想使用 Javascript+R 连接,请查看 Duncan Temple Lang 的 SpiderMonkey .
即便如此,我认为使用适合使用 Javascript 的更严格的爬取/抓取工具收集数据可能会更好。 This question on SO似乎特别符合这一点。我的建议是获得一个可以满足您的需求的工具,然后以最简单的级别将其与 R 接口(interface)。 Webkit 有多种语言的绑定(bind),尽管 R 似乎不是这种情况。
This question更密切地解决您的情况:它也在 Windows 上。它不使用 Webkit。已接受答案中的三个建议是指从 Python 访问用 C/C++ 编写的工具。 R 具有两者的接口(interface),因此您可能会发现编写一些东西来使用它们并在 R 和 Python 或 C/C++ 之间来回传递对象和指令更容易。
关于ajax - 如何从 R 控制 Firefox 来处理 AJAX/Javascripts,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7902845/