ruby - 我如何用 Mechanize (使用 cookie)抓取谷歌阅读器

我正在尝试抓取谷歌阅读器，但我遇到了问题……我希望登录谷歌阅读器并获得一个有效的 cookie……然后尝试在此页面中输入:

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'

如果我的 cookie 工作并且我已登录，我只需要输入 "user/-/"它会进入我的谷歌阅读器的 XML 版本中......

这是理论上的......我在谷歌阅读器中登录并重定向......然后我复制我的SID......我使用这个和谷歌阅读器的API信息创建了一个手动cookie

http://code.google.com/p/pyrfeed/wiki/GoogleReaderAPI

name SID
domain .google.com
path /
expires 1600000000

用我的 cookie 创建我尝试输入:

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'

但它不起作用......我认为我正在以一种糟糕的方式创建我的cookie，但我阅读了关于CookieJar的API和 Mechanize::Cookie ，但我没有找到任何关于如何使用它的例子......我尝试了不同的方式，但没有成功......请有人可以帮助我了解如何使用这个cookie......

最佳答案

我们使用 iMacros(部分免费/开源，部分商业)进行所有网页抓取。这很好用。不管你使用什么，你都需要一些自动化的东西真实网页浏览器。其他选项是 Selenium 或 Watir，尽管它们更适合 Web 测试。

关于ruby - 我如何用 Mechanize (使用 cookie)抓取谷歌阅读器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4404168/

上一篇：ruby-on-rails - Rails rake Mechanize - 错误 - 没有要加载的文件 - Mechanize

下一篇：ruby - 如何避免使用 ruby 1.9 和 Mechanize 表单提交的 Encoding::CompatibilityError？

javascript - jQuery cookie 根本不起作用

Python Mechanize 如何使用缓存密码？

ruby - Nokogiri/Mechanize xpath 定位器在存在杂散开始标记时中断

javascript - Trunk8 jquery 插件只 chop 到第一个空格。如何 chop 整个帖子？

ruby-on-rails - Rails 和电子邮件打开通知

ruby - 为什么我无法加载 sys-proctable？

ruby-on-rails - 尝试使用 fork 的 gem 时出现 Gem::LoadError

Asp.Net MVC3 - FormsAuthentication，如何在浏览器关闭时使 cookie 过期？

javascript - Mechanize 代表 Selenium/WebDriver 发出发布请求？

ruby - 我如何用 Mechanize (使用 cookie)抓取谷歌阅读器

上一篇：ruby-on-rails - Rails rake Mechanize - 错误 - 没有要加载的文件 - Mechanize

下一篇：ruby - 如何避免使用 ruby​​ 1.9 和 Mechanize 表单提交的 Encoding::CompatibilityError？

下一篇：ruby - 如何避免使用 ruby 1.9 和 Mechanize 表单提交的 Encoding::CompatibilityError？