ruby - 我如何用 Mechanize (使用 cookie)抓取谷歌阅读器

标签 ruby cookies mechanize web-scraping

我正在尝试抓取谷歌阅读器,但我遇到了问题……我希望登录谷歌阅读器并获得一个有效的 cookie……然后尝试在此页面中输入:

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'

如果我的 cookie 工作并且我已登录,我只需要输入 "user/-/"它会进入我的谷歌阅读器的 XML 版本中......

这是理论上的......我在谷歌阅读器中登录并重定向......然后我复制我的SID......我使用这个和谷歌阅读器的API信息创建了一个手动cookie
http://code.google.com/p/pyrfeed/wiki/GoogleReaderAPI

name SID
domain .google.com
path /
expires 1600000000

用我的 cookie 创建我尝试输入:
'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'

但它不起作用......我认为我正在以一种糟糕的方式创建我的cookie,但我阅读了关于CookieJar的API和 Mechanize::Cookie ,但我没有找到任何关于如何使用它的例子......我尝试了不同的方式,但没有成功......请有人可以帮助我了解如何使用这个cookie......

最佳答案

我们使用 iMacros(部分免费/开源,部分商业)进行所有网页抓取。这很好用。不管你使用什么,你都需要一些自动化的东西 真实网页浏览器。其他选项是 Selenium 或 Watir,尽管它们更适合 Web 测试。

关于ruby - 我如何用 Mechanize (使用 cookie)抓取谷歌阅读器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4404168/

相关文章:

node.js - 在 Express/Connect 中解析签名 cookie 的便捷方法?

javascript - jQuery cookie 根本不起作用

Python Mechanize 如何使用缓存密码?

ruby - Nokogiri/Mechanize xpath 定位器在存在杂散开始标记时中断

javascript - Trunk8 jquery 插件只 chop 到第一个空格。如何 chop 整个帖子?

ruby-on-rails - Rails 和电子邮件打开通知

ruby - 为什么我无法加载 sys-proctable?

ruby-on-rails - 尝试使用 fork 的 gem 时出现 Gem::LoadError

Asp.Net MVC3 - FormsAuthentication,如何在浏览器关闭时使 cookie 过期?

javascript - Mechanize 代表 Selenium/WebDriver 发出发布请求?