我正在尝试抓取谷歌阅读器,但我遇到了问题……我希望登录谷歌阅读器并获得一个有效的 cookie……然后尝试在此页面中输入:
'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'
如果我的 cookie 工作并且我已登录,我只需要输入
"user/-/"
它会进入我的谷歌阅读器的 XML 版本中......这是理论上的......我在谷歌阅读器中登录并重定向......然后我复制我的SID......我使用这个和谷歌阅读器的API信息创建了一个手动cookie
http://code.google.com/p/pyrfeed/wiki/GoogleReaderAPI
name SID
domain .google.com
path /
expires 1600000000
用我的 cookie 创建我尝试输入:
'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'
但它不起作用......我认为我正在以一种糟糕的方式创建我的cookie,但我阅读了关于
CookieJar
的API和 Mechanize::Cookie
,但我没有找到任何关于如何使用它的例子......我尝试了不同的方式,但没有成功......请有人可以帮助我了解如何使用这个cookie......
最佳答案
我们使用 iMacros(部分免费/开源,部分商业)进行所有网页抓取。这很好用。不管你使用什么,你都需要一些自动化的东西 真实网页浏览器。其他选项是 Selenium 或 Watir,尽管它们更适合 Web 测试。
关于ruby - 我如何用 Mechanize (使用 cookie)抓取谷歌阅读器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4404168/