r - 'RCurl' [R] 抓取 API 时包 getURL 网页错误

标签 r curl rcurl geturl httr

我正在尝试使用 R 中 RCurl 包的 getURL 函数从 API 中抓取页面上的数据。我的问题是,当我在 Chrome 中打开 URL 时,我无法复制得到的响应本质上,当我在 Chrome 中打开 API 页面(下面的 URL)时,它工作正常,但如果我在 R 中使用 getURL(或在 Chrome 中使用隐身模式)请求它,我会收到“500 内部服务器错误”响应,并且不是我正在寻找的漂亮 JSON。

有问题的 URL/API: http://www.bluenile.com/api/public/loose-diamond/diamond-details/panel?country=USA&currency=USD&language=en-us&productSet=BN&sku=LD04077082

这是我在 [R] 中的(失败的)请求。

test2 <- fromJSON(getURL("http://www.bluenile.com/api/public/loose-diamond/diamond-details/panel?country=USA&currency=USD&language=en-us&productSet=BN&sku=LD04077082", ssl.verifypeer = FALSE, useragent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.124 Safari/537.36"))

到目前为止我的研究 首先,我在堆栈上查看了之前的问题,并将我的用户代理添加到请求中(没有解决问题,但可能仍然有必要): ViralHeat API issues with getURL() command in RCurl package

接下来我看了这篇有用的文章,它指导了我的理由: R Disparity between browser and GET / getURL

我对解决方案的想法 这不是我的专业领域,但我的猜测是该请求缺少完成请求所需的 cookie(因此它在我的浏览器中的隐身模式下不起作用)。我比较了成功请求和不成功请求的请求和响应:

请求成功: enter image description here

请求失败:

enter image description here

大家有什么想法吗?我应该尝试使用 MrFlick 在我发表的第二篇文章中建议的包 RSelenium 包吗?

最佳答案

这是一个有礼貌的网站。它想知道您来自哪里、使用什么货币等,以便为您提供更好的用户体验。它通过在登陆页面上设置大量 cookie 来实现这一点。因此,我们效仿并导航到登陆页面,首先获取 cookie,然后转到我们想要的页面:

library(RCurl)
myURL <- "http://www.bluenile.com/api/public/loose-diamond/diamond-details/panel?country=USA&currency=USD&language=en-us&productSet=BN&sku=LD04077082"
agent="Mozilla/5.0 (Windows NT 6.3; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0"

#Set RCurl pars
curl = getCurlHandle()
curlSetOpt(cookiejar="cookies.txt",  useragent = agent, followlocation = TRUE, curl=curl)
firstPage <- getURL("http://www.bluenile.com", curl=curl)
myPage <- getURL(myURL, curl = curl)

library(RJSONIO)
> names(fromJSON(myPage))
[1] "diamondDetailsHeader" "diamondDetailsBodies" "pageMetadata"         "expandedUrl"         
[5] "newVersion"           "multiDiamond"  

和cookie:

> getCurlInfo(curl)$cookielist
 [1] ".bluenile.com\tTRUE\t/\tFALSE\t2412270275\tGUID\tDA5C11F5_E468_46B5_B4E8_D551D4D6EA4D"                                                                    
 [2] ".bluenile.com\tTRUE\t/\tFALSE\t1475342275\tsplit\tver~3&presetFilters~TEST"                                                                               
 [3] ".bluenile.com\tTRUE\t/\tFALSE\t1727630275\tsitetrack\tver~2&jse~0"                                                                                        
 [4] ".bluenile.com\tTRUE\t/\tFALSE\t1425230275\tpop\tver~2&china~false&french~false&ie~false&internationalSelect~false&iphoneApp~false&survey~false&uae~false" 
 [5] ".bluenile.com\tTRUE\t/\tFALSE\t1475342275\tdsearch\tver~6&newUser~true"                                                                                   
 [6] ".bluenile.com\tTRUE\t/\tFALSE\t1443806275\tlocale\tver~1&country~IRL&currency~EUR&language~en-gb&productSet~BNUK"                                         
 [7] ".bluenile.com\tTRUE\t/\tFALSE\t0\tbnses\tver~1&ace~false&isbml~false&fbcs~false&ss~0&mbpop~false&sswpu~false&deo~false"                                   
 [8] ".bluenile.com\tTRUE\t/\tFALSE\t1727630275\tbnper\tver~5&NIB~0&DM~-&GUID~DA5C11F5_E468_46B5_B4E8_D551D4D6EA4D&SESS-CT~1&STC~32RPVK&FB_MINI~false&SUB~false"
 [9] "#HttpOnly_www.bluenile.com\tFALSE\t/\tFALSE\t0\tJSESSIONID\tB8475C3AEC08205E5AC6252C94E4B858"                                                             
[10] ".bluenile.com\tTRUE\t/\tFALSE\t1727630278\tmigrationstatus\tver~1&redirected~false"     

关于r - 'RCurl' [R] 抓取 API 时包 getURL 网页错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26165656/

相关文章:

r - RStudio在保存之前将R临时脚本文件存储在哪里?

r - 代理和 httr 与 RCurl

R、GET 和 GZ 压缩

r - SparkR(Spark 2.1.0 或 2.2.0)中有 MaxAbsScaler 吗?

r - 更有效的声音文件二次采样方法?

r - 如何在保留 R 中的某些变量的同时将长整形为宽

php - Guzzle send() 方法导致 cURL 错误 35 打开的文件太多

java - 在java应用程序中执行curl命令

php - 内容长度转换

Rselenium - 如何从没有 id 或任何类型名称的网页中抓取数据