r - 处理 htmlParse 错误(无法加载 HTTP 资源)

标签 r html-parser

我正在尝试网页抓取页面。但是,有时我的循环不起作用,因为解析器“无法加载 HTTP 资源”。问题是页面没有在我的浏览器中加载,所以这不是代码的问题。

但是,在为我发现错误的每个页面创建异常后必须重新启动进程是很烦人的。我想知道是否有办法放置 if 条件。我正在考虑类似的事情:如果发生错误,则在下一步重新启动循环。

我查看了 htmlParse 的帮助页面,发现有一个错误参数,但无法理解如何使用它。对我的 if 条件有什么想法吗?

下面是一个可重现的示例:

if(require(RCurl) == F) install.packages('RCurl')
if(require(XML) == F) install.packages('XML')
if(require(seqinr) == F) install.packages('seqinr')

for  (i in 575:585){
    currentPage <- i  # define pagina inicial da busca
# Link que ser? procurado

link <- paste("http://www.cnj.jus.br/improbidade_adm/visualizar_condenacao.php?seq_condenacao=",
             currentPage,
             sep='')

doc <- htmlParse(link, encoding = "UTF-8") #this will preserve characters
    tables <- readHTMLTable(doc, stringsAsFactors = FALSE)
    if(length(tables) != 0) {
    tabela2 <- as.data.frame(tables[10])

    tabela2[,1]  <- gsub( "\\n", " ", tabela2[,1] )
    tabela2[,2]  <- gsub( "\\n", " ", tabela2[,2] )
    tabela2[,2]  <- gsub( "\\t", " ", tabela2[,2] )

    listofTabelas[[i]] <- tabela2

  tabela1 <- do.call("rbind", listofTabelas)
  names(tabela1) <- c("Variaveis", "status")

    }
}

最佳答案

您最好使用 httr包裹。

library(httr)
library(XML)

url <- "http://www.cnj.jus.br/improbidade_adm/visualizar_condenacao.php"
for  (i in 575:585){
  response<- GET(url,path="/",query=c(seq_condenacao=as.character(i)))
  if (response$status_code!=200){ # HTTP request failed!!
    # do some stuff...
    print(paste("Failure:",i,"Status:",response$status_code))
    next
  }
  doc <- htmlParse(response, encoding = "UTF-8")
  # do some other stuff
  print(paste("Success:",i,"Status:",response$status_code))
}
# [1] "Success: 575 Status: 200"
# [1] "Success: 576 Status: 200"
# [1] "Success: 577 Status: 200"
# [1] "Success: 578 Status: 200"
# [1] "Success: 579 Status: 200"
# [1] "Success: 580 Status: 200"
# [1] "Success: 581 Status: 200"
# [1] "Success: 582 Status: 200"
# [1] "Success: 583 Status: 200"
# [1] "Success: 584 Status: 200"
# [1] "Success: 585 Status: 200"

关于r - 处理 htmlParse 错误(无法加载 HTTP 资源),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21690406/

相关文章:

R-如何将文件内容转储到控制台输出?

python - HTML 抓取具有重复 div 类名的网站

ruby - 在 Ruby 中解析 HTML 文档的方法?

java - JSoup 在网页上看不到表格

javascript - 在javascript中将字符串解析为html

r - 不连续图 - R 中的 ggplot

r - 如何应用 wilcox.test 比较表格的每一列

python beautifulsoup : lxml html. 解析器

r - 如何向量化一个 "for"循环,该循环在为每个 ID 应用一个函数后返回一个向量

r - 是否可以将两个时间序列合并为一个?