ruby - 如何处理 Nokogiri 中的 404 not found 错误

标签 ruby http-status-code-404 nokogiri

我正在使用 Nokogiri 来抓取网页。很少有 url 需要被猜测,当它们不存在时返回 404 not found 错误。有没有办法捕获这个异常?

http://yoursite/page/38475 #=> page number 38475 doesn't exist

我尝试了以下方法,但没有用。

url = "http://yoursite/page/38475"
doc = Nokogiri::HTML(open(url)) do
  begin
    rescue Exception => e
      puts "Try again later"
  end
end

最佳答案

它不起作用,因为您没有拯救在发现 404 状态时引发错误的部分代码(它是 open(url) 调用)。以下代码应该有效:

url = 'http://yoursite/page/38475'
begin
  file = open(url)
  doc = Nokogiri::HTML(file) do
    # handle doc
  end
rescue OpenURI::HTTPError => e
  if e.message == '404 Not Found'
    # handle 404 error
  else
    raise e
  end
end

顺便说一句,关于拯救Exception: Why is it a bad style to `rescue Exception => e` in Ruby?

关于ruby - 如何处理 Nokogiri 中的 404 not found 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18270596/

相关文章:

ruby - 在 Ruby 中将数组输出到 CSV

tomcat - 在 tomcat 上部署的 war 文件给出 404 错误

java - Jsoup 404错误

html - 如何使用 Nokogiri 从标签中提取文本

ruby-on-rails - 使用 Nokogiri 从与 Savon 的 SOAP 调用中读取响应

javascript - 启用依赖于另一个表单字段值的表单字段?

Ruby CSV::Row 删除新行

ruby-on-rails - 在 Windows 7 上安装 ImageMagick 和 rmagick

html - 应用程序缓存和 404/500 页面

ruby-on-rails - 在 El Capitan 上安装 Nokogiri (1.6.7) 时出错