目前,我正在尝试使用 nokogiri 获取页面上元素的内部 HTML。然而,我不仅获得了元素的文本,还获得了它的转义序列。有什么方法可以用 nokogiri 抑制或删除它们吗?
require 'nokogiri'
require 'open-uri'
page = Nokogiri::HTML(open("http://the.page.url.com"))
page.at_css("td[custom-attribute='foo']").parent.css('td').css('a').inner_html
这返回=> “\r\n\t\t\t\t\t\t\t\tTheActuallyInnerContentThatIWant\r\n\t”
最有效、最直接的 nokogiri(或 ruby)方法是什么?
最佳答案
page.at_css("td[custom-attribute='foo']")
.parent
.css('td')
.css('a')
.text # since you need a text, not inner_html
.strip # this will strip a result
旁注:css('td a')
可能比css('td').css('a')
更有效>.
关于ruby - 如何让 Nokogiri inside_HTML 对象忽略/删除转义序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36430212/