我想从一些 HTML 中删除一个标签，而不去除任何标记的剩余内容。例如，我有一个文件，test.html:

<p class="P1"><span class="T2">Some text, goes to uppercase</span>
<p class="P4"><span class="T4"> </span><span class="T3">other text</span>
<span class="T5">italics</span><span class="T3">‘more text with UTF-8 ’</span>
</p></p>

我想得到以下输出:

SOME TEXT, GOES TO UPPERCASE
other text
<em>italics<em> ‘more text with UTF-8 ’

我的代码是:

f = File.open('raw/test.html',"r")
doc = Nokogiri::XML::DocumentFragment.parse(f.read.encode('UTF-8'))
f.close

doc.css("span.T2").each do |span|
  span.replace span.content.upcase
end
doc.css("span.T5").each do |span|
  span.replace "<em>"+span.content+"</em>"
end
doc.css("span").each do |span|
  span.replace span.content
end
doc.css("p").each do |p|
  p.replace Nokogiri::XML::Text.new(p.inner_html, p.document)
end

f = File.open('processed/test.html',"w")
f.write(doc)
f.close

我得到的输出是:

SOME TEXT, GOES TO UPPERCASE
&lt;p class="P4"&gt;
 other text
&lt;em&gt;italics &lt;/em&gt;&amp;#x2018;more text with UTF-8 &amp;#x2019;
&amp;#x2018;our common mother&amp;#x2019;
&lt;/p&gt;

非常感谢。

更新

解决方法如下:

coder = HTMLEntities.new 
f = File.open('raw/test.html',"r") 
doc = Nokogiri::XML::DocumentFragment.parse(f.read.encode('UTF-8')) 
f.close 
doc.css("p").each do |p| 
  p.replace p.inner_html 
end 

doc.css("span.T2").each do |span| 
  span.replace span.content.upcase 
end 

doc.css("span.T5").each do |span| 
  span.replace "<em>"+span.content+"</em>" 
end 

doc.css("span").each do |span| 
  span.replace span.inner_html 
end 

f = File.open('processed/test.html',"w") 
f.write(coder.decode(doc)) 
f.close

最佳答案

使用 span.replace "<em>"+span.content+"</em>"不正确。您需要告诉 Nokogiri 替换为 HTML，而不是文本。例如:

span.inner_html = "<em>"+span.content+"</em>"

结果:

<span class="T5"><em>italics</em></span>

关于ruby - Nokogiri 替换 HTML 的 strip 内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5307622/

ruby - Nokogiri 替换 HTML 的 strip 内容

更新

上一篇：ruby-on-rails - 如何测试使用系统命令的代码

下一篇：ruby-on-rails - 无法从 ubuntu 升级 9.10 -> 10.04 运行脚本/控制台