ruby - 如何使用 Nokogiri 拆分 HTML 文档？

现在，我将 HTML 文档拆分成如下小块: (正则表达式简化 - 跳过标题标签内容和结束标签)

document.at('body').inner_html.split(/<\s*h[2-6][^>]*>/i).collect do |fragment|
  Nokogiri::HTML(fragment)
end

有没有更简单的方法来执行该拆分？

文档非常简单，只有标题、段落和格式化文本。例如:

<body>
<h1>Main</h1>
<h2>Sub 1</h2>
<p>Text</p>
-----
<h2>Sub 2</h2>
<p>Text</p>
-----
<h3>Sub 2.1</h3>
<p>Text</p>
-----
<h3>Sub 2.2</h3>
<p>Text</p>
</body>

对于那个样本，我需要四 block 。

最佳答案

我只需要做类似的事情。我将一个大的 HTML 文件分成“章节”，其中一章以 <h1> 开头。标签。

我还想将章节的标题保留在散列中，并忽略第一个 <h1> 之前的所有内容标签。

代码如下:

full_book = Nokogiri::HTML(File.read('full-book.html'))
@chapters = full_book.xpath('//body').children.inject([]) do |chapters_hash, child|
  if child.name == 'h1'
    title = child.inner_text
    chapters_hash << { :title => title, :contents => ''}
  end

  next chapters_hash if chapters_hash.empty?
  chapters_hash.last[:contents] << child.to_xhtml
  chapters_hash
end

关于ruby - 如何使用 Nokogiri 拆分 HTML 文档？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3484874/

上一篇：Python:在保留实体的同时解析 XML 文档

下一篇：xml - 如果 XSLT 不存在，则附加页眉和页脚

相关文章：

ruby-on-rails - Webrick 死于非法指导 4

ruby-on-rails - 使用 gmaps4rails 显示多边形

c#:使用程序集(通过反射)作为(元)数据存储

ruby - nokogiri lib 中的 LoadError

ruby-on-rails - 使用 Mechanize/Nokogiri 提取文本

ruby-on-rails - 有没有办法获取 Rails 服务器运行的耗时？

c# - 从 ASMX WebService 中删除空命名空间

php - 使用 XPath 从 XML 获取标签名称

html - Nokogiri XML 到节点

html - 奇怪的线突然出现？