ruby-on-rails - 使用 Mechanize/Nokogiri 提取文本

是否有一种明智的方法来提取 Mechanize 解析的 HTML 文档中的每一段文本，以便(例如):

<p>Here is <b>some</b> text<p>

分为三个要素:

Here is
some
text

?我的预感是有一种使用递归 CSS 搜索和/或 #flatten 的简单技术，但我还没有弄清楚。

最佳答案

借用“Nokogiri recursively get all children”中的一个答案:

result = []
doc.traverse { |node| result << node.text if node.text? }

那应该给你数组 ["Here is ", "some", " text"] .

“Getting Mugged by Nokogiri” 讨论 traverse .

关于ruby-on-rails - 使用 Mechanize/Nokogiri 提取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12001992/