是否有一种明智的方法来提取 Mechanize 解析的 HTML 文档中的每一段文本,以便(例如):
<p>Here is <b>some</b> text<p>
分为三个要素:
Here is
some
text
?我的预感是有一种使用递归 CSS 搜索和/或 #flatten 的简单技术,但我还没有弄清楚。
最佳答案
借用“Nokogiri recursively get all children”中的一个答案:
result = []
doc.traverse { |node| result << node.text if node.text? }
那应该给你数组
["Here is ", "some", " text"]
.“Getting Mugged by Nokogiri” 讨论
traverse
.
关于ruby-on-rails - 使用 Mechanize/Nokogiri 提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12001992/