html - 在 HTML 文件中查找特定标签

我有一些 html 文件，想提取一些标签之间的内容: 页面标题这里有一些标记的内容。

<p>A paragraph comes here</p>
<p>A paragraph comes here</p><span class="more-about">Some text here</span><p class="en-cpy">Copyright &copy; 2012 </p>

我只想要这些标签:head, p 但是从第二段可以看出，最后一个标签是以 p 开头但不是我想要的标签，我不想要它的内容。我使用以下脚本来提取我想要的文本，但我无法过滤掉标签，例如我的示例中的最后一个标签......怎么可能只提取 <p>标签？

grep "<p>" $File | sed -e 's/^[ \t]*//'

我必须补充一点，最后一个标签(我不想出现在输出中)就在我想要的标签之一之后(就像在我的示例中一样)并使用 grep 命令该行的所有内容将作为输出返回...(这是我的问题)

最佳答案

不要。尝试使用 regex 解析 HTML 将是 painful .使用 Ruby 和 Nokogiri 之类的东西，或者您熟悉的类似语言 + 库。

关于html - 在 HTML 文件中查找特定标签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11288244/

相关文章：

JavaScript、正则表达式和链接