我有一些 html 文件,想提取一些标签之间的内容: 页面标题 这里有一些标记的内容。
<p>A paragraph comes here</p>
<p>A paragraph comes here</p><span class="more-about">Some text here</span><p class="en-cpy">Copyright © 2012 </p>
我只想要这些标签:head, p
但是从第二段可以看出,最后一个标签是以 p 开头但不是我想要的标签,我不想要它的内容。
我使用以下脚本来提取我想要的文本,但我无法过滤掉标签,例如我的示例中的最后一个标签......怎么可能只提取 <p>
标签?
grep "<p>" $File | sed -e 's/^[ \t]*//'
我必须补充一点,最后一个标签(我不想出现在输出中)就在我想要的标签之一之后(就像在我的示例中一样)并使用 grep 命令该行的所有内容将作为输出返回...(这是我的问题)
最佳答案
不要。尝试使用 regex
解析 HTML 将是 painful .使用 Ruby
和 Nokogiri
之类的东西,或者您熟悉的类似语言 + 库。
关于html - 在 HTML 文件中查找特定标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11288244/