html - 从字符串中提取 HTML 标签名称

标签 html regex perl html-parsing

我想从带有属性的 HTML 标签中提取标签名称。

比如我有这个标签

 <a href="http://chat.stackoverflow.com" class="js-gps-track"     data-gps-track="site_switcher.click({ item_type:6 })"
>

我需要提取标签名称a

我尝试了以下正则表达式,但它不起作用。

if ( $raw =~ /^<(\S*).*>$/ ) {
   print "$1 is tag name of string\n";
}

我的代码有什么问题?

最佳答案

您的正则表达式与新行不匹配。你必须使用 s标志(单行),但由于你的正则表达式是贪婪的,它也不会工作,我也会删除 anchor ,因为它可能是同一行中的多个标签。

您可以像这样使用正则表达式:

<(\w+)\s+\w+.*?>

Working demo

enter image description here

支持 Borodin 的评论,您不应该使用正则表达式来解析 html,因为您可能会遇到解析问题。您可以使用正则表达式来解析简单的标签,但如果您的文本带有嵌入标签,如 <a asdf<as<asdf>df>>,这很容易被破坏。 ,在这种情况下,正则表达式将错误地匹配标签 a

这个正则表达式背后的想法是强制标签至少有一个属性

关于html - 从字符串中提取 HTML 标签名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28975162/

相关文章:

html - Bootstrap : user agent css styles misbehaving how to solve this

regex - Linux - 想要检查可能的重复目录(可能需要 RegEx)

linux - 我的 perl 脚本如何使用 UDev 而不是 HAL 对任意设备使用react?

Perl:WAITING后台进程完成

html - 防止页面和图像闪烁

javascript - 根据其他 ID src 更改 ID 的 CSS

regex - 正则表达式中 * 运算符的混淆

javascript - 为什么 JS RegEx 会提取多个值(只有一个匹配)?

perl - 当使用 Perl 的 File::Find 时,限制搜索深度的快速简便方法是什么?

jquery - 加载的表行没有来自表类的 css