c# - 正则表达式从 img 标签获取 src 值

我正在使用以下正则表达式获取 HTML 文档中第一个 img 标记的 src 值。

string match = "src=(?:\"|\')?(?<imgSrc>[^>]*[^/].(?:jpg|png))(?:\"|\')?"

现在它捕获了我不需要的全部 src 属性。我只需要 src 属性中的 url。怎么做？

最佳答案

用其他东西解析您的 HTML。 HTML is not regular因此正则表达式根本不适合解析它。

如果 HTML 是严格的，则使用 HTML 解析器或 XML 解析器。使用 XPath 获取 src 属性的值要容易得多:

//img/@src

XML 解析内置于 System.Xml namespace 中.它非常强大。 HTML parsing如果 HTML 不严格，会有点困难，但周围有很多库可以为您完成。

关于c# - 正则表达式从 img 标签获取 src 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1058852/

相关文章：

html - 当 div 的内容不同时 Bootstrap 最大高度/宽度