我正在使用以下正则表达式获取 HTML 文档中第一个 img
标记的 src
值。
string match = "src=(?:\"|\')?(?<imgSrc>[^>]*[^/].(?:jpg|png))(?:\"|\')?"
现在它捕获了我不需要的全部 src
属性。我只需要 src
属性中的 url。怎么做?
最佳答案
用其他东西解析您的 HTML。 HTML is not regular因此正则表达式根本不适合解析它。
如果 HTML 是严格的,则使用 HTML 解析器或 XML 解析器。使用 XPath 获取 src 属性的值要容易得多:
//img/@src
XML 解析内置于 System.Xml
namespace 中.它非常强大。 HTML parsing如果 HTML 不严格,会有点困难,但周围有很多库可以为您完成。
关于c# - 正则表达式从 img 标签获取 src 值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1058852/