php正则表达式获取href标签内的字符串

标签 php regex html-parsing

我需要一个正则表达式,它会在 href 标记内和引号内为我提供字符串。

例如我需要在下面提取 theurltoget.com:

<a href="theurltoget.com">URL</a>

此外,我只想要基本 url 部分。 IE。来自 http://www.mydomain.com/page.html 我只想要 http://www.mydomain.com/

最佳答案

不要为此使用正则表达式。您可以使用 xpath 和内置的 php 函数来获得您想要的:

    $xml = simplexml_load_string($myHtml);
    $list = $xml->xpath("//@href");

    $preparedUrls = array();
    foreach($list as $item) {
        $item = parse_url($item);
        $preparedUrls[] = $item['scheme'] . '://' .  $item['host'] . '/';
    }
    print_r($preparedUrls);

关于php正则表达式获取href标签内的字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4001328/

相关文章:

java - 是否可以使用 jsoup 来解析 html?解析后还需要在输出中保留一些标签

Php 无法获取 MYSQL 数据库的正确信息

mysql - MYSQL 查询中的 REGEX 查找字符串

ruby - Nokogiri 识别页面上最大文本的策略?

java - 模式(正则表达式)与找到的值之间的相似性

javascript - 验证推特网址

python - 使用 python 和 beautiful soup 从 HTML 获取结构化数据

PHP:函数脚本中的现代错误处理

php - 如何对多个数组进行 m​​ysql UPDATE

php - UTF-8贯穿始终