html - 如何在 Perl 中从 HTML 中提取 URL 和链接文本？

我之前问过如何在 Groovy 中执行此操作。但是，由于所有的 CPAN 库，现在我正在用 Perl 重写我的应用程序。

如果页面包含这些链接:

<a href="http://www.google.com">Google</a>

<a href="http://www.apple.com">Apple</a>

输出将是:

Google, http://www.google.com
Apple, http://www.apple.com

在 Perl 中执行此操作的最佳方法是什么？

最佳答案

请查看使用 WWW::Mechanize为此的模块。它将为您获取您的网页，然后为您提供易于使用的 URL 列表。

my $mech = WWW::Mechanize->new();
$mech->get( $some_url );
my @links = $mech->links();
for my $link ( @links ) {
    printf "%s, %s\n", $link->text, $link->url;
}

非常简单，如果您想导航到该页面上的其他 URL，则更简单。

Mech 基本上是对象中的浏览器。

关于html - 如何在 Perl 中从 HTML 中提取 URL 和链接文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/254345/

上一篇：javascript - 如何仅在单击子项时触发父级单击事件

下一篇：html - 悬停时显示下划线的文本

multithreading - Perl 中线程的超时

perl - 用 perl 替换指定行号上的模式

c++ - 使用 C/C++ 从已解析的文本中解析名词短语

c++ - 如何在 C++ 中将字符串解析为 int？

javascript - GitHub 如何避免页面加载滞后/闪烁？

html - IE7 文本对齐 :right not working

python - 从 HTML 中删除 Script 标签和 on 属性

javascript - 点击<a>显示<ul>，点击其他隐藏<ul>

perl - 需要 html::tagFilter 的帮助