我有一个难以研究的问题,因为我不知道如何在搜索引擎上正确提问。
我有一个 URL 列表。我希望有一些自动化的方式(首选 Perl)来浏览列表并删除所有仅作为顶级目录的 URL。
所以例如我可能有这个列表:
http://www.example.com/hello.html
http://www.foo.com/this/thingrighthere.html
在这种情况下,我想从我的列表中删除 example.com,因为它要么只是顶级目录,要么它们引用顶级目录中的文件。
我正试图弄清楚如何做到这一点。我的第一个想法是,计算正斜杠,如果有两个以上,从列表中删除 URL。但是你有尾随斜杠,所以这是行不通的。
任何想法或想法将不胜感激。
最佳答案
类似这样的:
use URI::Split qw( uri_split );
my $url = "http://www.foo.com/this/thingrighthere.html";
my ($scheme, $auth, $path, $query, $frag) = uri_split( $url );
if (($path =~ tr/\///) > 1 ) {
print "I care about this $url";
}
关于perl - 从 URL 列表中删除仅顶级目录的 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14146451/