html - 我如何使用 Perl 可靠地解析 QuakeLive 播放器配置文件?

标签 html perl web-crawler

我目前正在使用 Perl 脚本从 QuakeLive 网站收集数据。 一切都很顺利,直到我无法获得一组数据。

我为此使用了正则表达式,它们适用于除了最喜欢的竞技场、武器和游戏类型之外的所有内容。我只需要在 $1 中获取这三个元素的名称以进行进一步处理。

我尝试对收藏图像进行正则表达式处理,但没有成功。如果有用的话,我已经在脚本中使用了 WWW::Mechanize。

我认为问题可能与这些元素所在段落的类名有关,而前一个是无类的。

您可以找到一个示例配置文件 HERE .

请注意,对于页面的前一部分,它使用如下代码工作:

$content =~ /<b>Wins:<\/b> (.*?)<br \/>/;
$wins = $1;
print "Wins: $wins\n";

最佳答案

当前的问题是您有:

<p class="prf_faves">
<img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif" 
     width="17" height="17" alt="" class="fl fivepxhr" />
                <b>Arena:</b> Campgrounds
                <div class="cl"></div>
            </p>

也就是没有<br />遵循收藏夹的值,例如 Arena。现在,正确的方法是使用合适的 HTML 解析器。脆弱的解决方案是调整您的模式(未经测试):

my ($favarena) = $content =~ m{<b>Arena:</b> ([^<]+)};

这应该把所有内容都放在 < 上下一个 <div>$favarena .现在,如果所有的竞技场都是没有空格的单个单词,

my ($favarena) = $content =~ m{<b>Arena:</b> (\S+)};

将为您省去之后必须修剪空格的麻烦。

请注意,此类基于正则表达式的解决方案很容易被简单的事情所愚弄,例如在源代码中注释掉片段。例如,如果要将源更改为:

<p class="prf_faves">
<img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif" 
     width="17" height="17" alt="" class="fl fivepxhr" />
<!-- <b>Arena: </b> here -->
                <b>Arena:</b> Campgrounds
                <div class="cl"></div>
            </p>

您的脚本会遇到麻烦,而使用 HTML 解析器的解决方案则不会。

使用 HTML::TokeParser::Simple 的示例:

#!/usr/bin/perl

use strict; use warnings;

use HTML::TokeParser::Simple;

my $p = HTML::TokeParser::Simple->new( 'martianbuddy.html' );

while ( my $tag = $p->get_tag('p') ) {
    next unless $tag->is_start_tag;
    next unless defined (my $class = $tag->get_attr('class'));
    next unless grep { /^prf_faves\z/ } split ' ', $class;

    my $fav = $p->get_tag('b');
    my $type = $p->get_text('/b');
    my $value = $p->get_text('/p');
    $value =~ s/\s+\z//;

    print "$type = $value\n";
}

输出:

Arena:  Campgrounds
Game Type:  Clan Arena
Weapon:  Rocket Launcher

And, here is an example using HTML::TreeBuilder:

#!/usr/bin/perl

use strict; use warnings;

use HTML::TreeBuilder;
use YAML;

my $tree = HTML::TreeBuilder->new;
$tree->parse_file('martianbuddy.html');

my @p = $tree->look_down(_tag => 'p', sub {
        return unless defined (my $class = $_[0]->attr('class'));
        return unless grep { /^prf_faves\z/ } split ' ', $class;
        return 1;
    }
);

for my $p ( @p ) {
    my $text = $p->as_text;
    $text =~ s/^\s+//;
    my ($type, $value) = split ': ', $text;
    print "$type: $value\n";
}

输出:

Arena: Campgrounds 
Game Type: Clan Arena 
Weapon: Rocket Launcher

鉴于该文档是一个 HTML 片段而不是一个完整的文档,您将使用基于 HTML::Parser 的模块获得更大的成功。而不是那些期望对格式良好的 XML 文档进行操作的人。

关于html - 我如何使用 Perl 可靠地解析 QuakeLive 播放器配置文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3864431/

相关文章:

javascript - 如何在不同页面上传递对 CSS 样式所做的更改

javascript - 获取 HTML 元素在主体坐标中的位置

用于网络排名和搜索引擎的 C++ 库

java - Lucene有什么用?

python - scrapy 爬虫抓取实例数据异常

html - 防止继承选择 css 的选项

javascript - 在新窗口中打开表单结果

perl - 退出时删除文件

perl - 使用不同的大小写重命名 CPAN 包名称

perl - 使用 SWIG 将二进制数据移入/移出 Perl