给定 Text::DocumentCollection
中的文档集合在 Perl 中,我想计算 cosine similarity在集合中的任意两个文档之间使用 Text::Document
.
我认为这可能可以使用 EnumerateV
和回调来完成,但我无法弄清楚细节。 ( This SO question 很有帮助,但我仍然卡住了。)
具体来说,假设集合存储在test.db
中如下:
#!/usr/bin/perl -w
use Text::DocumentCollection;
use Text::Document;
$c = Text::DocumentCollection->new( file => 'test.db' );
my $text = 'Stack Overflow is a programming | Q & A site that’s free. Free to ask | questions, free to answer questions|, free to read, free to index';
my @strings = split /\|/, $text;
my $i=0;
foreach (@strings) {
my $doc = Text::Document->new();
$doc->AddContent($_);
$c->Add(++$i,$doc);
}
现在假设我需要读取 test.db
并计算所有文档组合的余弦相似度。 (除了通过存储的数据库文件,我无法访问在上面的代码中创建的文档。)
我认为答案是构建一个子程序,该子程序通过 EnumerateV
中的回调访问,我猜该子程序也调用了 EnumerateV
但我没有无法弄清楚。
最佳答案
你可能想从这样的事情开始:
$c->EnumerateV(sub {
my ($c, $k1, $d1) = @_;
$c->EnumerateV(sub {
my ($c, $k2, $d2) = @_;
return if exists $dist{$k1.$k2};
$dist{$k1.$k2} = $dist{$k2.$k1}= cosine_dist($d1, $d2);
});
});
关于perl - 将所有文档与 Perl 的 Text::DocumentCollection 中的其他文档进行比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8438964/