algorithm - 跨多个序列的最长公共(public)子串

标签 algorithm perl lcs

我正在尝试跨多个序列查找最长公共(public)子串 (LCS)。

CPAN上有很多模块实现了2个序列的LCS算法,比如 Algorithm::Diff String::LCSS_XS ,但我很难将它们扩展到使用 2 个以上的序列,因为跨多个序列的 LCS 不一定是其中任何两个序列之间的 LCS。

值得注意的是,尽管它的名字是 Algorith::MLCS实际上并不返回 LCS,而是返回多个数组的所有公共(public)元素(也是非连续的)。我的印象是它被设计破坏了,但我可能错了。

Algorithm::DiffAlgorith::MLCS解决最长公共(public)子序列问题,而不是最长公共(public)子串问题。

是否有明显的方法来扩展 n=2 算法,或者我是否必须实现我的版本?如果是,如何?

谢谢。

最佳答案

使用 Tree::Suffix 可以很容易地解决这个问题模块。

例子:

#!/usr/bin/env perl
use Modern::Perl;
use Bio::SeqIO;
use Tree::Suffix;

my $seqio = Bio::SeqIO->new(
    -file => "fasta_sequences.txt",
    -format => "Fasta");

my @seqs;

while (my $seqobj = $seqio->next_seq) {
    push @seqs, $seqobj->seq;
}

my $tree = Tree::Suffix->new(@seqs);
my @lcss = $tree->lcs;

say $_ for @lcss;

关于algorithm - 跨多个序列的最长公共(public)子串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20584536/

相关文章:

c++ - 这个字符串比较逻辑有什么缺陷?

regex - 句子中的最后一个单词 : In SQL (regular expressions possible? )

perl - 迭代时无意中将键添加到哈希

algorithm - Myers diff 算法与 Hunt–McIlroy 算法

python - 多序列比对(最长公共(public)子序列)?

c++ - 我的 LCS 实现的运行时计算

java - 给定目标的 5 的倍数的总和

python - 将邻接矩阵转换为抽象单纯复形

perl - '$::n' 对 perl 意味着什么?

perl - 抄送 : error trying to exec 'cc1plus' : execvp: No such file or directory