python - 过滤一组以匹配字符串排列

标签 python algorithm permutation itertools multiset

我正在尝试使用 itertools.permutations() 来返回 string 的所有排列,并且只返回一组 的成员单词

import itertools

def permutations_in_dict(string, words): 
    '''
    Parameters
    ----------
    string : {str}
    words : {set}

    Returns
    -------
    list : {list} of {str}    

    Example
    -------
    >>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
    ['act', 'cat']
    '''

我当前的解决方案在终端中运行良好,但不知何故无法通过测试用例...

return list(set([''.join(p) for p in itertools.permutations(string)]) & words)

任何帮助将不胜感激。

最佳答案

问题类别

您要解决的问题最好描述为对 anagram 的测试。匹配。

使用排序的解决方案

traditional solution就是对目标字符串进行排序,对候选字符串进行排序,测试是否相等。

>>> def permutations_in_dict(string, words):
        target = sorted(string)
        return sorted(word for word in words if sorted(word) == target)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

使用多重集的解决方案

另一种方法是使用 collections.Counter()制作 multiset平等检验。这在算法上优于排序解决方案(O(n)O(n log n))但往往会丢失,除非字符串的大小很大(由于散列所有字符的成本)。

>>> def permutations_in_dict(string, words):
        target = Counter(string)
        return sorted(word for word in words if Counter(word) == target)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

使用完美哈希的解决方案

独特的字谜签名或perfect hash可以通过将字符串中每个可能的字符对应的素数相乘来构造。

commutative property of multiplication保证哈希值对于单个字符串的任何排列都是不变的。 fundamental theorem of arithmetic 保证哈希值的唯一性(也称为唯一素数分解定理)。

>>> from operator import mul
>>> primes = [2, 3, 5, 7, 11]
>>> primes += [p for p in range(13, 1620) if all(pow(b, p-1, p) == 1 for b in (5, 11))]
>>> anagram_hash = lambda s: reduce(mul, (primes[ord(c)] for c in s))
>>> def permutations_in_dict(string, words):
        target = anagram_hash(string)
        return sorted(word for word in words if anagram_hash(word) == target)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

使用排列的解决方案

使用 itertools.permutations() 对目标字符串进行排列搜索当字符串很小时是合理的(在 n 长度的字符串上生成排列会生成 n 个阶乘候选)。

好消息是,当 n 很小而 words 的数量很大时,这种方法运行得非常快(因为集合成员资格测试是 O(1)) :

>>> from itertools import permutations
>>> def permutations_in_dict(string, words):
        perms = set(map(''.join, permutations(string)))
        return sorted(word for word in words if word in perms)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

正如 OP 所推测的,纯 python 搜索循环可以通过使用 set.intersection() 加速到 c-speed :

>>> def permutations_in_dict(string, words):
        perms = set(map(''.join, permutations(string)))
        return sorted(words & perms)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

最佳解决方案

哪种解决方案最好取决于 string 的长度和 words 的长度。计时将显示哪个最适合特定问题。

以下是使用两种不同字符串大小的各种方法的一些比较时序:

Timings with string_size=5 and words_size=1000000
-------------------------------------------------
0.01406    match_sort
0.06827    match_multiset
0.02167    match_perfect_hash
0.00224    match_permutations
0.00013    match_permutations_set

Timings with string_size=20 and words_size=1000000
--------------------------------------------------
2.19771    match_sort
8.38644    match_multiset
4.22723    match_perfect_hash
<takes "forever"> match_permutations
<takes "forever"> match_permutations_set

结果表明,对于小字符串,最快的方法是使用 set-intersection 在目标字符串上搜索排列。

对于较大的字符串,最快的方法是传统的排序和比较解决方案。

希望您发现这个小小的算法研究和我一样有趣。要点是:

  • 集合、迭代工具和集合可以轻松解决此类问题。
  • Big-oh 运行时间很重要(大型 n 的 n 因子分解)。
  • 恒定的开销很重要(由于散列开销,排序优于多集)。
  • 离散数学是思想的宝库。
  • 在您进行分析和运行计时之前,很难知道什么是最好的 :-)

时间设置

FWIW,这是我用来运行比较时序的测试设置:

from collections import Counter
from itertools import permutations
from string import letters
from random import choice
from operator import mul
from time import time

def match_sort(string, words):
    target = sorted(string)
    return sorted(word for word in words if sorted(word) == target)

def match_multiset(string, words):
    target = Counter(string)
    return sorted(word for word in words if Counter(word) == target)

primes = [2, 3, 5, 7, 11]
primes += [p for p in range(13, 1620) if all(pow(b, p-1, p) == 1 for b in (5, 11))]
anagram_hash = lambda s: reduce(mul, (primes[ord(c)] for c in s))

def match_perfect_hash(string, words):
    target = anagram_hash(string)
    return sorted(word for word in words if anagram_hash(word) == target)

def match_permutations(string, words):
    perms = set(map(''.join, permutations(string)))
    return sorted(word for word in words if word in perms)

def match_permutations_set(string, words):
    perms = set(map(''.join, permutations(string)))
    return sorted(words & perms)

string_size = 5
words_size = 1000000

population = letters[: string_size+2]
words = set()
for i in range(words_size):
    word = ''.join([choice(population) for i in range(string_size)])
    words.add(word)
string = word                # Arbitrarily search use the last word as the target

print 'Timings with string_size=%d and words_size=%d' % (string_size, words_size)
for func in (match_sort, match_multiset, match_perfect_hash, match_permutations, match_permutations_set):
    start = time()
    func(string, words)
    end = time()
    print '%-10.5f %s' % (end - start, func.__name__)

关于python - 过滤一组以匹配字符串排列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44857962/

相关文章:

python - 如果在 python/bash 中包含来自另一个 .txt 文件的单词,则从文件中删除行

algorithm - 哈希算法,它的用途?

c - C 中的函数,实现两个 int 数组在另一个数组中的数学并集

python - Python中固定前一个元素的排列

python - Scikit Learn 基于树的特征选择保留列名称?

python - JMeter - 在调用每个 HTTP 请求采样器之前运行 python 脚本

python - Spark 中可能彼此略有不同的日志行的正则表达式

algorithm - 找到(稀疏)图直径的好算法?

java - 组合算法

java - Java中整数数组的置换算法