python 表查找 : list of tuples vs. 数据库

在 python 中，我正在从事一个项目，该项目定期涉及计算有多少具有某些给定属性的对象符合某些条件。我可以看到如何使用元组列表或对象列表或数据库来执行此操作，但我想知道以这种方式过滤对象列表是否是“显而易见的 pythonic”方式。

我想到的选项是这样的:

list_of_all = [object_type(property0, property1, ...), ...]
number_of_matches = len(filter(object_type.property2_test(property2),
    filter(object_type.property1_getter, list_of_all)

list_of_all = [object_type(property0, property1, ...), ...]
number_of_matches = len([0 for candidate in list_of_all
    if candidate.property1 and candidate.property2 == property2])

list_of_all = [(property0, property1, ...), ...]
number_of_matches = len([0 for candidate in list_of_all
    if candidate[1] and candidate[2] == property2])

db_cursor.execute("""CREATE TABLE table_of_all
    (property0 INTEGER, property1 INTEGER, ...)""")
number_of_matches = len(db_cursor.execute("""SELECT 1 FROM table_of_all
    WHERE property1 = 1 AND property2 = ?""", (property2,)).fetchall())

在我的代码上下文中使用最后两个，timeit 告诉我存在如此显着的差异。

$ python -m timeit -n 100 'import with_db' | tail -n1
100 loops, best of 3: 0.751 usec per loop
$ python -m timeit -n 100 'import with_list' | tail -n1
100 loops, best of 3: 0.761 usec per loop

这两个值每次都介于 0.751 和 0.811 之间。

一般来说，我的用例包含数百个(用于测试目的)最多至少 40000 个对象。它们用于模拟循环(无需等待 I/O)。每个循环迭代包含大约 50 次这样的查找，可能会找到一个属性的最大值，以及两个对象的更新，但如果有其他用例存在最佳解决方案，那也很有趣。

是否有针对此类任务的明显更好的解决方案，或者是否存在选择这些解决方案中的任何一种都会产生影响的独特类型的任务？

最佳答案

您可以让数据库进行计数:

SELECT COUNT(*) FROM table_of_all
    WHERE property1 = 1 AND property2 = ?

在 Python 中，您可以通过使用 sum 和生成器表达式来避免创建中间列表:

sum(1 for candidate in list_of_all
    if candidate.property1 and candidate.property2 == property2)

关于python 表查找 : list of tuples vs. 数据库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13091152/

python 表查找 : list of tuples vs. 数据库

上一篇：regex - 从 Rails 3 中的 JSON 响应中剥离数字？

下一篇：database - RavenDB 数据库配置