python - 减少 python 中 sqlite3 execute/fetchone 的时间

标签 python sqlite

上下文

我正在处理几个专有格式的文件,这些文件存储了电力系统解决方案的结果。数据格式相当简单,但每个结果文件约为 50MB。提供了一个 API 来查询文件格式,但我需要做很多查询,而且 API 非常慢。

我编写了一个程序来使用 API 将这些文件中的几个文件相互比较,并让它运行了几个小时但没有结果。我的下一个想法是对文件进行单次传递,将我需要的数据存储到 sqlite3 数据库中,然后查询它。这让我在 20 分钟内得到了结果。好多了。重组数据以尽可能避免 JOIN:12 分钟。将 .db 文件存储在临时本地位置而不是网络上:8.5 分钟。

进一步改进

该程序以其当前速度或多或少是可以接受的,但是该程序完成后每天将运行许多次。目前,62% 的运行时间花在了 721 次 .execute/.fetchone 调用上。

      160787763 function calls (160787745 primitive calls) in 503.061 seconds
Ordered by: internal time
List reduced from 1507 to 20 due to restriction <20>
ncalls  tottime  percall  cumtime  percall filename:lineno(function)
   721  182.869    0.254  182.869    0.254 {method 'fetchone' of 'sqlite3.Cursor' objects}
   721  129.355    0.179  129.355    0.179 {method 'execute' of 'sqlite3.Cursor' objects}
 24822   45.734    0.002   47.600    0.002 {method 'executemany' of 'sqlite3.Connection' objects}

由于在这个小部分花费了很多时间,我想在继续前进之前我会询问任何改进它的想法。我觉得我可能会错过一些更有经验的眼睛会捕捉到的简单东西。该程序的这个特定部分的基本结构如下:

for i, db in enumerate(dbs):
    for key, vals in dict.iteritems():
        # If it already has a value, no need to get a comparison value
        if not vals[i]:
            solution_id = key[0]
            num = key[1]

            # Only get a comparison value if the solution is valid for the current db
            if solution_id in db.valid_ids:
                db.cur.execute("""SELECT value FROM table WHERE solution == ? AND num == ?""",
                               (solution_id, num))
                try:
                    vals[i] = db.cur.fetchone()[0]
                # .fetchone() could have returned None, no __getitem__
                except TypeError:
                    pass

字典结构是:

dict = {(solution_id, num): [db1_val, db2_val, db3_val, db4_val]}

每个条目至少有一个 db_val,其他的没有。上面循环的目的是填充每个可以填充的 db_val 点,以便您可以比较值。

问题

我读到 sqlite3 SELECT 语句只能使用 .execute 执行,因此我无法使用 .executemany(这为我节省了大量的插入时间)。我还阅读了 python 文档,直接从连接对象使用 .execute 可以更有效,但我不能这样做,因为我需要获取数据。

是否有更好的方法来构建循环或查询,以最大限度地减少花在 .execute 和 .fetchone 语句上的时间?

答案

根据CL和rocksportrocker提供的答案,我把我的建表语句(简化版)改成了:

CREATE TABLE table(
solution integer, num integer, ..., value real,
FOREIGN KEY (solution) REFERENCES solution (id),
FOREIGN KEY (num) REFERENCES nums (id)
);

到:

CREATE TABLE table(
solution integer, num integer, ..., value real,
PRIMARY KEY (solution, num),
FOREIGN KEY (solution) REFERENCES solution (id),
FOREIGN KEY (num) REFERENCES nums (id)
) WITHOUT ROWID;

在我的测试用例中,

  • 文件大小保持不变
  • .executemany INSERT 语句从约 46 秒增加到约 69 秒
  • .execute SELECT 语句从约 129 秒减少到约 5 秒
  • .fetchone 语句从 ~183 秒减少到 ~0 秒
  • 总时间从约 503 秒减少到约 228 秒,是原来时间的 45%

仍然欢迎任何其他改进,希望这可以成为其他 SQL 新手的一个很好的引用问题。

最佳答案

execute()fetchone() 调用是数据库完成所有工作的地方。

为了加快查询速度,必须对查找列进行索引。为了节省空间,您可以使用聚簇索引,即将表设为 WITHOUT ROWID table。 .

关于python - 减少 python 中 sqlite3 execute/fetchone 的时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46469454/

相关文章:

python - 具有 postgresql 错误值的 Django 应用程序对于类型字符变化来说太长(1)

python - Timeit 模块 - 将对象传递给设置?

python - OpenCV:合并拟合形状

python - 如何使用 Python 2.7 创建 Python 3.5 虚拟环境?

android - 如何从sqlite数据库中获取数据并显示在android中的listview中

java - 用于查找两点之间路径的 SQL 查询

python - Airflow 1.9.0 ExternalTask​​Sensor retry_delay=30 产生 TypeError : can't pickle _thread. RLock 对象

python - wxpython 中的动态绘图

ios - FMDB 数据库无法在设备上运行,但可以在模拟器中运行

android - Android 上的 SQLite JDBC 驱动程序