python - 为什么使用 sqlite 插入 SQLAlchemy 比直接使用 sqlite3 慢 25 倍？

为什么这个简单的测试用例使用 SQLAlchemy 插入 100,000 行比直接使用 sqlite3 驱动程序慢 25 倍？我在现实世界的应用程序中看到了类似的减速。我做错了吗？

#!/usr/bin/env python
# Why is SQLAlchemy with SQLite so slow?
# Output from this program:
# SqlAlchemy: Total time for 100000 records 10.74 secs
# sqlite3:    Total time for 100000 records  0.40 secs


import time
import sqlite3

from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Integer, String,  create_engine 
from sqlalchemy.orm import scoped_session, sessionmaker

Base = declarative_base()
DBSession = scoped_session(sessionmaker())

class Customer(Base):
    __tablename__ = "customer"
    id = Column(Integer, primary_key=True)
    name = Column(String(255))

def init_sqlalchemy(dbname = 'sqlite:///sqlalchemy.db'):
    engine  = create_engine(dbname, echo=False)
    DBSession.configure(bind=engine, autoflush=False, expire_on_commit=False)
    Base.metadata.drop_all(engine)
    Base.metadata.create_all(engine)

def test_sqlalchemy(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    for i in range(n):
        customer = Customer()
        customer.name = 'NAME ' + str(i)
        DBSession.add(customer)
    DBSession.commit()
    print "SqlAlchemy: Total time for " + str(n) + " records " + str(time.time() - t0) + " secs"

def init_sqlite3(dbname):
    conn = sqlite3.connect(dbname)
    c = conn.cursor()
    c.execute("DROP TABLE IF EXISTS customer")
    c.execute("CREATE TABLE customer (id INTEGER NOT NULL, name VARCHAR(255), PRIMARY KEY(id))")
    conn.commit()
    return conn

def test_sqlite3(n=100000, dbname = 'sqlite3.db'):
    conn = init_sqlite3(dbname)
    c = conn.cursor()
    t0 = time.time()
    for i in range(n):
        row = ('NAME ' + str(i),)
        c.execute("INSERT INTO customer (name) VALUES (?)", row)
    conn.commit()
    print "sqlite3: Total time for " + str(n) + " records " + str(time.time() - t0) + " sec"

if __name__ == '__main__':
    test_sqlalchemy(100000)
    test_sqlite3(100000)

我尝试了许多变体(参见 http://pastebin.com/zCmzDraU)

最佳答案

SQLAlchemy ORM 使用 unit of work同步对数据库的更改时的模式。这种模式远远超出了简单的数据“插入”。它包括使用属性检测系统接收分配给对象的属性，该系统跟踪对象所做的更改，包括在 identity map 中跟踪插入的所有行。其效果是，对于每一行 SQLAlchemy 必须检索其“最后插入的 id”(如果尚未给出)，并且还涉及根据需要对要插入的行进行扫描和排序以查找依赖项。对象也需要进行相当程度的簿记，以保持所有这些运行，这对于非常大量的行一次可能会导致花费大量时间在大型数据结构上，因此最好将它们分 block 。

基本上，工作单元是高度自动化的，目的是自动化将复杂对象图持久化到关系数据库中的任务，无需显式持久化代码，这种自动化是有代价的。

所以 ORM 基本上不适用于高性能批量插入。这就是为什么 SQLAlchemy 有两个独立库的全部原因，如果您查看 http://docs.sqlalchemy.org/en/latest/index.html，您会注意到。您会看到索引页面有两个不同的部分——一个用于 ORM，另一个用于 Core。如果不了解两者，您将无法有效地使用 SQLAlchemy。

对于快速批量插入的用例，SQLAlchemy 提供了 core ，这是 ORM 在其之上构建的 SQL 生成和执行系统。有效地使用这个系统，我们可以生成一个与原始 SQLite 版本竞争的 INSERT。下面的脚本说明了这一点，以及一个预先分配主键标识符的 ORM 版本，以便 ORM 可以使用 executemany() 插入行。两个 ORM 版本都一次分 block 刷新 1000 条记录，这对性能有很大影响。

这里观察到的运行时是:

SqlAlchemy ORM: Total time for 100000 records 16.4133379459 secs
SqlAlchemy ORM pk given: Total time for 100000 records 9.77570986748 secs
SqlAlchemy Core: Total time for 100000 records 0.568737983704 secs
sqlite3: Total time for 100000 records 0.595796823502 sec

脚本:

import time
import sqlite3

from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Integer, String,  create_engine
from sqlalchemy.orm import scoped_session, sessionmaker

Base = declarative_base()
DBSession = scoped_session(sessionmaker())

class Customer(Base):
    __tablename__ = "customer"
    id = Column(Integer, primary_key=True)
    name = Column(String(255))

def init_sqlalchemy(dbname = 'sqlite:///sqlalchemy.db'):
    global engine
    engine = create_engine(dbname, echo=False)
    DBSession.remove()
    DBSession.configure(bind=engine, autoflush=False, expire_on_commit=False)
    Base.metadata.drop_all(engine)
    Base.metadata.create_all(engine)

def test_sqlalchemy_orm(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    for i in range(n):
        customer = Customer()
        customer.name = 'NAME ' + str(i)
        DBSession.add(customer)
        if i % 1000 == 0:
            DBSession.flush()
    DBSession.commit()
    print "SqlAlchemy ORM: Total time for " + str(n) + " records " + str(time.time() - t0) + " secs"

def test_sqlalchemy_orm_pk_given(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    for i in range(n):
        customer = Customer(id=i+1, name="NAME " + str(i))
        DBSession.add(customer)
        if i % 1000 == 0:
            DBSession.flush()
    DBSession.commit()
    print "SqlAlchemy ORM pk given: Total time for " + str(n) + " records " + str(time.time() - t0) + " secs"

def test_sqlalchemy_core(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    engine.execute(
        Customer.__table__.insert(),
        [{"name":'NAME ' + str(i)} for i in range(n)]
    )
    print "SqlAlchemy Core: Total time for " + str(n) + " records " + str(time.time() - t0) + " secs"

def init_sqlite3(dbname):
    conn = sqlite3.connect(dbname)
    c = conn.cursor()
    c.execute("DROP TABLE IF EXISTS customer")
    c.execute("CREATE TABLE customer (id INTEGER NOT NULL, name VARCHAR(255), PRIMARY KEY(id))")
    conn.commit()
    return conn

def test_sqlite3(n=100000, dbname = 'sqlite3.db'):
    conn = init_sqlite3(dbname)
    c = conn.cursor()
    t0 = time.time()
    for i in range(n):
        row = ('NAME ' + str(i),)
        c.execute("INSERT INTO customer (name) VALUES (?)", row)
    conn.commit()
    print "sqlite3: Total time for " + str(n) + " records " + str(time.time() - t0) + " sec"

if __name__ == '__main__':
    test_sqlalchemy_orm(100000)
    test_sqlalchemy_orm_pk_given(100000)
    test_sqlalchemy_core(100000)
    test_sqlite3(100000)

另请参阅:http://docs.sqlalchemy.org/en/latest/faq/performance.html

关于python - 为什么使用 sqlite 插入 SQLAlchemy 比直接使用 sqlite3 慢 25 倍？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11769366/

python - 为什么使用 sqlite 插入 SQLAlchemy 比直接使用 sqlite3 慢 25 倍？

上一篇：python - 使用 matplotlib/numpy 进行线性回归

下一篇：python - 静态方法 - 如何从另一个方法调用一个方法？