python - Oracle 中的 SQLAlchemy 大数截断/舍入问题

标签 python sqlalchemy cx-oracle

我管理着许多 ETL 作业,其中我与 Facebook graph 和 Google Doubleclick 等 API 有连接,它们使用大数字唯一标识符。我们使用 Oracle 数据库暂存其中一些数据,并将其与我们自己的数据结合起来。我一直遇到的问题是,当我通过 SQLAlchemy(使用 cx_Oracle)将这些大数字 ID 插入数字列时,重要数字会被截断。

例子: 1234567890726531 变成 1234567890726530

解决方法: 为了解决这个问题,我一直在使用 VARCHAR2 数据类型来保存 ID 的文本表示形式,因为它保留了所有有效数字。

我相信它与这些错误线程有关:

(我无法复制这些线程中提到的游标代码来测试我所处情况的解决方案)

Facebook示例的部分示例代码(或从中提取的相关部分)如下:

[...code that populate the "buffer" list]
schema,table_name = 'some_schema','some_table'
engine = create_engine(enginestr)
metadata = MetaData()
table  = Table(table_name,
                 metadata,
                 schema=schema,
                 autoload=True,
                 autoload_with=self.engine)
buf=[]
for i in buffer:
    d={
        'id':i[1]['id'],
        'id_char':i[1]['id'],
        'name':i[1]['name'],
        'status':i[1]['status'],
        'page_id':i[0]['id']
    }
    buf+=[d]
engine.execute(table.insert(),buf)

缓冲区条目如下所示:

[(<Page> {
      "id": "FacebookPageName"
  }, <LeadgenForm> {
      "id": "123456789012345",
      "leadgen_export_csv_url": "https://www.facebook.com/ads/lead_gen/export_csv/?id=123456789012345&type=form&source_type=graph_api",
      "locale": "en_US",
      "name": "Leadgen Form Name",
      "status": "ACTIVE"
  })]

表格本质上是这样的:

create table some_schema.some_table (
id number primary key,
name varchar2(512 char),
status varchar2(30 char),
updated timestamp with time zone default systimestamp,
id_char varchar2(64 char)
);

运行上面的代码后,这条SQL的结果应该是nothing

select to_char(t.id) ,t.id_char from some_schema.some_table t where t.id<>t.id_Char;

但是,它确实会返回结果(为了保护隐私而略有改动)

NUMERIC_ID  ID_CHAR
1234567890726530    1234567890726531
1234567890585300    1234567890585296
1234567890103880    1234567890103882
1234567890185790    1234567890185794
1234567890359660    1234567890359664
1234567890793130    1234567890793131
1234567890250270    1234567890250272
1234567890467220    1234567890467223
1234567890905240    1234567890905241
1234567890369260    1234567890369255

此 DML 将其更新为按预期显示,因为向我展示了问题出在 python 方面:

update some_schema.some_table t set t.id = t.id_char where t.id<>t.id_Char;

有没有更好的方法来处理:

  • 表反射
  • 数据类型转换
  • 插入
  • 任何东西

这样我的大数值就不会被截断?现在,为 ID 使用字符串类型的容器似乎可行,但就每行的存储空间而言并不是最好的,这成为大型数据集的一个问题。

补充信息:

  • Python 版本:3.6.2
  • SQLAlchemy 版本:1.2.0
  • cx-Oracle 版本:6.1

编辑:

在Anthony Tuininga的建议下,我尝试通过cx-Oracle直接插入记录,并没有导致上述舍入问题。这让我得出结论,我的问题要么出在我对 SQLAlchemy 的实现上,要么出在 SQLAlchemy 库本身上。

buf=[]
columns = ('id','id_char','name','status','page_id')
for i in buffer:
    d=(
        i[1]['id'],
        i[1]['id'],
        i[1]['name'],
        i[1]['status'],
        i[0]['id']
    )
    buf+=[d]

from ouplax.database import KEY
import cx_Oracle
config = {
    'server'     : 'TNSName',
    'username'   : 'username',
    'schema'     : 'some_schema',
    'table_name' : 'some_table',
    'columns'    : ','.join(columns),
    'binds'      : ','.join( [':{}'.format(i) for i in range(1,len(columns)+1)] )
}
k = KEY(server=config['server'],username=config['username'],keyHeader='PYSQL') #Object for storing/retrieving credentials
connection = cx_Oracle.connect(config['username'],k.getpass(),server)
cursor = cx_Oracle.Cursor(connection)
stmt = 'truncate table {schema}.{table_name}'.format(**config)
print(stmt)
cursor.execute(stmt)
stmt = 'insert into {schema}.{table_name} ({columns}) values ({binds})'.format(**config)
print(stmt)
cursor.prepare(stmt)
cursor.executemany(None, buf)
connection.commit()
cursor.close()
connection.close()

最佳答案

我自己偶然发现了这个问题并在 SQLAlchemy 存储库中提交了错误报告 (link) .该问题已在 SQLAlchemy 1.2.11 release 中得到解决:

[oracle] [bug] For cx_Oracle, Integer datatypes will now be bound to “int”, per advice from the cx_Oracle developers. Previously, using cx_Oracle.NUMBER caused a loss in precision within the cx_Oracle 6.x series.

关于python - Oracle 中的 SQLAlchemy 大数截断/舍入问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48406354/

相关文章:

sqlalchemy - SQL Alchemy 和生成 ALTER TABLE 语句

python - 如何将 cx_Oracle 查询中的 '?' 替换为提供的值

python - 如何使用cx_Oracle在python中执行非sql命令

java - 如何使用 stanford-nlp 提供的 OpenIEDemo.java 生成自定义三元组

python - flask-sqlalchemy 对特定表使用 drop_all 和 create_all

python - sqlalchemy 插入数据不起作用

python - 在 cx_Oracle 上执行许多 CLOB 元素

python - Python 中的算术序列切片

python - 如何制作命令行文本编辑器?

python - 表删除后 SQLAlchemy 行为不正确