我有一个 pandas 数据框,有 10 列和 1000 万行。
我在 pgadmin4(一个用于管理 MSSQL 服务器等数据库的应用程序)中创建了一个空表来存储这些数据。
但是,当运行以下命令时:
my_dataframe.to_sql('name_of_sql_table',connection, index = False, if_exists = 'append', method="multi")
由于进程太长/内存不足,它需要很长时间才能运行,并且经常使我的 jupyter 内核崩溃。
是否有任何加速“将 pandas 发送到 sql 表”的建议方法?
我能想到的一些事情是将数据分割成 100 万行 block ,然后一次发送一个 - 在运行 to_sql()
方法时附加行。
我无法选择直接将数据加载到 pgadmin4 - 我唯一的方法是将数据从 python 发送到 pgadmin。
最佳答案
看看https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html
如果这适用于您的 pandas
版本,请使用
df.to_sql("table_name",
connection,
index=False,
if_exists='append',
chunksize=25000,
method=None)
您的查询可能会崩溃,因为您使用的是 method='multi'
,因为它会执行以下操作:
method : {None, ‘multi’, callable}, default None
Controls the SQL insertion clause used:
‘multi’: Pass multiple values in a single INSERT clause. callable with signature (pd_table, conn, keys, data_iter). Details and a sample callable implementation can be found in the section insert method.
这意味着pandas
将在内存中为所有行构建语句。使用 chunksize
和每行一个 INSERT
语句将允许 pandas
将保存分块到数据库。
关于python - 将 Pandas 数据帧发送到 SQL 数据库的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58951199/