.net - 同一事务中的并发数据库 (PostgreSQL) 命令

标签 .net multithreading postgresql transactions thread-safety

我正在编写一个 .NET 4 应用程序,它将大量数据从文件导入到 PostgreSQL 9.1 数据库中。分析显示 DB 调用实际插入数据占用了 90% 以上的时间。数据库服务器似乎受 CPU 限制 - 使用一个 CPU。

如果可能,我想通过使用所有 CPU 来更快地导入数据。输入文件可以在客户端被分解成多个部分,所以这通常不会太难,但我想确保如果在导入文件时出现任何错误,那么数据库根本不会被修改。为实现这一点,我在一次交易中完成了整个导入。

是否有可能以某种方式向数据库服务器发送并发命令(以利用其所有 CPU),但仍然确保整个导入成功或不进行任何更改?据我了解,不能从多个线程使用事务来同时运行多个命令,可以吗?我正在使用 Npgsql 作为 ADO.NET 提供程序,如果这有所作为的话。

最佳答案

Postgres 9.6 之前的标准 PostgreSQL 中,一个事务不能被多个线程并行处理,这个特性被添加为 "parallel query" .

不过,您的 INSERT 操作受 CPU 限制似乎很可疑。这里有几件事可能会得到改进。您究竟如何将数据发送到服务器?基本上有四种方法可以INSERT 数据到表中:

  1. 一次一行,VALUES 表达式提供文字
  2. VALUES 表达式一次多行
  3. INSERT使用 SELECT(插入 0-n 行)
  4. COPY

COPY 是迄今为止最快的方法。

  • 在大量INSERT/COPY 之前删除索引 并在之后重新创建它们会更快。增量添加索引元组的效率远低于一次创建索引。

  • 触发器、约束或外键约束 是其他可能减慢您速度的因素。也许您可以在批量加载之前禁用/删除并在之后启用/重新创建?

还有一些设置可以产生实质性的不同。

阅读关于 Bulk Loading and Restores 的文章和 Tuning Your PostgreSQL Server在 Postgres Wiki 中,尤其是关于 checkpoint_segmentscheckpoint_completion_target 的段落。

该操作可能不像看起来那样受 CPU 限制。看看这个paragraph in the PostgreSQL Wiki .

减速的另一个来源可能是日志记录。例如,log_statement = all以一定的成本产生巨大的日志文件,尤其是单行插入。

这是一个quick method to check all your custom settings再次出现在 PostgreSQL Wiki 中。

还有一个加快速度的想法,尤其是当您无法关闭 fsync 时。像这样创建一个或多个空的临时表:

CREATE TEMP TABLE x_tmp AS SELECT * FROM real_tbl LIMIT 0;

考虑一下如何处理序列和其他默认值! INSERT 所有数据到暂存表,然后用一条命令写入目标表。索引和约束再次关闭,但时间要短得多。

INSERT INTO real_tbl SELECT * FROM x_tmp ORDER BY something;
DROP TABLE x_tmp;

可能会更快。确保为各种设置使用足够的 RAM。看temp_buffers特别是。

关于.net - 同一事务中的并发数据库 (PostgreSQL) 命令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7961891/

相关文章:

目标框架列表中缺少 .NET Framework 4.5

C# COM DLL 阻止 VBA 应用程序退出

postgresql - EXECUTE 的查询字符串参数为空

java - Spring boot data.sql没有初始化Postgresql中的数据

c# - nuget 包安装生成的空数据上下文

CouchDB 的 C# 库?

c# - "Binding"到 TreeView?

c# - "long-running tasks"是什么意思?

java - 多线程同步问题

PostgreSQL bigserial 和 nextval