已经有一些关于 PostgreSQL 导入的问题和答案(以及具体的 SQLite->PostgreSQL 情况)。这个问题是关于特定的极端情况。
背景
我有一个现有的、正在生产的 Web 应用程序,用 python( Pyramid )编写,并使用 alembic 来轻松进行架构迁移。由于数据库因意外的高写入负载而崩溃(可能是由于我自己的代码的复杂性),我决定迁移到 PostgreSQL。
数据迁移
有一些关于数据迁移的建议。最简单的一种涉及使用
sqlite3 my.db .dump > sqlitedumpfile.sql
然后导入它
psql -d newpostgresdb < sqlitedumpfile.sql
这需要对 sqlitedumpfile 进行一些编辑。特别是,删除一些不兼容的操作,更改值(sqlite 将 bool 值表示为 0/1)等。它最终太复杂,无法以编程方式处理我的数据,并且需要手动处理太多工作(某些表有 20k 行左右) .
我最终选择的一个很好的数据迁移工具是 pgloader ,立即“奏效”。然而,正如这种类型的数据迁移的典型情况一样,这暴露了我的数据库中的各种数据不一致问题,我必须在迁移之前从源头解决这些不一致问题(特别是,删除非唯一列的外键,这在方便连接和删除依赖于已删除的其他表中的行的孤立行的时间)。这些问题解决后,我就可以做
pgloader my.db postgresql:///newpostgresdb
并适本地获取我的所有数据。
问题是什么?
pgloader 对于数据来说非常有效,但对于表结构本身却不太好。这导致了三个问题:-
我必须创建一个新的 alembic 修订版,其中包含大量更改(主要与数据类型相关,但也有一些与问题 2 有关)。
约束/索引名称不可靠(生成唯一的数字名称)。实际上有an option要禁用此功能,这是一个问题,因为我需要一个可靠的升级路径,该路径可以在生产中复制,而无需手动调整 alembic 代码。
大多数主键的序列/自动增量都失败了。这破坏了我的网络应用程序,因为我无法为某些(不是全部)数据库添加新行。
相比之下,使用 alembic 重新创建空白数据库来维护架构效果很好,无需更改我的任何 Web 应用程序代码。然而 pgloader 默认会覆盖现有的表,所以这会让我无处可去,因为数据才是真正需要迁移的。
如何使用我已经定义的(并且有效的)模式进行正确的数据迁移?
最佳答案
总而言之,最终起作用的是:-
在 postgresql://newpostgresdb 中创建适当的数据库结构(我为此使用了
alembic upgrade head
)使用 pgloader 将数据从 sqlite 移动到 postgresql 中的另一个数据库。正如问题中提到的,在这一步之前需要解决一些数据不一致的问题,但这与这个问题本身无关。
createdb tempdb
pgloader my.db postgresql:///tempdb
转储
tempdb
中的数据使用pg_dump
pg_dump -a -d tempdb > dumped_postgres_database
编辑生成的转储以完成以下操作:-
SET session_replication_role = replica
因为我的一些行相对于同一个表中的其他行是循环的删除
alembic_version
表,因为我们正在为 alembic 重新启动一个新分支。重新生成任何序列,相当于
SELECT pg_catalog.setval('"table_colname_seq"', (select max(colname) from table));
最后,
psql
可用于将数据加载到您的实际数据库
psql -d newpostgresdb < dumped_postgres_database
关于postgresql - SQLite 到 PostgreSQL 仅数据传输(以维护 alembic 功能),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45122494/