database - 将大型排序数据文件插入数据库

标签 database bulkinsert bioinformatics sorting

我有包含 DNA 序列的大型 (~100GB) 文件。它们按前两列排序。例如:

chr  position    allele    coverage   otherStuff
1    1000        A         10         ...
1    1001        C          1         ...
2      10        A         10         ...
X    1000        G          3         ...
Y    1000        A         13         ...

我想将它们加载到数据库中,这样我就可以更有效地查询它们(目前,我会进行全面扫描以找到某个位置,但由于它已排序,因此应该可以在 O(记录 n))。我以前使用过 MySQL 的“load data infile”,但是如果我想在 chr 和 position 上创建索引,它会忽略数据已经排序的事实并再次排序。

有解决办法吗?我可以说服 MySQL(或任何其他数据库,我不受 MySQL 的限制)我的数据已经排序了吗?

提前致谢!

最佳答案

关于database - 将大型排序数据文件插入数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9071715/

相关文章:

java - Room Persistence 库 - 带有 List<Video> 的嵌套对象,@Embedded 不起作用。

java - 将 JDBC 批量插入发送到 crate.io 时,返回值 -3 表示什么

Python 在大列表中查找 kmers

r - 计算编辑距离百分比

python - 在 Python 中优化数据帧子集操作

ios - 查询 SQLite 数据库以获取 X'3D98F71F3CD9415BA978C010b1CEF941 形式的 GUID

database - 使用新主键有选择地转储并插入到新数据库中

php - 如何在mysql中使用存储过程获取问题及其相关标签?

sql - 为 SQL 表类型插入批量记录时获取 SCOPE_IDENTITY 值

MySQL 在单次插入中插入 20K 行