我正在使用下面的脚本将一个大型 csv 文件导入到我的数据库中。
如果表为空,则该过程在本地计算机上大约需要 5 分钟才能完成。
如果我使用该文件更新同一个表上的现有值,则需要超过 15 分钟才能完成。
我的 csv 文件包含大约 35,000 行。
如何加快该过程?
if ( $request->get( $_POST["action"] ) == "import" ) {
$file = $upload->file_upload( "import", "media/import" );
if ( file_exists( DIR_UPLOAD_PHOTO . "/media/import/" . $file ) ) {
$file = DIR_UPLOAD_PHOTO . "/media/import/" . $file;
$handle = fopen( $file, "r" );
if ( $handle ) {
$lines = explode( "\r", fread( $handle, filesize( $file ) ) );
}
$total_array = count( $array );
$x = 0;
foreach ( $lines as $line ) {
if ( $x >= 1 ) {
$data = explode( "|", $line );
$titlu = trim( addslashes( $data[0] ) );
$alias = $this->generate_seo_link( $titlu );
$gramaj = trim( $data[1] );
$greutate = trim( $data[2] );
$pret_total = trim( $data[3] );
$pret_redus = trim( $data[4] );
$poza = trim( $data[5] );
$pret_unitar = trim( $data[6] );
$categorie = trim( $data[7] );
$brand = trim( addslashes( $data[8] ) );
$descriere = trim( addslashes( $data[9] ) );
$vizibil = trim( $data[10] );
$cod = trim( $data[11] );
$nou = trim( $data[12] );
$cant_variabila = trim( $data[13] );
$congelat = trim( $data[14] );
$tva = trim( $data[15] );
$stoc = trim( $data[16] );
if ( $cod != "" && $cod != " " ) {
$verificare = $database->select( "SELECT alias FROM produse WHERE alias LIKE '%" . $alias . "%'" );
for ( $i = 0; $i < $database->countRows(); $i++ ) {
if ( $alias == $verificare['alias'][$i] ) {
$alias = $this->increment_string( $alias, '_', 1 );
} else {
$alias = $alias;
}
}
$database->insert( sprintf( "insert into produse set
titlu='%s',
alias='%s',
gramaj='%s',
greutate='%s',
prettotal='%s',
pretredus='%s',
poza='%s',
pretunitar='%s',
categorie='%d',
brand='%s',
descriere='%s',
vizibil='%d',
cod='%s',
nou='%d',
cant_variabila='%d',
congelat = '%d',
tva = '%s',
stoc = '%d'
on duplicate key update
titlu='%s',
gramaj='%s',
greutate='%s',
prettotal='%s',
pretredus='%s',
poza='%s',
pretunitar='%s',
categorie='%d',
brand='%s',
descriere='%s',
vizibil='%d',
cod='%s',
nou='%d',
cant_variabila='%d',
congelat = '%d',
tva='%s',
stoc= '%d'",
$titlu, $alias,
$gramaj, $greutate, $pret_total, $pret_redus, $poza, $pret_unitar, $categorie,
$brand, $descriere, $vizibil, $cod, $nou, $cant_variabila, $congelat,
$tva, $stoc,
$titlu, $gramaj, $greutate,
$pret_total, $pret_redus, $poza, $pret_unitar, $categorie, $brand, $descriere,
$vizibil, $cod, $nou, $cant_variabila, $congelat, $tva, $stoc ) );
}
}
$x++;
}
}
}
这是我的递增函数
function increment_string($str, $separator = '-', $first = 1){
preg_match('/(.+)'.$separator.'([0-9]+)$/', $str, $match);
return isset($match[2]) ? $match[1].$separator.($match[2] + 1) : $str.$separator.$first;
}
最佳答案
首先,你做的越少,速度就越快。然而,由于硬盘驱动器的原因,许多数据库导入速度很慢。不是因为 CPU,也不是因为 RAM 不足 - 而是硬盘驱动器。
原因如下:硬盘以每秒输入输出操作来运行 - 我将其称为 I/O。这是制造商不做广告的数字。他们宣传诸如带宽和突发读取之类的东西,这些大多是无用的数字 - 就像鼠标的 DPI 一样。
机械磁盘的可用 I/O 数量相对较少。该数字因驱动器而异,可以是 100 到 400 个 I/O 之间的任何值。 SSD 具有更高数量的可用 I/O,从 5000 到 80k(甚至更多)。
这意味着机械磁盘可以在 1 秒内执行 400 次写入,而 SSD 可以执行 5000 次写入。 问题是数据库查询的数据通常很小(大约 4KB)。
如果您进行简单的数学计算 - 400 个 I/O * 4KB - 您将得到约 1.6 MB/秒的数字。它表明您消耗了所有 I/O,但耗尽了磁盘带宽的所有容量。
这也暗示您可以为每个 I/O 发出更大的数据写入。 用凡人语言来说,它只是意味着您应该启动一个事务,发出多个 INSERT 查询(例如 50 个 INSERT),然后提交该事务。
这样您就花费了 1 个 I/O 来执行 50 次插入。反过来,速度实际上快了 50 倍。如果您要使用准备好的语句,这会变得更加高效,因为 MySQL 不必在每次发送查询时都对查询进行词法分析。
我不会发送任何代码,因为您应该能够自行修复它。此外,您的代码对 SQL 注入(inject)是开放的。您需要修改一些内容,如果您不确定准备好的语句是什么 - 请大声回复。
关于php - 增强csv文件数据库导入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26759745/