perl - 从使用 Perl 创建的 Excel 2007 文件中读取标题行时出现问题

标签 perl excel excel-2007 solaris

我在合并两个动态创建的 Excel 2007 文件时遇到问题。 我的文件是使用 Solaris 上的 Perl 模块 Excel::Writer::XLSX 创建的。

假设我有两个文件,fileA.xlsx 和 fileB.xlsx。现在我想将它们合并在一起(fileA + fileB => fileC)。 此时实际上不可能将 fileB 附加到 fileA。这是 Excel::Writer::XLSX 的限制,它只能创建新文件。

这两个 .xlsx 文件都可以在 Excel 2007、LibreOffice 3(在 Linux 上)以及(在 Microsoft xlsx 到 xls 转换器的帮助下)甚至在 Excel 2003 中毫无问题地打开。

但是,当我用 perl 打开它们(使用模块 Spreadsheet::XLSX)时,标题行(第 0 行)的内容总是被跳过;

# ...
foreach my $infile (@infiles) {
    my $excel = Spreadsheet::XLSX->new($infile);
    my $i     = 0;

    foreach my $sheet ( @{ $excel->{Worksheet} } ) {

        printf( "Infile '$infile', Sheet $i: %s\n", $sheet->{Name} );

        $sheet->{MaxRow} ||= $sheet->{MinRow};

        print "$infile: " . $sheet->{MaxRow} . " rows\n";
        print "data starts at row: " . $sheet->{MinRow} . ". \n";

        next unless $i == 0;    # only copy data from the first sheet (for speed)
        my $start_row = $sheet->{MinRow};

        foreach my $row ( $start_row .. $sheet->{MaxRow} ) {

            $sheet->{MaxCol} ||= $sheet->{MinCol};
           foreach my $col ( $sheet->{MinCol} .. $sheet->{MaxCol} ) {
              my $cell = $sheet->{Cells}[$row][$col];

              if ($cell) {

              # do something with the data
              # ...
              # write to outfile
              $excel_writer->sheets(0)->write($dest_row, $col, $cell->{Val} )
              }
           }

        }
  }
}

现在,该代码片段的输出始终是

data starts at row: 1. 

但这不是真的,它从第0行开始。如果我手动去从第0行读取数据,$cell是未定义的(尽管它不应该是)。

有趣的是,当我在 Microsoft Excel 中打开文件并对其进行简单更改(例如,通过向标题行中的单元格值之一添加空格)并保存文件时,会找到标题行通过上面的代码。

data starts at row: 0. 

顺便说一句,当我在 LibreOffice 中打开、更改、保存文件时,当我使用上面的代码重新读取它们时,会出现许多有关日期值的警告。 (因此,LibreOffice 保存日期时间值的方式似乎略有错误)。

生成文件的代码如下所示(注意:一些变量是在此子之外定义的):

sub exportAsXLS {
    #require Spreadsheet::WriteExcel;
    require Excel::Writer::XLSX;
    my ( $data, $dir, $sep, @not2export ) = @_;
    my $val;

    my $EXCEL_MAXROW = 1048576;

return undef unless $data;
return "."   unless scalar @$data > 0;

    my $time = time2str( "%Y%m%d_%H%M%S", time() );
    my $file = "$outdir/$dir/${host}_${port}-${time}.xlsx";

    #my $workbook  = Spreadsheet::WriteExcel->new($file);
    my $workbook  = Excel::Writer::XLSX->new($file);
    $workbook->set_optimization();
    my $worksheet = $workbook->add_worksheet();

    # Set the default format for dates.
    #my $date_formatHMS = $workbook->add_format( num_format => 'mmm d yyyy hh:mm AM/PM' );
    #my $date_formatHMS = $workbook->add_format( num_format => 'yyyy-mm-ddThh:mm:ss.sss' );
    my %formats;
    $formats{date_HM}  = $workbook->add_format( num_format => 'yyyy-mm-ddThh:mm' );
    $formats{date_HMS} = $workbook->add_format( num_format => 'yyyy-mm-ddThh:mm:ss' );
    $formats{num}      = $workbook->add_format();
    $formats{num}->set_num_format();
    $formats{headline} = $workbook->add_format();
    $formats{headline}->set_bold();
    $formats{headline}->set_num_format('@');
# Format as a string. use the Excel text format @:
# Doesn't change to a number when edited
$formats{string} = $workbook->add_format( num_format => '@' );
$worksheet->set_row( 0, 15, $formats{headline} );
    my $row = 0;
    my $col = 0;

for ( my $r = -1 ; $r < @$data && $r < $EXCEL_MAXROW ; $r++ ) {

    for ( my $i = 0 ; $i < @$column ; $i++ ) {
        next if grep( $_ eq $column->[$i], @not2export );
        my $val = $data->[$r]{ $column->[$i] };
        my $t   = int $type->[$i];
        if ( $r < 0 ) {

            #warn " type: $type->[$i] , ";
            # Erste Zeile = Spaltennamen ausgeben
            $worksheet->write_string( $row, $col++, $column->[$i], $formats{string});
            #$worksheet->write_comment( 0, 0, "\x{263a}" );       # Smiley
            #$worksheet->write( $row, $col++, $column->[$i], $formats{headline} );
        } elsif ( ( $t == 11 ) or ( $t == 9 ) ) {

            # 11 - Der Wert ist ein Datum, im SHORT Format, 9- long
            $val = time2str( "%Y-%m-%dT%H:%M:%S", str2time( $data->[$r]{ $column->[$i] } ) );
            $worksheet->write_date_time( $row, $col++, $val, $formats{date_HMS} );

        } else {
            $worksheet->write( $row, $col++, $val );
        }
    }
    $col = 0;
    $row++;
}

return $file;

}

文件之间的差异如下。 xml file diff

左侧是 Excel::Writer::XLSX 生成的文件。右侧是 MS Excel 2003 在对标题行进行细微更改后生成的文件。行标题数据被重构,外部化到不同的文件,sharedStrings.xml

看起来像这样。

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<sst xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="5" uniqueCount="5">
  <si>
    <t>SITE</t>
  </si>
  <si>
    <t>LOG_DATE</t>
  </si>
  <si>
    <t>KTZI201_WF_TEMPERATUR</t>
  </si>
  <si>
    <t>KTZI300_TEMP_RESERVOIR</t>
  </si>
  <si>
    <t>XPEDITION</t>
  </si>
</sst>

如果 .xlsx 文件的格式如图片右半部分所示,Spreadsheet::XLSX 可以读取标题,但如果格式如左半部分所示,则跳过标题行。

最佳答案

当我针对此 Excel::Writer::XLSX example program 的输出运行您的程序时它正确报告第一行中的数据(行 == 0):

Infile 'a_simple.xlsx', Sheet 0: Sheet1
a_simple.xlsx: 10 rows
data starts at row: 0. 

也许您应该仔细检查生成输入文件的程序。

此外,请确保您使用的是最新版本的 Excel::Writer::XLSX .

关于perl - 从使用 Perl 创建的 Excel 2007 文件中读取标题行时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10945523/

相关文章:

regex - Perl Regex 正则表达式拆分//

python - perl 到 python 互操作的建议?

python - 为什么 Excel 文件以 zip 文件形式上传?

database - Excel 可以将自己用作数据库吗?

excel-2007 - office2003兼容包安装了吗?

perl - 如何在 Perl 中读取 Little-endian UTF-16 Unicode 文本?

perl - 如何清理编辑器等环境变量?

excel - VBA:将两列或更多列中的值复制到具有相应行的一列中

excel - 给定路径中缺少文件时的错误处理程序

excel - 当 Excel 单元格区域中的数据更新时提示消息框