excel - 在保持编码的同时使用 Perl 将 XLSX 转换为 CSV

标签 excel csv perl encoding

我是一名 BI 开发人员,使用 perl 脚本作为我的 ETL - 我通过电子邮件接收数据,获取文件,解析它并将其推送到数据库中。 大多数文件是 CSV 文件,但偶尔我有一个 XLSX 文件。

我一直在使用 Spreadsheet::XLSX 进行转换,但我注意到 CSV 输出的编码错误(需要是 UTF8,因为口音和外语)。

这就是我正在使用的子程序($input_file 是一个 Excel 文件),但我一直在获取包含错误字符的数据。

我错过了什么?

非常感谢大家!

sub convert_to_csv {
    my $input_file = $_[0];
    my ( $filename, $extension ) = split( '\.', $input_file );
    open( format_file, ">:**encoding(utf-8)**", "$filename.csv" ) or die "could not open out file $!\n";
    my $excel = Spreadsheet::XLSX->new($input_file);
    my $line;
    foreach my $sheet ( @{ $excel->{Worksheet} } ) {

        #printf( "Sheet: %s\n", $sheet->{Name} );
        $sheet->{MaxRow} ||= $sheet->{MinRow};
        foreach my $row ( $sheet->{MinRow} .. $sheet->{MaxRow} ) {
            $sheet->{MaxCol} ||= $sheet->{MinCol};
            foreach my $col ( $sheet->{MinCol} .. $sheet->{MaxCol} ) {
                my $cell = $sheet->{Cells}[$row][$col];
                if ($cell) {
                    my $trimcell;
                    $trimcell = $cell->value();
                    print STDERR "cell: $trimcell\n"; ## Just for the tests so I don't have to open the file to see if it's ok
                    $trimcell =~ s/^\s+|\s+$//g;  ## Just to make sure I don't have extra spaces
                    $line .= "\"" . $trimcell  . "\",";
                }
            }
            chomp($line);
            if ($line =~ /Grand Total/){} ##customized for the files
            else {
            print format_file "$line\n";
            $line = '';
        }
        }
    }
    close format_file;
}

最佳答案

我的知识来自于使用 ETL::Pipeline,它使用 Spreadsheet::XLSX 来读取 .xlsx 文件。 但是我知道哪些字段是UTF-8

我编写了一个本地 ETL::Pipeline 模块来处理 Excel 文件的输出

use Encode qw(decode encode);

$ra_rec->{name} = decode( 'UTF-8', $ra_rec->{name}, Encode::FB_CROAK );

关于excel - 在保持编码的同时使用 Perl 将 XLSX 转换为 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60377128/

相关文章:

Excel:对这行命名范围列求和

ruby - Rails AXLSX gem 试图合并创建的最后一行的单元格

mysql - 在同一个 MySQL 表中存储异构 json 对象?

perl - 需要帮助了解 Perl 5 如何解析引用相同变量的复合赋值语句

csv - 截断 CSV header 名称

arrays - 如何循环遍历数组作为引用?

Vba:显示带点而不是逗号的小数

VBA Excel双如果

php - 在 PHP 中向项目添加逗号并在末尾添加 "and"

mysql - 如何将带有 md5 列的 csv 导入到 mysql