我正在尝试打开一个包含常规 HTML 和特殊 Unicode 字符(例如“ÖÄÅ öäå”(瑞典语))的文件,对其进行格式化,然后将其输出到一个文件。
到目前为止一切正常,我可以打开文件,找到我需要的部分并输出到文件中。
但重点是:
我无法在不丢失编码的情况下将输入的 Unicode 数据保存到文件中(例如,'ö' 变为 'ö')。
虽然我可以通过手动将它们输入代码本身,设法同时执行正则表达式并将它们输出为正确的编码。但是当我导入文件、格式化然后输出时不是这样。
使用 OCT 时的工作方法示例(例如,这可以在没有编码问题的情况下输出到文件):
my $charsSWE = "öäåÅÄÖ";
# \344 = ä
# \345 = å
# \305 = Å
# \304 = Ä
# \326 = Ö
# \366 = ö
my $SwedishLetters = '\344 \345 \305 \304 \326 \366';
if($charsSWE =~ /([$SwedishLetters]+)/){
print "Output: $1\n";
}
下面的方法不起作用,因为编码丢失了(这是代码部分的快速说明,但它的概念是相同的[例如打开文件、获取和输出]):
open(FH, 'swedish.htm') or die("File could not be opened");
while(<FH>)
{
my @List = /([$SwedishLetters]+)/g;
message($List[0]) if @List;
}
close(FH);
最佳答案
use Encode;
open FILE1, "<:encoding(UTF-8)", "swedish.htm" or die $!;
#do stuff
open FILE2, ">:encoding(UTF-8)", "output.htm" or die $!;
您可能需要使用不同的编码。
关于perl - 打开和保存文件时丢失编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8406759/