php - 从 PHP 下载时 Word/Excel 文件损坏

标签 php docx xlsx

我正在将一个简单的文件上传/文件下载功能构建到我的数据库中。唯一复杂的部分是所有文件都需要使用我花哨的加密方法进行加密。

所以我要做的是创建一个 SQL 条目来存储以下内容:id_file、文件名、扩展名、大小、添加日期等

然后一旦我得到 id_file,我就获取文件内容,加密它们,然后将内容作为 [id_file].txt 保存到我的服务器。

然后这里是再次下载文件的代码:

header("Pragma: public");
header('Content-Disposition: attachment;filename="'.$file['name'].'.'.$file['extension'].'"');
header('Cache-Control: max-age=0');

echo someFunctionIMadeForGettingAndDecryptingFileContents($_GET['id_file']);

exit;

非常简单的东西,适用于除 .docx 和 .xlsx 之外的所有文件类型。下载 .docx 或 .xlsx 文件时,Office 提示我“Word 在“文件名”中发现不可读的内容。是否要恢复此文档的内容?如果您信任来源... bla bla”,然后我单击"is"。它想了想,文件打开得很好。但很明显,如果我的客户每次都会遇到该错误,我就不能让他们使用它。

我编写的代码适用于所有其他文件类型。即使是 .doc、.xls 和 .zip 文件也能正常工作。

我的第一个想法是查看标题。我已经尝试了各种解决方案,例如此处列出的解决方案:

why my downloaded file is alwayes damaged or corrupted? PHP downloading excel file becomes corrupt

那些没用。

我知道一个问题可能是向文件添加了额外的填充或空白。但是,如果我上传一个 .txt 文件然后再次下载...我可以看到没有添加任何额外内容。

如果我对原始文件 (good.docx) 和原始文件的下载版本 (bad.docx) 进行 MD5,则哈希值不同。

如果我将 good.docx 更改为 good.zip 并解压缩存档。然后对 bad.docx 做同样的事情。然后 MD5 两个目录,哈希是相同的。我对 good.zip 和 bad.zip 中的每个文件进行了哈希处理,每个文件的哈希值都是相同的。

另请注意,在我服务器的其他地方,我使用 PHPWord 和 PHPExcel 动态生成 Office 文件,这些文件都下载得很好。我用于 PHPExcel 的 header /代码是:

header("Pragma: public");
header('Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet');
header('Content-Disposition: attachment;filename="'.$filename.'.xlsx"');
header('Cache-Control: max-age=0');
$objWriter = PHPExcel_IOFactory::createWriter($objPHPExcel, 'Excel2007');
$objWriter->save('php://output');
exit;

(是的,我已经尝试在上面的其他代码中使用“Content-Type” header ,但这没有帮助。)

我也试过将文件保存在我的服务器上,下载并打开它。在执行该过程时,我遇到了同样的错误。这是我用来执行此操作的代码:

$f=fopen("/myPath/temp.docx","w");
fwrite($f,someFunctionIMadeForGettingAndDecryptingFileContents($_GET['id_file']));
fclose($f);
exit;

我试过创建一个名为“blank.docx”的空 Word 文件。然后这样做而不是保存一个新文件的功能......它用解密的文件内容替换 blank.docx 的内容。但是在该过程之后下载 blank.docx 时,我得到的都是一样的……一个错误,但它最终会打开。最初位于 blank.docx 上的文件属性(如 Template: Normal.dotm)都没有出现在服务修改后的 blank.docx 上。

我正在使用 Office 2007

更新

这是下载文件的良好(原始)版本的链接:http://empowerdb.org/good.docx

这里是下载错误(已处理)版本文件的链接: http://empowerdb.org/bad.docx

解决方案

正如 Llama 先生在下面指出的那样,我的加密函数删除了一些额外的空字节。但事实证明,罪魁祸首并不像你想象的那么明显。这是我的加密:

trim(base64_encode(IV.mcrypt_encrypt(MCRYPT_RIJNDAEL_128,ENCKEY,$contents,MCRYPT_MODE_CBC,IV)))

问题不在于 trim() 或 base64_encode()。它与 mcrypt 函数有关。我解决这个问题的方法是在传递我的文件内容进行加密之前我做了另一个 base64_encode()。像这样...

$file_contents_encrypted=base64_encode(myEncryptionFunction($file_contents));

当然在解密时反过来。

base64_encode 在技术上运行了两次。但是我可以看到在这种情况下需要如何在 mcrypt 之前运行它,因为 .docx 和 .xlsx 的独特 zip 格式

最佳答案

您的解密函数正在删除文件末尾的空字节。

good.docx 文件以四个0x00 字节结尾,而bad.docx 文件以无结尾。除了那些丢失的字节外,这些文件完全相同

$ wc -c good.docx
25123 good.docx

$ wc -c bad.docx
25119 bad.docx

$ tail -c 32 good.docx | od -x
0000000 6666 6365 7374 782e 6c6d 4b50 0605 0000
0000020 0000 0010 0010 041c 0000 5df1 0000 0000

$ tail -c 32 bad.docx | od -x
0000000 7469 4568 6666 6365 7374 782e 6c6d 4b50
0000020 0605 0000 0000 0010 0010 041c 0000 5df1

如果跳过 good.docx 的最后四个字节,则 md5 和完全匹配:

$ head -c -4 good.docx | md5sum
fbd32fbcc02d62dfd8bd39d390252a4b *-

$ cat bad.docx | md5sum
fbd32fbcc02d62dfd8bd39d390252a4b *-

关于php - 从 PHP 下载时 Word/Excel 文件损坏,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24681039/

相关文章:

C# OPENXML XLSX 自定义列宽

php - PayPal IPN 处理器不再插入数据库

python - 使用 python-docx 合并包含图像的 docx 文件

C# OpenXml 获取 DOCX WordStyle 属性简化代码

javascript - 使用alasql将多个json对象导出到xlsx文件

r - 在 R 中使用 openxlsx 包更改默认列宽

php - 命令行 Doctrine ORM with Silex : You are missing a "cli-config.php" or "config/cli-config.php" file in your project

php - 使用 PHP 解析 JSON 格式的 Twitter 搜索结果

php - Magento 1.9.2 - 保存自定义管理表单产品新建和编辑页面(自定义选项卡)

java - 如何生成、导出为word docx文件?