pdf到word转换显示垃圾内容

标签 pdf ms-word doc

我有一个没有复制限制的公共(public) PDF。但是,当我尝试将 PDF 中的文本复制到 Word 中时,我只会得到无法阅读的乱码(如方框和符号)。

我尝试更改字体,但这也不起作用。我不明白是什么导致了这个问题。

我还搜索了一些在线工具,但似乎都不起作用。

有什么帮助或想法吗?

干杯。

最佳答案

如果您尝试的每个(在线)工具都无法处理此文档,有两个选择:

  1. 每个工具都是错误的
  2. 您的文档有误

我认为结论 2 是有道理的。 但是,请允许我解释一下可能的罪魁祸首。

首先,您应该将 pdf 文档视为说明的容器,而不是所见即所得的文档。所以提取文本已经是一件不简单的事情了。

但是这里的问题似乎是编码问题。 您的文档包含诸如“在位置 10、50 处绘制 Í”之类的说明。 (我使用阿拉伯文本作为示例。)

如果没有任何进一步的信息,查看者(例如 Adob​​e)将很难知道如何处理复制粘贴功能。您系统上的复制粘贴缓冲区不使用字形,而是使用 unicode。

换句话说,在复制粘贴时,Adobe 必须尝试将字形转换为实际的 unicode。

通常,字体包含有帮助的信息。我们称之为“toUnicode”映射。 它告诉系统某些字形如何与某些字符匹配。

如果您的字体不包含这种映射,使用该字体将阻止您正确地进行复制粘贴。不过,也有一些程序会故意生成错误的 toUnicode 映射(作为防止从该文档复制粘贴的一种方法)。

关于pdf到word转换显示垃圾内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46317161/

相关文章:

pdf - 在 PDFBox 文本提取中保留 "long"空格

ms-word - 将 MathML 复制到 Word 中以用作方程

c# - 嵌入 MS Word 作为编辑器(就像在 Outlook 中一样)

ruby - 尝试从 Word 文档中获取内容时获取 "Ole::Storage::FormatError: OLE2 signature is invalid"

java - 在 java 中将 html 转换为 doc

.net - 在 PDF 中嵌入 SVG 数据

python - 在Python中返回给定x和y的二维PDF的值?

xaml - 如何将 Xamarin.Forms XAML UI 页面转换为 PDF 文件?

delphi - "Call Rejected By Callee"

php - 上传 PDF 或 .doc 和安全