我有一个没有复制限制的公共(public) PDF。但是,当我尝试将 PDF 中的文本复制到 Word 中时,我只会得到无法阅读的乱码(如方框和符号)。
我尝试更改字体,但这也不起作用。我不明白是什么导致了这个问题。
我还搜索了一些在线工具,但似乎都不起作用。
有什么帮助或想法吗?
干杯。
最佳答案
如果您尝试的每个(在线)工具都无法处理此文档,有两个选择:
- 每个工具都是错误的
- 您的文档有误
我认为结论 2 是有道理的。 但是,请允许我解释一下可能的罪魁祸首。
首先,您应该将 pdf 文档视为说明的容器,而不是所见即所得的文档。所以提取文本已经是一件不简单的事情了。
但是这里的问题似乎是编码问题。 您的文档包含诸如“在位置 10、50 处绘制 Í”之类的说明。 (我使用阿拉伯文本作为示例。)
如果没有任何进一步的信息,查看者(例如 Adobe)将很难知道如何处理复制粘贴功能。您系统上的复制粘贴缓冲区不使用字形,而是使用 unicode。
换句话说,在复制粘贴时,Adobe 必须尝试将字形转换为实际的 unicode。
通常,字体包含有帮助的信息。我们称之为“toUnicode”映射。 它告诉系统某些字形如何与某些字符匹配。
如果您的字体不包含这种映射,使用该字体将阻止您正确地进行复制粘贴。不过,也有一些程序会故意生成错误的 toUnicode 映射(作为防止从该文档复制粘贴的一种方法)。
关于pdf到word转换显示垃圾内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46317161/