python - 判断 PDF 文本是否可见

标签 python pdf pdfminer

我正在使用 pdfminer 解析一些 PDF 文件。图书馆。

我需要知道该文档是否是扫描文档,扫描仪将扫描图像放在顶部,将 OCR 提取的文本放在背景中。

有没有办法识别文本是否可见,因为 OCR 机器确实会将其放置在页面上以供选择。

通常,问题在于区分两个截然不同但外观相似的案例。

在一种情况下,扫描文档的图像覆盖了页面的大部分,其后面有 OCR 文本。

以下是 PDF 文本,图像被截断: http://pastebin.com/a3nc9ZrG

在另一种情况下,背景图像覆盖了页面的大部分内容,文本位于其前面

事实证明,区分它们对我来说很困难。

最佳答案

您的问题有点令人困惑,所以我不确定什么对您最有帮助。但是,您描述了两种从 OCR 中“隐藏”文本的方法。我认为两者都是可以检测到的,但其中一个比另一个容易得多。

隐藏文本
隐藏文本是放置在其他内容后面的常规或不可见文本。换句话说,您可以使用对象的堆叠顺序来隐藏其中的一些对象。检测此类情况的唯一方法是找出页面上所有文本对象的位置(计算它们的边界框并不简单,但肯定是可能的),然后确定页面上的任何图像是否重叠该文本位于其前面。一些补充评论:

  • 理论上,它可能不是隐藏它的图像,但在您的 OCR 案例中,我猜它始终是图像。
  • 尽管图像可能与它重叠,但它也可能在某种程度上是透明的。在这种情况下,下面的文字可能仍然会发光。对于通用 OCR 引擎来说,可能不太可能。

不可见文本
PDF 支持不可见文本。更准确地说,PDF支持不同的文本渲染模式;这些渲染模式决定字符是填充、轮廓、填充+轮廓还是不可见(还有其他可能性)。在您发布的 PDF 文件中,您可以找到以下片段:

BT
3 Tr
0.00 Tc
/F3 8.5 Tf
1 0 0 1 42.48 762.96 Tm
(Chicken ) Tj

那是一只看不见的鸡!指令“3 Tr”将文本渲染模式设置为“3”,这相当于“不可见”或“既不描边也不填充”,正如 PDF 规范非常优雅地表述的那样。

值得一提的是,OCR 引擎可以互换使用这两种技术。将不可见文本放置在扫描图像的顶部实际上是一种很好的做法,因为这意味着大多数 PDF 查看器将允许您选择文本。我曾经看过一些 PDF 查看器,如果文本位于图像“后面”,则不允许选择文本。

关于python - 判断 PDF 文本是否可见,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31790247/

相关文章:

python - 如何根据条件删除一系列行?

ruby - 将数字签名插入现有的 pdf 文件

Python PdfMiner - 如何获取 pdf 中包含的每个单词/句子的方向信息?

python enum.Enum _value_ 与值

python - 使用 groupby 和合并在 Pandas 中创建新列

javascript - 如何将 PDF 上传到 Google Drive 并将其嵌入 HTML 静态站点?

android - 来自 pdf android 的大拇指

python - PDF Miner PDF加密错误

python - wxPython - wx.MessageDialog 不点击就消失