parsing - 如何在pdf中获得准确的字体大小(高度)

我有一个示例 pdf(已附)，它包括一个文本对象和一个高度几乎相同的矩形对象。然后我使用 itextrup 检查了 pdf 的内容，如下所示:

1 1 1 RG
1 1 1 rg
0.12 0 0 0.12 16 50 cm
q
0 0 m
2926 0 l
2926 5759 l
0 5759 l
0 0 l
W
n
Q

1 1 1 RG
1 1 1 rg
q
0 0 m
2926 0 l
2926 5759 l
0 5759 l
0 0 l
W
n
/F1 205.252 Tf
BT
0 0 0 RG
0 0 0 rg
/DeviceGray CS
/OC /oc1 BDC
0 -1 1 0 1648 5330 Tm
0 Tc
100 Tz
(Hello World) Tj
ET
Q
q
0 0 m
2926 0 l
2926 5759 l
0 5759 l
0 0 l
W
n
0 0 0 RG
0 0 0 rg
/DeviceGray CS
6 w
1 j
1 J
1649 5324 m
1649 4277 l
1800 4277 l
1800 5324 l
1649 5324 l
S
EMC
Q

显然用户空间矩阵由 [0.12 0 0 0.12 16 50] 决定，矩形的高度为 (1800-1649)*0.12*1=18.12，字体大小我使用 205.252*0.12= 24.63024。由于这两个值并不接近，我的问题是如何获取字体的高度/大小？

sample.pdf

最佳答案

好的 - 我查看了您的文件，您基本上已经完蛋了。这是科学的答案，现在让我澄清一下:)

错误的 PDF!
您在那里作为样本的 PDF 包含未嵌入的字体。您拥有的“/F1 Tf”命令指向该页面资源字典中的字体“ArialMT”。因为字体没有被嵌入，你只有两个选择:

尝试找到系统上的实际字体并从那里提取必要的信息。
接受 PDF 中的信息。让我们从这里开始吧。

字体描述符
这是一张来自 pdfToolbox 的图像，用于检查 PDF 文件中的字体(注意:我与此工具相关联):

enter image description here

我已经删除了一些“Widths”表，但除此之外，这是您在 PDF 文档中拥有的关于该字体的所有信息。这意味着您可以访问每个字形的宽度，但无法访问每个字形的高度。关于高度的唯一信息是字体边界框，它是所有字形边界框的并集。换句话说，字体边界框保证足够大以包含字体中的任何字形(水平和垂直)。

系统信息 您没有说明为什么您需要此信息，因此进一步提供建议变得有点困难。但是，如果您无法从 PDF 中获取信息，您唯一的选择就是接受 PDF 中不准确的信息，或者求助于运行代码的系统以获得更多信息。

如果您安装了 ArialMT 字体，您基本上可以尝试找到字体文件，然后解析 TrueType 字体文件以找到每个字形的边界框。我已经做到了，这并不好笑。

或者您可以查看您的系统是否无法以更好的方式为您提供信息。许多操作系统/语言都有文本调用，可以为您获得准确的测量值。如果没有，您可以通过在白色图像上将您想要的文本呈现为黑色然后检查像素以查看您击中的位置以及文本字符串中最大字形的大小来暴力破解它。

虽然最后一个选项听起来很浪费，但它可能是实现起来最快、最容易的，而且它 - 根据您的需要 - 实际上可能是最好的选择。

关于parsing - 如何在pdf中获得准确的字体大小(高度)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30337054/

parsing - 如何在pdf中获得准确的字体大小(高度)

上一篇：amazon-web-services - 在 ec2 实例终止时获取电子邮件通知

下一篇：sql - 在 Google BigQuery 中使用 regexp_extract 提取数据