java - 在 PDFBox 中,如何更改 PDRectangle 对象的原点 (0,0)?

标签 java pdf pdfbox

情况:
在 PDFBox 中,PDRectangle 对象的默认原点 (0,0) 似乎是页面的左下角。

例如,以下代码在页面的左下角为您提供一个正方形,每边长 100 个单位。

PDRectangle rectangle = new PDRectangle(0, 0, 100, 100);

问题:
是否可以将原点更改为左上角,例如,上面的代码将在页面的左上角为您提供相同的正方形?

我问的原因:
我正在使用 PDFTextStripper 来获取文本的坐标(通过使用提取的 TextPosition 对象的 getX() 和 getY() 方法)。从 TextPosition 对象检索的坐标似乎在左上角有一个原点 (0,0)。我希望我的 PDRectangle 对象的坐标与我的 TextPosition 对象的坐标具有相同的原点。

我试图通过“页面高度减去 Y 坐标”来调整我的 PDRectangle 的 Y 坐标。这给了我想要的结果,但它并不优雅。我想要一个优雅的解决方案。

笔记:
有人问过类似的问题。答案是我尝试过的,这不是最优雅的。
how to change the coordiantes of a text in a pdf page from lower left to upper left

最佳答案

您可以稍微更改坐标系,但很可能最终事情不会变得更优雅。

首先...

首先让我们澄清一些误解:

你假设

In PDFBox, PDRectangle objects' default origin (0,0) seems to be the lower-left corner of a page.



并非所有情况都如此,只是经常如此。

包含显示页面区域(在纸上或屏幕上)的区域通常由 定义。裁剪框相关页面的条目:

CropBox rectangle (Optional; inheritable) A rectangle, expressed in default user space units, that shall define the visible region of default user space. When the page is displayed or printed, its contents shall be clipped (cropped) to this rectangle and then shall be imposed on the output medium in some implementation-defined manner.

... The positive x axis extends horizontally to the right and the positive y axis vertically upward, as in standard mathematical practice (subject to alteration by the Rotate entry in the page dictionary).

... In PostScript, the origin of default user space always corresponds to the lower-left corner of the output medium. While this convention is common in PDF documents as well, it is not required; the page dictionary’s CropBox entry can specify any rectangle of default user space to be made visible on the medium.



因此,原点 (0,0) 可以在任何地方 ,它可能在左下角、左上角、页面中间甚至远在显示页面区域之外。

并通过 旋转 条目,该区域甚至可以旋转 (按 90°、180° 或 270°)。

将原点(正如您似乎已经观察到的)放在左下方只是按照惯例进行的。

此外,您似乎认为坐标系是恒定的。事实也并非如此,您可以通过一些操作彻底改变用户空间坐标系,您可以平移、旋转、镜像、倾斜和/或缩放它!

因此,即使一开始坐标系是通常的坐标系,原点在左下方,x 轴向右,y 轴向上,它可能会以某种方式更改为页面内容描述中的某种奇怪的东西。绘制矩形 new PDRectangle(0, 0, 100, 100)可能会在页面中心的右侧产生一些菱形。

你可以做什么...

如您所见,PDF 用户空间中的坐标是一个非常动态的问题。你可以做些什么来驯服这种情况,取决于你使用矩形的上下文。

不幸的是,您对自己所做的事情的描述非常含糊。因此,这也会有些模糊。

页面内容中的坐标

如果要在现有页面上绘制一些矩形,首先需要一个页面内容流来写入,即 PDPageContentStream例如,它应该以保证原始用户空间坐标系不被干扰的方式准备。您可以通过使用带有三个 boolean 参数的构造函数将它们全部设置为 true 来获得这样的实例。 :
PDPageContentStream contentStream = new PDPageContentStream(doc, page, true, true, true);

然后您可以对坐标系应用变换。您希望左上角为原点,y 值向下增加。如果页面的裁剪框告诉您左上角有坐标 (xtl, ytl),因此,您应用
contentStream.concatenate2CTM(new AffineTransform(1, 0, 0, -1, xtl, ytl));

从这里开始,您有一个您想要的坐标系,原点左上角和镜像的 y 坐标。

但是请注意一件事:如果您也打算绘制文本,那么不仅文本插入点 y 坐标被镜像,而且文本本身也会被镜像,除非您通过添加一个镜像文本矩阵来抵消它!因此,如果您想添加大量文本,这可能不会像您想要的那样优雅。

注释的坐标

如果您不想在内容流中使用矩形而是添加注释,则您不受上述转换的约束,但也无法使用它。

因此,在这种情况下,您必须按原样获取裁剪框并相应地转换矩形。

为什么 PDFBox 文本提取坐标是原样

本质上,为了以正确的顺序将文本行放在一起并正确排序行,您不想要这种奇怪的情况,而是需要一个简单的稳定坐标系。一些 PDFBox 开发人员为此选择了左上角原点、y 递增向下变体,因此 TextPosition坐标已标准化为该方案。

在我看来,更好的选择是使用默认的用户空间坐标,以便更容易地重用坐标。因此,您可能想尝试使用 textPosition.getTextMatrix().getTranslateX() , textPosition.getTextMatrix().getTranslateY()对于 TextPosition textPosition

关于java - 在 PDFBox 中,如何更改 PDRectangle 对象的原点 (0,0)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28093537/

相关文章:

java - 我可以控制 Java 监听器的刷新率吗?

ruby - Prawn 模板不起作用

php - 如何从pdf中提取文本层和背景层?

java - 如何区分复选框字段和一组单选按钮

java - Apache Camel CXF

java - 为什么 wait , notify 和 notifyAll 方法都在 Object 类中?

java - 如何将自定义 validator 与 dropwizard 一起使用?

python - 使用 Python 制作可打印的日历

android - PDFbox 此字体类型仅支持 8 位代码点

java - 解析二进制文件时出错