java - PdfBox 编码符号货币欧元

标签 java pdfbox

我使用 Apache PDFBox 库创建了一个 PDF 文档。我的问题是在页面上绘制字符串时对欧元货币符号进行编码,因为基本字体 Helvetica 不提供此字符。如何将输出“þÿ ¬”转换为符号“€”?

最佳答案

不幸的是,PDFBox 的字符串编码还远非完美(版本 1.8.x)。不幸的是,它在通用 PDF 对象中编码字符串时使用与在内容流中编码字符串时相同的例程,这是根本错误的。因此,您必须自己转换为正确的编码,而不是使用 PDPageContentStream.drawString(它使用了错误的编码)。

例如而不是使用

    contentStream.beginText();
    contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
    contentStream.setFont(PDType1Font.HELVETICA, 2);
    contentStream.drawString("€");
    contentStream.endText();
    contentStream.close();

结果是

€ wrong encoding

你可以用一些像

    contentStream.beginText();
    contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
    contentStream.setFont(PDType1Font.HELVETICA, 8);
    byte[] commands = "(x) Tj ".getBytes();
    commands[1] = (byte) 128;
    contentStream.appendRawCommands(commands);
    contentStream.endText();
    contentStream.close();

导致

€ correct encoding

如果您想知道我如何使用 128 作为 € 的字节码,请查看 PDF 规范 ISO 32000-1 ,附件 D.2,拉丁字符集和编码,表示 WinAnsiEncoding 中欧元符号的八进制值 200(十进制 128)。


PS:其他答案同时提出了另一种方法,在 € 符号的情况下相当于:

    contentStream.beginText();
    contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
    contentStream.setFont(PDType1Font.HELVETICA, 8);
    contentStream.drawString(String.valueOf(Character.toChars(EncodingManager.INSTANCE.getEncoding(COSName.WIN_ANSI_ENCODING).getCode("Euro"))));
    contentStream.endText();
    contentStream.close();

这确实也绘制了“€”符号。但是,尽管这种方法看起来更干净(它不使用byte 数组,它不手动构建实际的 PDF 流操作),但它很脏 以自己的方式:

要使用损坏的方法,它实际上以正确的方式破坏它的字符串参数以抵消方法中的错误。

因此,如果 PDFBox 的人决定修复损坏的 PDFBox 方法,那么这里看似干净的变通代码就会开始失败,因为它会向固定方法提供损坏的输入数据。

诚然,我怀疑他们会在 2.0.0 之前修复这个错误(在 2.0.0 中固定方法有不同的名称),但谁也不知道......

关于java - PdfBox 编码符号货币欧元,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22260344/

相关文章:

java - 在 Flyway Java API 中使用 SQL 迁移文件

java - 带参数调用main方法时出错

java - 如何向 jtextfields 添加扫描仪

java - 如何在另一个 recyclerView 中添加一个 recyclerView

java - 从 PDFBox 中的字体获取颜色

java - 泛型参数扩展了 java 方法的另一个参数

java - 如何处理文件关闭抛出的异常?

java - PDFBox:PdfTextStripper 中的不可见文本(不是剪辑路径或颜色问题)

java - 如何使用 pdfbox(损坏的 PDF)生成可下载的 PDF?

java - 如何在 apache PDFbox 中生成表格时换行文本