PDFBox UTF16 字母

标签 pdfbox letters

有没有人可以帮助我解决 PDFBox 中的字母问题我正在尝试打印字母“ń”(波兰语字母)并且我得到了类似 þÿ J 的东西。 Dı B R O W 2S0 :K0 3I.

请帮忙!

最佳答案

我遇到了与保加利亚语相同的问题。简而言之,我认为没有一个简单的解决方案。基本上你需要一个utf字体。如果您使用标准的 14 种 type1 字体之一(如 Helvetica 或 Courier)——它们只支持基本的拉丁字母表,所以它们无法完成这项工作。您可以加载 truetype utf 字体,但 pdfbox 对所有 truetype(以及 type1)字体都有硬编码的 WinAsciiEncoding,这是错误的。据我所知,您可以做 Open office 所做的事情 - 创建字体的子集,这样您就不会将整个字体文件嵌入到 pdf 中。不幸的是,pdfbox 中缺少此功能,但有一个 Jira 和更多信息: https://issues.apache.org/jira/browse/PDFBOX-922 如果您找到好的解决方案,请分享!

关于PDFBox UTF16 字母,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12324142/

相关文章:

apache - pdfbox Font TrueType 导致 stripper.getText() 错误

python - 如何遍历字母和数字

java - 显示由星号组成的字母的问题

python - Python中的字母序列

java - Apache PDFBox - 无法读取 PDF 中的所有字段

pdf - 使用 pdfbox 在 PDF/A-1a 中查找标记内容

c++ - 德语元音变音和正则表达式

list - 比较prolog中两个列表的内容

java - PDFBox 命令行选项无法使用有效用户密码解密 PDF 文件

java - 使用 PDFBox 复制 pdf 可以像 iText 一样小吗?