java - PDFBox 提取的文本不包含国际(非英语)字符

标签 java internationalization pdfbox

我正在使用 Apache PDFBox 从多个 PDF 文件中提取文本。这些文件使用波兰语,并且包含波兰语字符。不幸的是,当我打印提取的文本时,我不断收到 ? (问号)而不是那些字符。

最佳答案

假设您提取的文本存储在 String 中,我假设您当前正在使用它来打印 -

System.out.println(s);

我建议您使用此代码段正确打印波兰语字符-

java.io.PrintStream p = new java.io.PrintStream(System.out,false,"UTF-8");
p.println(s);

这应该行得通吗?不会出现在打印文本中。

关于java - PDFBox 提取的文本不包含国际(非英语)字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11496395/

相关文章:

java - 根据session动态选择数据库

java - 如何跨微服务拥有通用的 DTO 或实体

ruby-on-rails - 如何在 Rails 中显示所有要求的翻译字符串?

mysql - 表字段国际化

java - 如何使用pdfbox获取字段的位置?

java - 32 位 DLL 导致 UnsatisfiedLinkError

java - 在多个类中使用 Java 方法

WordPress国际化解决方案

java - 调整字符宽度后嵌入 PDFont

java - 使用 OCR 检测扫描文档是否创建 PDF [pdfbox]