java - 带有德语字母表的 Html 到 Pdf

标签 java html-to-pdf flying-saucer openhtmltopdf

我正在使用 openhtmltopdf将 html 转换为 pdf。目前,如果 html 包含德语字符,例如 ä,ö,ü,我会遇到异常。

  PdfRendererBuilder builder = new PdfRendererBuilder();
  builder.useFastMode();
  builder.withHtmlContent(html,"file://localhost/");
  builder.toStream(out);
  builder.run();

org.xml.sax.SAXParseException; lineNumber: 17; columnNumber: 31; The entity "auml" was referenced, but not declared.

这是我的 html:

<html>
   <head>      
      <meta charset="UTF-8" />
    </head>
    <body>
        k&auml;se
    </body>
</html>

导出的单词是“käse”(奶酪)。


更新

我尝试过使用实体解析器,方法是这样的:

 DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
    DocumentBuilder builder=null;
    try{
      builder=factory.newDocumentBuilder();

      ByteArrayInputStream input=new ByteArrayInputStream(html.getBytes("UTF-8"));
      builder.setEntityResolver(FSEntityResolver.instance());
      org.w3c.dom.Document doc=builder.parse(input);


    }catch(Exception e){
      logger.error(e.getMessage(),e);
    }

但我在“解析”时仍然遇到相同的异常。

最佳答案

看来您需要提供 DTD或将实体名称 auml 替换为其对应的十六进制或十进制值,即分别为 ää。参见 A.2. Entity SetsHTML 4 Entity Names .

html 内容如下所示:

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html [
        <!ENTITY auml "&#228;">
]>
<html>
    <head>
    </head>
    <body>
        k&auml;se
    </body>
</html>

或者,您可以遍历 html 字符串并将实体名称替换为其相应的十进制/十六进制值,这应该没问题,或者在将 DTD 传递给 pdf 生成器之前将其添加到您的 html 字符串中。


更新

您可能想提供 jsoup图书馆一试。它解析并为您提供一个org.w3c.dom.Document,例如

Document jsoupDoc = Jsoup.parse(html); // org.jsoup.nodes.Document
W3CDom w3cDom = new W3CDom(); // org.jsoup.helper.W3CDom
org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(jsoupDoc);

然后您可以像这样将 w3cDoc 传递给 pdf 生成器

PdfRendererBuilder builder = new PdfRendererBuilder();
builder.withW3cDocument(w3cDoc, "file://localhost/");

关于java - 带有德语字母表的 Html 到 Pdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60524835/

相关文章:

java - Optaplanner - HardMediumSoftScoreHolder - 如何强制求解器首先最小化中等分数,然后最小化软分数?

java - Spring RestTemplate 动态 JSON 属性名称

css - HTML 到 PDF - 如何使用 itext XMLWorker 显示复选框

css - 将 cshtml 页面转换为 pdf 时,分页符的表格边框中缺少水平边框

java - 如何阻止 Flying Saucer (xhtmlrender) PDF 在 MacOS X 上显示超链接周围的边框?

java - Twitter4j 中 Twitter 用户的电子邮件

java - jdbc 中的语句仅检索第一条记录,尽管有几条记录

html - 使用 python pdfkit 生成的 pdf 文件没有可点击的链接?

Java 多个网页的截图

java - itext, Flying Saucer : xhtml to pdf ClassCastException