java - 使用 Apache POI 将 Word 转换为 HTML

标签 java apache-poi

我看到有一个名为 WordToHtmlConverter 的转换器,但未公开处理方法。我应该如何传递文档文件并获取 HTML 文件(或 OutputStream)?

最佳答案

这段代码现在对我有用了!

    HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("D:\\temp\\seo\\1.doc"));

    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
            DocumentBuilderFactory.newInstance().newDocumentBuilder()
                    .newDocument());
    wordToHtmlConverter.processDocument(wordDocument);
    Document htmlDocument = wordToHtmlConverter.getDocument();
    ByteArrayOutputStream out = new ByteArrayOutputStream();
    DOMSource domSource = new DOMSource(htmlDocument);
    StreamResult streamResult = new StreamResult(out);

    TransformerFactory tf = TransformerFactory.newInstance();
    Transformer serializer = tf.newTransformer();
    serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
    serializer.setOutputProperty(OutputKeys.INDENT, "yes");
    serializer.setOutputProperty(OutputKeys.METHOD, "html");
    serializer.transform(domSource, streamResult);
    out.close();

    String result = new String(out.toByteArray());
    System.out.println(result);

关于java - 使用 Apache POI 将 Word 转换为 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7868713/

相关文章:

java - 如何使用 Apache POI 读取 Java 中的 .DOC 文件以将图像与文本分开?

java - Apache POI excel 单元格样式更新

java - FormLayout - 对齐问题

java - java 8中是否存在并发时发生的liveness failure

java - 由于以下错误,无法加载数据集[country_name] 参数没有值[par_country];

java - 使用 Apache POI 和 XWPF 在 java 中获取单词的缩略图

java - Java POI 中的 InvalidFormatException

java - Netty 4 多客户端

java - JAXB 2.x : How to override an XmlElement annotation from parent class - Mission Impossible?

java - 使用 Apache POI 将列中的图像插入到 Excel