java - 将 .docx 转换为 html,我收到不可读的文本

标签 java

Possible Duplicate:
Convert Word doc to HTML programmatically in Java

我有一个程序,它接受 .docx 文件并作为 .html 文件打开,但是当转换为 html 时,我得到的只是不可读的字符串。我需要这个文件的 html,因为我需要稍后解析它。当我使用下面的方法打开文件时,我得到不可读的文本,例如: úL]iN?#tBd!?^ý ?e"0©?®??AäúsIp?¸ü?D?ÂÓâœ\Dâ>½? ?Eâcr&Æl\Fâÿ2qJ?U ??IúK&þIb

    FileInputStream fileInput = null;
    BufferedInputStream myBuffer = null;
    DataInputStream dataInput = null;
    fileInput = new FileInputStream(selectedFile);
    myBuffer = new BufferedInputStream(fileInput);
    dataInput = new DataInputStream(myBuffer);
    StringBuilder nHtmlText = new StringBuilder();
    while (dataInput.available() != 0) {
        System.out.println(dataInput.readLine());
        nHtmlText.append(dataInput.readLine());
    }
    htmlText = nHtmlText.toString();

有什么办法可以得到一个干净可读的 html 文件来解析和保存吗?

最佳答案

没有。

您正在阅读 docx 文件的原始内容,这不是 html,而是压缩的 xml - 请参阅 here ,您需要一些东西来将 docx 转换为 html。两者有很大不同。

关于java - 将 .docx 转换为 html,我收到不可读的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13110643/

相关文章:

java - 如何从kafka avro记录生成pojo?

java - 设置 JTextArea 的字体

java - 一次搜索字符串中的多个字母

java - 我如何编写一个 android cordova 插件,如果蓝牙打开则返回 1,否则返回 0?

java SSLEngine 说 NEED_WRAP,调用 .wrap() 并且仍然是 NEED_WRAP

java - 如何从我的数学运算中删除模数?

java - 由于 org.eclipse.e4.ui.workbench.swt 中的使用约束冲突, bundle 未解决

Java - 从HashMap单键多值取键(反向映射)

java - 单击Java时绘制多辆车

java - Mybatis如何运行sql "desc table"