Possible Duplicate:
Convert Word doc to HTML programmatically in Java
我有一个程序,它接受 .docx 文件并作为 .html 文件打开,但是当转换为 html 时,我得到的只是不可读的字符串。我需要这个文件的 html,因为我需要稍后解析它。当我使用下面的方法打开文件时,我得到不可读的文本,例如: úL]iN?#tBd!?^ý ?e"0©?®??AäúsIp?¸ü?D?ÂÓâœ\Dâ>½? ?Eâcr&Æl\Fâÿ2qJ?U ??IúK&þIb
FileInputStream fileInput = null;
BufferedInputStream myBuffer = null;
DataInputStream dataInput = null;
fileInput = new FileInputStream(selectedFile);
myBuffer = new BufferedInputStream(fileInput);
dataInput = new DataInputStream(myBuffer);
StringBuilder nHtmlText = new StringBuilder();
while (dataInput.available() != 0) {
System.out.println(dataInput.readLine());
nHtmlText.append(dataInput.readLine());
}
htmlText = nHtmlText.toString();
有什么办法可以得到一个干净可读的 html 文件来解析和保存吗?
最佳答案
没有。
您正在阅读 docx 文件的原始内容,这不是 html,而是压缩的 xml - 请参阅 here ,您需要一些东西来将 docx 转换为 html。两者有很大不同。
关于java - 将 .docx 转换为 html,我收到不可读的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13110643/