假设我想将扩展名为 doc
的 Word 文件以及元数据导入到我的 HTML 文档中,并相应地将其显示在 div
中。因此,doc
文件中的所有现有内容,例如各种格式的文本(粗体、斜体、不同大小、字母间距、行高、上划线、下划线……)、图像(位置和大小)、图形、图表(JSP 将生成必要的图形以提供类似的图形或图表。它只需要数据)、列表等。
那么有什么办法可以做到这一点吗?是否有标准化的 Word API 可以为我们提供这些数据?或者有什么JSP库可以做到这一点吗?如果没有,那么我需要知道什么并做什么才能得到这个?
最佳答案
查看 Apache POI 项目:http://poi.apache.org/text-extraction.html 以及 Apache Tika:http://tika.apache.org/
关于java - 如何读取旧的word doc文件元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14386933/