java - 如何读取旧的word doc文件元数据

标签 java jsp ms-word apache-poi metadata

假设我想将扩展名为 doc 的 Word 文件以及元数据导入到我的 HTML 文档中,并相应地将其显示在 div 中。因此,doc 文件中的所有现有内容,例如各种格式的文本(粗体、斜体、不同大小、字母间距、行高、上划线、下划线……)、图像(位置和大小)、图形、图表(JSP 将生成必要的图形以提供类似的图形或图表。它只需要数据)、列表等。

那么有什么办法可以做到这一点吗?是否有标准化的 Word API 可以为我们提供这些数据?或者有什么JSP库可以做到这一点吗?如果没有,那么我需要知道什么并做什么才能得到这个?

最佳答案

查看 Apache POI 项目:http://poi.apache.org/text-extraction.html 以及 Apache Tika:http://tika.apache.org/

关于java - 如何读取旧的word doc文件元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14386933/

相关文章:

java - 优化java 8流操作

java - Java EE 网站的默认 session 超时是多少?

c# - 使用 C# 读取 Word 文档

javascript - 如何使 UI Fabric 命令栏上下文菜单正常工作?

c# - 有没有办法在机器上没有word的情况下动态生成word文档

java - java读取带空格的字符串

java - 如何通过 Websphere MQ API 检索 JMS 生产者设置的属性?

java - 对子类的对象使用父类(super class)的相同方法

java - JSP/JDBC : HTTP Status 404 - Not Found

jsp - 在 CQ5.6.1 项目中使用 Sling Taglib 1.3 版