java - 如何提取rtf表

标签 java text rtf text-mining text-extraction

我有一个 rtf 文件。里面有很多 table 。我一直在尝试使用java(POI和tika)来提取表。在表如此定义的 .doc 中,这很容易。然而,在 rtf 文件中,似乎没有任何“这是一个表”标签作为元数据的一部分。有谁知道从这样的文件中提取表的最佳策略是什么?将其转换为另一种文件格式会有所帮助。有什么线索可以让我查找吗?

最佳答案

有一个linux工具叫unrtf,看manual

使用该应用程序,您可以将 rtf 文件转换为 html:

unrtf --html your_input_file.rtf > your_output_file.html

现在您可以使用任何编程 API 来操作 html/xml 并轻松提取表格。您需要的足够吗?

关于java - 如何提取rtf表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36662323/

相关文章:

java - ZipEntry.isDirectory() 和 Enumeration<? extends ZipEntry> 只看到目录内容,看不到目录

java - 将方法的泛型传递为泛型类泛型

java - 假装返回数据

ruby-on-rails - 使用 RoR 从文本单元中抓取第一段?

text - 为什么文本在游戏引擎中看起来如此糟糕?

RTF 项目符号列表示例

java - Java 中的 RTF 行数

java - JVM 是否进行运行时常量折叠?

HTML5 Canvas 文本与具有 CSS3 样式的普通文本?

php - 免费(最好)PHP RTF 到 HTML 转换器?