我有一个 rtf 文件。里面有很多 table 。我一直在尝试使用java(POI和tika)来提取表。在表如此定义的 .doc 中,这很容易。然而,在 rtf 文件中,似乎没有任何“这是一个表”标签作为元数据的一部分。有谁知道从这样的文件中提取表的最佳策略是什么?将其转换为另一种文件格式会有所帮助。有什么线索可以让我查找吗?
最佳答案
有一个linux工具叫unrtf,看manual
使用该应用程序,您可以将 rtf 文件转换为 html:
unrtf --html your_input_file.rtf > your_output_file.html
现在您可以使用任何编程 API 来操作 html/xml 并轻松提取表格。您需要的足够吗?
关于java - 如何提取rtf表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36662323/