我有一个word文档。我需要使用 GATE 匹配特定的表格部分或标题部分。我想是否有任何步骤可以让我们首先检查标题的任何字体大小或字体样式,然后匹配其余内容,直到下一个标题模式重复。
最佳答案
GATE 仅对 Apache Tika 和 Apache POI 库提供的 MS Word 文档提供有限支持。我不知道有什么免费的替代方案...我们在我的公司为此目的开发了自己的插件(gate.DocumentFormat
),但目前还无法对外提供。
您可以尝试通过其他工具(例如直接使用 MS Word、OpenOffice、docx4j 或其他 - 尝试 google docx to html
- 你会看到很多结果),然后在 GATE 中处理 HTML 文档。您将看到原始标记
注释集中可用的所有格式。
关于java - 解析 GATE 中的字体样式或段落 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33255580/