java - 解析 GATE 中的字体样式或段落 block

标签 java nlp gate transducer

我有一个word文档。我需要使用 GATE 匹配特定的表格部分或标题部分。我想是否有任何步骤可以让我们首先检查标题的任何字体大小或字体样式,然后匹配其余内容,直到下一个标题模式重复。

最佳答案

GATE 仅对 Apache TikaApache POI 库提供的 MS Word 文档提供有限支持。我不知道有什么免费的替代方案...我们在我的公司为此目的开发了自己的插件(gate.DocumentFormat),但目前还无法对外提供。

您可以尝试通过其他工具(例如直接使用 MS Word、OpenOffice、docx4j 或其他 - 尝试 google docx to html - 你会看到很多结果),然后在 GATE 中处理 HTML 文档。您将看到原始标记注释集中可用的所有格式。

关于java - 解析 GATE 中的字体样式或段落 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33255580/

相关文章:

Java编译器树API : Get fully qualified superclass name

machine-learning - GATE java.lang.NullPointerException?

java - 添加所有包含注释的列表作为 GATE 中新注释的功能

java - 如何从 Treebank 训练斯坦福 NLP 的新解析器模型?

python - 如何使用 Keras 确定类别?

python - 管道异常 : No mask_token ([MASK]) found on the input

gate - 如何使用GATE的众包插件将数据加载到CrowdFlower的作业中?

java - java.lang.ArrayIndexOutOfBoundsException 的原因

java - 如何在Spring Boot + Hibernate中实现 "delete"方法

java - 有或没有持有者的单例 = 惰性初始化 vs 急切初始化?