java - 使用 Java 库从 ODT 文档中提取字段

标签 java parsing field data-extraction odt

我需要使用 Java 库(或代码)从 ODT 文档的内容中提取字段标签。我知道 odt 是某种压缩文件，它的内容位于 content.xml 文件中。当然，我可以提取文件，打开 content.xml 并解析它，但我相信存在一些更高级别的代码。举个例子，内容如下:

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

我想将字段提取为 ${name} 和 $nome。

我知道 Apache Tika 可以用于此目的，但我还没有发现实际显示字段提取的示例。我相信这是因为我使用的字段是非结构化文本而不是输入字段标签。

提前致谢，丹尼尔

最佳答案

好吧，以防万一有人感兴趣，我们最终使用 Apache Tika 从 odt 获取内容，并使用以下正则表达式对其进行解析:

\$\{[\w\-\.]*\}

关于java - 使用 Java 库从 ODT 文档中提取字段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9976581/

上一篇：java - 选择Web开发框架时应设定的标准是什么？

下一篇：java - 如何刷新JTabbedPane中的数据？

相关文章：

java - 如何检查 Java 中所有的 boolean 值是真还是假？

ios - 数据不会保存到桌面

java - 如何使用通用方法查找对象的字段？

java - 如何在java中通过BeanInfo<I>访问私有(private)字段

java - 从泛型类调用的方法将返回什么类型？

java - 使用 Rob Camick 的 ListTableModel，但未显示 JTable

c# - 通过属性值访问 xml 元素

html - 如何在表单中查找重复的 ID？

java - 无法使用 Fest + Swing 创建 FrameFixture

java - DateTimeFormatter 中的通配符