Java文本提取与数据结构设计

标签 java python serialization data-structures text-extraction

我有大量Open Office 3.0 文档格式的表格数据

   Table 1:
    (x range)|(x1,y1) |(x2,y2)|(x3,x3)|(x4,y4) 
    (-20,90) |(-20,0) |(-5,1) |(5,1)  |(10,0)
    ...

同样,我有 n 个表。所有这些表都是模糊集隶属函数。简单来说,它们是计算模型,根据它我必须处理输入数据。有很多这样的表具有不同的行大小和列大小 3/4。这些数据一旦加载就不会改变。

示例: 当我得到 -20 到 90 范围内的 x 值时。我将应用第一个规则(上面给出)。假设它是 -1(介于 -20 和 -5 之间)。然后我有找到 0 到 1 之间的对应值。

我的第一个问题是如何以文档格式从表中提取所有数据,以便我可以在我的java程序中使用。我了解一点Python,并且我知道Python在以下方面很有用:这样的情况。但是接下来如何在我的Java程序中使用它。

其次在这种情况下我应该使用的最佳数据结构是什么。

注意:我没有使用任何数据库。所以我更愿意将表保留为 xml 或其他格式,以便我可以轻松地将其加载到程序中。我还考虑制作合适的数据结构,然后序列化它们,以便我可以在需要时加载它们,而不是解析文件并重新创建数据结构。请发表您的评论。

最佳答案

为了用 Java 解析 OpenOffice 文档(以提取数据),您可以使用专用 API,例如 ODFDOM 。 我认为这个解决方案对于您的需要来说非常复杂。一个更简单的解决方案是手动提取 OpenOffice 表,将其采用更易于 Java 解析的格式:

  • CSV
  • 数据库(MySQL等)

关于Java文本提取与数据结构设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3519015/

相关文章:

java - Guava 不可变集合的序列化是否稳定?

java - 如何使用参数而不是值获取 javax.ws.rs.core.UriInfo 的 URI 路径

切出部分 numpy 数组的 Pythonic 方式

javascript - 使用嵌入式对象序列化 HTML 表单

python - 做多线程txt文件I/O时遇到 "MemoryError",寻找更好的解决方案

python - Sage 的 "var"是如何工作的?

c# - 序列化/反序列化 XML 数据时,XML 元素和类属性是否具有相同的名称?

java - 如何使用 Liferay MVC Portlet 准备 View jsp

java - 从 COM 端口读取数据

java - 通过 JDBC 连接到 IBM IIB 中的 Microsoft SQL Server 时出错