java - 将数据集写入组合 xls 文件

标签 java scala apache-spark

我有一个 Scala 脚本,它可以写入大量的 csv 文件,例如文件名:“dog-species”、“dog-weight”、“cat-species”、“cat-params”等。希望更改脚本的行为,将数据集合并到更大的 xls 文件中,并附加“信息”表,其中包含一些介绍性详细信息。预期结果:

  • 文件“dog.xls”,其中包含以下表格:“信息”、“物种”、“重量”...
  • 文件“cat.xls”,其中包含以下工作表:“info”、“species”、“params”...

所以我的方法是使用条件逻辑:当我处理“dog-species”数据集时,我检查文件“dog.xls”是否存在。如果文件存在,我会在文件“dog.xls”中附加新的“物种”表。如果文件不存在,我将使用“info”表创建一个新的“dog.xls”文件,然后附加“species”表。

对可能的 Scala/Java 库或处理该问题的方法有什么想法吗?我使用 Scala 2.10.5、Java 1.8、Spark 1.6.3。

谢谢。

最佳答案

在 Spark 中,您可以编写 CSV 文件,但不能编写 XLS 文件。 我建议尝试编写 CSV-s,而不是按照您的逻辑将它们与 https://poi.apache.org/ 合并。

如果您没有巨大的数据集(我认为是这种情况)(您没有在 XLS 中存储巨大的数据集),那么您可以收集它们并编写 XLS。

关于java - 将数据集写入组合 xls 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57587198/

相关文章:

scala - scala中的HDFS文件列表

dd-MMM-yyyy 格式的 java.time.format.DateTimeParseException

scala - Akka Actor "ask"和 "Await"带有 TimeoutException

scala - 在 Spark sql 数据帧(UDAF)上的自定义案例类上实现总和聚合器

javascript - JavaScript 中匿名函数的占位符

scala - 序列化Guava的MinMaxPriorityQueue

apache-spark - 使用 spark sql 创建 hive 表

java - RS232 - JSSC 2.8.0 串行端口读取器 - 模糊读取

java - 安全 Java EE Web 应用程序和 Seam 的设计指南

java - Hibernate - 从 hibernate setter(POJO) 类中删除 where 条件字段