java - 将数据集写入组合 xls 文件

标签 java scala apache-spark

我有一个 Scala 脚本，它可以写入大量的 csv 文件，例如文件名:“dog-species”、“dog-weight”、“cat-species”、“cat-params”等。希望更改脚本的行为，将数据集合并到更大的 xls 文件中，并附加“信息”表，其中包含一些介绍性详细信息。预期结果:

文件“dog.xls”，其中包含以下表格:“信息”、“物种”、“重量”...
文件“cat.xls”，其中包含以下工作表:“info”、“species”、“params”...

所以我的方法是使用条件逻辑:当我处理“dog-species”数据集时，我检查文件“dog.xls”是否存在。如果文件存在，我会在文件“dog.xls”中附加新的“物种”表。如果文件不存在，我将使用“info”表创建一个新的“dog.xls”文件，然后附加“species”表。

对可能的 Scala/Java 库或处理该问题的方法有什么想法吗？我使用 Scala 2.10.5、Java 1.8、Spark 1.6.3。

谢谢。

最佳答案

在 Spark 中，您可以编写 CSV 文件，但不能编写 XLS 文件。我建议尝试编写 CSV-s，而不是按照您的逻辑将它们与 https://poi.apache.org/ 合并。

如果您没有巨大的数据集(我认为是这种情况)(您没有在 XLS 中存储巨大的数据集)，那么您可以收集它们并编写 XLS。

关于java - 将数据集写入组合 xls 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57587198/

上一篇：java - 当没有条件可显示的项目时隐藏 recyclerview

下一篇：java - 来自 Controller 的 Spring Boot 查询

相关文章：

scala - scala中的HDFS文件列表

dd-MMM-yyyy 格式的 java.time.format.DateTimeParseException

scala - Akka Actor "ask"和 "Await"带有 TimeoutException

scala - 在 Spark sql 数据帧(UDAF)上的自定义案例类上实现总和聚合器

javascript - JavaScript 中匿名函数的占位符

scala - 序列化Guava的MinMaxPriorityQueue

apache-spark - 使用 spark sql 创建 hive 表

java - RS232 - JSSC 2.8.0 串行端口读取器 - 模糊读取

java - 安全 Java EE Web 应用程序和 Seam 的设计指南

java - Hibernate - 从 hibernate setter(POJO) 类中删除 where 条件字段

©2024 IT工具网联系我们