我只是想知道是否有人遇到过需要将数据从 excel 导入或读取到 Hadoop 的场景?有没有Flume Excel之类的源码?
顺便说一句,我知道我可以将 excel 文件转换为 csv 然后处理它。真的只是想在这里进一步探索水槽源。
最佳答案
Spooling Directory Source可以配置为从 Excel 文件(或任何其他格式)读取。如文档所述,此源可以配置为 EventDeserializer - 实现将文件解析为事件的逻辑的类。
我不认为有人已经实现了这样的反序列化器,但使用 Apache POI 库似乎很容易完成任务。
关于hadoop - Flume有没有Excel源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18971877/