我的数据格式为:
"header1","header2","header3",...
"value11","value12","value13",...
"value21","value22","value23",...
....
在 Scalding 中解析它的最佳方法是什么?我总共有50多个专栏,但我只对其中的一些感兴趣。我尝试使用 Csv("file") 导入它,但这不起作用。
想到的唯一解决方案是使用 TextLine 手动解析它并忽略 offset == 0 的行。但我确信一定有更好的解决方案。
最佳答案
最后我通过手动解析每一行解决了这个问题,如下所示:
def tipPipe = TextLine("tip").read.mapTo('line ->('field1, 'field5)) {
line: String => val arr = line.split("\",\"")
(arr(0).replace("\"", ""), if (arr.size >= 88) arr(4) else "unknown")
}
关于scala - Scalding:解析带头的逗号分隔数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25000142/