scala - 如何在 Scalding 中定义源字段

一个月前我在 Cascading 工作。现在我们正在尝试在 Scalding 中实现相同的功能。我有一个基本问题。

如何在 Scalding 中定义我的源和接收器模式？

以下是我们在级联中遵循的过程

    SrcFields sourcefields = new SrcFields();
    SinkFields sinkfields = new SinkFields();
    Fields source = sourcefields.sourceFields();
    Fields sink = sinkfields.sinkfields();
    Scheme sourceScheme = new TextDelimited(source,",");
    Scheme sinkScheme = new TextDelimited(sink,",");

最佳答案

在 Scalding 中，您可以使用 Fields based或 Typed接口(interface)，根据Source documentation .以前，您会使用 Csv或 Tsv读或写的类。

对于类型化界面，您将使用 TypedCsv或 TypedTsv类。

您可以在烫毛教程中找到示例:https://github.com/twitter/scalding/blob/develop/tutorial/Tutorial6.scala , https://github.com/twitter/scalding/blob/develop/tutorial/TypedTutorial.scala

关于scala - 如何在 Scalding 中定义源字段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30168605/

上一篇：hadoop - 在HDFS中删除某个文件/目录时，是否有可能收到通知？

下一篇：java - Hadoop-MapReduce中的调试。映射器没有被调用？

相关文章：

scala - 如何找出哪一行在 scala repl 中抛出异常？

java - Akka 性能问题

scala - 获取所有子序列的列表

scala - 我们可以使用 Akka 和 Camel 集成来实现 REST 服务吗？

hadoop - 关于 Hadoop 和 Hive 和 Presto 的问题

hadoop - 如何在我的机器上运行 Storm 拓扑...使我的机器陷入 Storm

hadoop - NativeException:org.apache.hadoop.hbase.MasterNotRunningException:null

scala - 通过键写入多个输出 Scalding Hadoop，一个 MapReduce 作业

mapreduce - 在哪里可以找到 hbase-0.89.20100924+28 的 HBase 级联模块？

Scala SBT CoffeeScripted，正确覆盖编译目标