hadoop - Terasort如何工作

标签 hadoop terasort

我尝试使用hadoop terasort,它与teragen和teravalid一起使用效果很好。
然后我想知道terasort如何工作。我认为terasort的工作方式类似于linux中的sort命令。所以我做了一个文本文件,如下所示:

I have a pen.
my name is ~
I went to my lab yesterday
...

然后运行terasort,但返回错误“read over eof”。

我看到了teragen生成的“part-m-00000”,但听不懂。

请告诉我Terasort的工作方式。

最佳答案

Terasort不需要TB级的输入数据,但它确实假定数据采用Teragen生成的格式。进一步来说:

  • (10个字节的键)(10个字节的rowid)(78个字节的填充符)\ r \ n
  • 键是集合''..'〜'中的随机字符。
  • rowid是作为int的右对齐的行ID。
  • 填充程序由7个字符组成,从'A'到'Z'的10个字符。
  • 关于hadoop - Terasort如何工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47050720/

    相关文章:

    scala - 如何使用 Spark 独立集群在工作节点上管理多个执行程序?

    java - 用hadoop计算两个文件记录的集交集和集差

    hadoop - 如何在有效负载中传递凭据以通过Oozie Rest API执行Hive Action

    hadoop - 基于 Nifi 处理器 cron 的调度

    apache-spark - 运行集群模式 Spark 作业时如何修复 "Connection refused error"

    hadoop - 使用Phoenix Driver将数据保存到Hbase时的时区问题