hadoop - Hadoop实时实现

标签 hadoop hive hbase apache-pig sqoop

我想知道如何实时使用Hadoop组件。

这是我的问题:

数据导入/导出:

  • 我知道Sqoop中可用的选项,但想知道如何在实时实现中使用Sqoop(共同点)
    如果我是对的

    1.1 sqoop命令放在shell脚本中,并从计划程序/事件触发器中调用。我可以在上面有一个实时代码示例,特别是在shell脚本中动态地将参数传递给Sqoop(例如表名)。

    1.2认为也可以使用Ooozie工作流程。任何示例,请

  • pig
  • 通常如何实时调用Pig命令?通过java程序?
    任何实时代码示例都会有很大的帮助
    如果我是正确的话,那么在将数据加载到实际的hdfs路径或配置单元表之前,Pig通常用于暂存数据的数据质量检查/清理。
    我们可以在shell脚本(实时项目)中看到pig脚本

  • 请纠正我或添加,如果我错过任何

    配置单元

    我们将在哪里实时看到Hive命令?
    在 shell 脚本或Java api调用中进行报告?

    HBase
    Hbase命令通常在Java之类的语言中称为api调用。
    我对么?

    抱歉,有太多问题。我没有看到有关如何在实时场景中使用这些组件的任何文章/博客。

    提前致谢。

    最佳答案

    之所以看不到有关将这些组件用于实时方案的文章,是因为这些组件不是面向实时的,而是面向批处理的。

    独家新闻:不实时使用-面向批处理。
    我会使用Flume之类的东西来摄取数据。

    pig , hive :同样,尚未实时就绪。两者都是面向批处理的。每个查询/脚本的设置时间可能需要数十秒。
    您可以用Spark Streaming(甚至支持Flume)代替两者。

    HBase :这是HDFS之上的NoSQL数据库。可用于实时。快速插入。可以从 Spark 中使用。

    如果要使用这些系统来帮助实时应用程序,请考虑使用Lambda architecture之类的东西,它具有一个批处理层(使用hive,pig和不使用它)和一个速度层(使用流/实时技术)。

    问候。

    关于hadoop - Hadoop实时实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33416664/

    相关文章:

    hadoop - 如何访问 WSO2 BAM 的 hadoop 作业跟踪器?

    hadoop - 可以从文件加载 hiveconf 变量吗? (与 HiveQL 文件分开)

    hadoop - Hue 通过 http 连接到 hiveserver2

    hadoop - 如何为HBase配置HA rootdir

    mysql - Hive 查询给出与 SQL 不同的结果

    join - hadoop pig 加入使用日期时间字段

    mongodb - 使用 Apache Sqoop 将数据从 Mongo/Cassandra 导出到 HDFS

    json - 使用 Apache Drill 在 HBase 中获取嵌套的 JSON 数据

    hadoop - Hbase-Hadoop:TableInputFormat扩展

    apache-spark - 我的PySpark作业在本地模式下运行良好,但在群集模式下失败-已解决