hadoop - 使用Hadoop及相关项目分析不断变化的使用模式

标签 hadoop cassandra hive bigdata

我们正在制定策略,以分析用户对网站上1M +项目的“兴趣”(点击,喜欢等),以生成“类似项目”列表。

为了处理大量原始数据,我们正在学习有关Hadoop,Hive和相关项目的信息。

我的问题与这个问题有关:Hadoop / Hive等似乎更适合数据转储,随后是处理周期。大概处理周期的结束是对相关项目之间链接的索引图的扩展。

如果目前为止一切正常,在以下情况下通常如何处理数据:

  • 是否定期对原始用户数据进行重新分析以重建链接的索引图?
  • 我们是否对输入的数据进行流传输,分析并更新数据存储?
  • 随着分析结果数据的变化,我们通常是逐段更新还是批量重新处理?
  • Cassandra是否比Hive / HDFS更好地解决了这种用例?

  • 我希望更好地了解这种大数据处理的通用方法。

    最佳答案

    我认为这是Hadoop工具系列的一个很好的用例。
    在我看来,HDFS和Flume可能是显而易见的选择,我会研究HBase还是Hive,具体取决于您对哪种分析感兴趣,组织数据的灵活性如何
    并查询它。

    Is the raw user data re-analyzed at intervals to re-build an indexed graph of links?



    答:Hadoop在这方面非常有用。我会为此使用HBase,但还有其他选择。

    Do we stream data as it comes in, analyze it and update the data store?



    答:Flume对此有好处。

    As the resultant data from the analysis changes, are we typically updating it piece by piece, or re-processing in bulk?



    答:您可以同时选择两者。批量可能是HDFS上的MapReduce作业,其中可以通过HBase列系列值或Hive行来逐段管理。如果您提供更多细节,我可能会更精确。

    Is this use case better addressed by Cassandra than Hive/HDFS?



    答:Cassandra和HBase都是Google BigTable的实现。我认为选择取决于
    您如何组织,访问,分析和更新数据。如果需要,我可以提供更多指导。
    HBase通常更适合半结构化,高R / W处理。

    DHFS通常是您灵活地,可扩展地存储数据转储的理想选择。
    Flume适用于移动流数据。

    如果您正在考虑图形,我还将考虑研究Titan和HBase。

    如果您对面向表格的数据以及使用类似SQL的查询感兴趣,Hive将适用。

    关于hadoop - 使用Hadoop及相关项目分析不断变化的使用模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11856428/

    相关文章:

    hadoop - 如何根据插入语句更改 Hive 表?

    hadoop - 处理来自Apache Pig的PST文件

    Cassandra UPDATE 在删除后不起作用

    cassandra - 集群中的两个节点向彼此显示 DN,向其他所有人显示 UN

    java - Cassandra 的指标监控 native API

    hadoop - hive -java.lang.NoClassDefFoundError:org/apache/hadoop/hive/conf/HiveVariableSource

    hadoop - 如何根据给定格式在Pig中合并两行?

    java - 实现简单的Hadoop调度程序,如何从外部程序提交Hadoop作业?

    maven - jar 中的 ClasNotFound 异常

    hadoop - hadoop map reduce中分组比较器有什么用