hadoop - 集群还是推荐?

标签 hadoop cluster-analysis mahout mahout-recommender

我目前正在研究基于大量数据的匹配算法的概念。这是我的第一次。

是这样的:

  • 我们获得了“房屋”类型的X个对象,这些对象的大小,位置等特征都在
  • 我们有人在寻找房子,他们的搜索包括大小,位置等。

  • =>我们要根据人们的喜好(大小,位置,..)将房子与人们匹配

    有什么更好的方法?

    1)对所有房屋进行聚类,并检查该人(想要购买)属于哪个聚类(匹配具有相同特征值(如大小和位置)的人/房屋)
    2)建立推荐人,这也将需要许多过去在我们的HDSF中购买房屋的人

    哪种技术堆栈可用于更好的方法?

    我目前正在考虑:Hadoop / Hive(存储)-Sqoop(将数据存储到存储中)-Mahout(分析)

    非常感谢您的帮助!提前致谢!

    最佳答案

    基于您还没有用户可以匹配房屋的事实,我建议最好的方法是使用群集,并且一旦您拥有一致的群集,就可以为每个群集分配一个类,从而将问题归结为分类一。

    关于堆栈,它在很大程度上取决于个人喜好以及可用的硬件。

    关于hadoop - 集群还是推荐?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32713639/

    相关文章:

    machine-learning - Davies-Bouldin 指数越高或越低得分越好

    java - 使用 Apache Mahout 生成建议的数据模型

    java - 没有 Hadoop 的 Canopy 集群

    java - 线程 "main"java.lang.IncompatibleClassChangeError : Found interface org. apache.hadoop.mapreduce.JobContext 中的异常,但需要类

    hadoop - Sqoop 函数 '--map-column-hive' 被忽略

    java - DFS 位置不会在 Eclipse 中被删除

    hadoop - 加载到Hive分区的Parquet表中时内存不足

    hadoop - Mapside Join 和 Reduce side join 可以有不同的 O/P

    python - 使用 Scikit-Learn 生成高维数据集

    hadoop - 如何从 Mahout in Action 运行 K 均值聚类?