hadoop - 集群还是推荐？

标签 hadoop cluster-analysis mahout mahout-recommender

我目前正在研究基于大量数据的匹配算法的概念。这是我的第一次。

是这样的:

我们获得了“房屋”类型的X个对象，这些对象的大小，位置等特征都在

中

我们有人在寻找房子，他们的搜索包括大小，位置等。

=>我们要根据人们的喜好(大小，位置，..)将房子与人们匹配

有什么更好的方法？

1)对所有房屋进行聚类，并检查该人(想要购买)属于哪个聚类(匹配具有相同特征值(如大小和位置)的人/房屋)
2)建立推荐人，这也将需要许多过去在我们的HDSF中购买房屋的人

哪种技术堆栈可用于更好的方法？

我目前正在考虑:Hadoop / Hive(存储)-Sqoop(将数据存储到存储中)-Mahout(分析)

非常感谢您的帮助!提前致谢!

最佳答案

基于您还没有用户可以匹配房屋的事实，我建议最好的方法是使用群集，并且一旦您拥有一致的群集，就可以为每个群集分配一个类，从而将问题归结为分类一。

关于堆栈，它在很大程度上取决于个人喜好以及可用的硬件。

关于hadoop - 集群还是推荐？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32713639/

上一篇：hadoop - Apache Sqoop-1 reducer 阶段

下一篇：hadoop - 使用Sqoop从RDBMS导入100Gb数据到hadoop所需的时间

java - 使用 Apache Mahout 生成建议的数据模型

java - 没有 Hadoop 的 Canopy 集群

java - 线程 "main"java.lang.IncompatibleClassChangeError : Found interface org. apache.hadoop.mapreduce.JobContext 中的异常，但需要类

hadoop - Sqoop 函数 '--map-column-hive' 被忽略

java - DFS 位置不会在 Eclipse 中被删除

hadoop - 加载到Hive分区的Parquet表中时内存不足

hadoop - Mapside Join 和 Reduce side join 可以有不同的 O/P

python - 使用 Scikit-Learn 生成高维数据集

hadoop - 如何从 Mahout in Action 运行 K 均值聚类？