我目前正在研究基于大量数据的匹配算法的概念。这是我的第一次。
是这样的:
=>我们要根据人们的喜好(大小,位置,..)将房子与人们匹配
有什么更好的方法?
1)对所有房屋进行聚类,并检查该人(想要购买)属于哪个聚类(匹配具有相同特征值(如大小和位置)的人/房屋)
2)建立推荐人,这也将需要许多过去在我们的HDSF中购买房屋的人
哪种技术堆栈可用于更好的方法?
我目前正在考虑:Hadoop / Hive(存储)-Sqoop(将数据存储到存储中)-Mahout(分析)
非常感谢您的帮助!提前致谢!
最佳答案
基于您还没有用户可以匹配房屋的事实,我建议最好的方法是使用群集,并且一旦您拥有一致的群集,就可以为每个群集分配一个类,从而将问题归结为分类一。
关于堆栈,它在很大程度上取决于个人喜好以及可用的硬件。
关于hadoop - 集群还是推荐?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32713639/