我想在文章发布平台上构建一个分析引擎。更具体地说,我想跟踪用户的阅读行为(例如文章的浏览量、文章打开时间、评分等),以及文章本身的统计数据(例如段落数、作者等) )。
这有两个目的:
- 展示有关用户和文章的见解
- 向用户提供建议
对于数据分析部分,我一直在查看cubes , pandas和 pytables 。数据量很大,并且存储在MySQL表中;我不确定这些包中的哪一个可以更好地处理这样的后端。
对于推荐部分,我只是考虑将数据从数据分析引擎提供给聚类模型。
关于如何将所有这些组合在一起的任何建议,以及可以帮助我的很酷的 python 项目吗? 如果我需要提供更多信息,请告诉我。
谢谢
最佳答案
Scikit-learn应该会让您对数据处理(集群)部分感到满意。
关于数据分析学习的Python包推荐,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12425602/