数据分析学习的Python包推荐

我想在文章发布平台上构建一个分析引擎。更具体地说，我想跟踪用户的阅读行为(例如文章的浏览量、文章打开时间、评分等)，以及文章本身的统计数据(例如段落数、作者等) )。

这有两个目的:

对于数据分析部分，我一直在查看cubes , pandas和 pytables 。数据量很大，并且存储在MySQL表中；我不确定这些包中的哪一个可以更好地处理这样的后端。

对于推荐部分，我只是考虑将数据从数据分析引擎提供给聚类模型。

关于如何将所有这些组合在一起的任何建议，以及可以帮助我的很酷的 python 项目吗？如果我需要提供更多信息，请告诉我。

谢谢

最佳答案

Scikit-learn应该会让您对数据处理(集群)部分感到满意。

关于数据分析学习的Python包推荐，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12425602/