我有一个音乐收听历史记录的数据集:何时收听、在何处收听、外面的天气如何(以及即将推出的更多其他功能)以及作为标签的 track_id。
我正在尝试预测在任何给定上下文(时间+位置+天气)下我会喜欢的轨道
我想对此数据运行多类分类,但遇到以下问题:
- 不断将我的 track_ids 映射到类 [0..distinct_trackid_count) 并返回
- 我有大量类(class)(数万个)
- 类别的数量不断增加,因此我总是必须从一开始就重新训练我的算法
我有一种感觉,多类分类不是我在这里需要的,我需要帮助来弄清楚如何解决这个问题
最佳答案
如果我是你,我会先尝试一些降维的想法,然后再进行多类分类。使用简单的聚类或特征提取算法,您应该能够创建一些歌曲组(10-100 组)。如果您将这些组视为类,我认为您将能够很好地学习这些功能,以便能够在给定环境中推荐您喜欢的歌曲。更不用说此后问题变得非常容易处理。
但是,如果您只想听一首“完美”歌曲,K-近邻可能是您最好的选择。
关于machine-learning - 类别数量不断增加的多类别分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29893905/