machine-learning - 类别数量不断增加的多类别分类

标签 machine-learning classification

我有一个音乐收听历史记录的数据集:何时收听、在何处收听、外面的天气如何(以及即将推出的更多其他功能)以及作为标签的 track_id。

Listening history

我正在尝试预测在任何给定上下文(时间+位置+天气)下我会喜欢的轨道

我想对此数据运行多类分类,但遇到以下问题:

  • 不断将我的 track_ids 映射到类 [0..distinct_trackid_count) 并返回
  • 我有大量类(class)(数万个)
  • 类别的数量不断增加,因此我总是必须从一开始就重新训练我的算法

我有一种感觉,多类分类不是我在这里需要的,我需要帮助来弄清楚如何解决这个问题

最佳答案

如果我是你,我会先尝试一些降维的想法,然后再进行多类分类。使用简单的聚类或特征提取算法,您应该能够创建一些歌曲组(10-100 组)。如果您将这些组视为类,我认为您将能够很好地学习这些功能,以便能够在给定环境中推荐您喜欢的歌曲。更不用说此后问题变得非常容易处理。

但是,如果您只想听一首“完美”歌曲,K-近邻可能是您最好的选择。

关于machine-learning - 类别数量不断增加的多类别分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29893905/

相关文章:

machine-learning - Pytorch N - Beats 模型抛出错误 : 'str' object has no attribute '__name__'

machine-learning - 对数字分类数据实现朴素贝叶斯高斯分类器

c++ - 用opencv对线条进行分类

image-processing - 识别图像中的图案

machine-learning - 频繁上课如何应对?

machine-learning - 超平面和平面有什么区别?为什么超平面使用 eqn w^T+b=0 表示?

python - 如何识别哪些特征会影响预测结果?

python-2.7 - 在 sklearn (python 2.7) 中创建具有分组约束的训练、测试和交叉验证数据集?

python - 如何在 Keras 中记录有关模型预期性能的数据?

python - sklearn 为游戏获胜者预测准备数据集