在普通的二类或多类分类问题中,我们可以使用任何著名的机器学习算法(例如朴素贝叶斯或 SVM)来训练和测试模型。 我的问题是,我收到了天气数据,其中标签变量的格式为“20% 雨,80% 干燥”或“30% 多云,70% 雨”等。 我应该如何解决这个问题?我需要以某种方式将问题转化为回归吗?在这种情况下,如果数据中有三个标签(雨、干燥、多云),将百分比信息转换为连续值的正确方法是什么? 感谢您的宝贵时间
最佳答案
假设表达式“20% 下雨,80% 干燥”和“30% 多云,70% 下雨”表示概率,则这些类别是互斥的,并且我们可以忽略可能的序数关系(例如“干燥 >多云 > 雨”)其中,诸如多分类逻辑回归之类的模型可能适合这些值,就好像它们被分组或复制一样。
我认为也可以采用其他临时程序,这可以最大限度地减少 Kullback-Leibler 分歧等问题。
关于machine-learning - 设计天气数据的分类问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5055112/