我正在尝试训练一个 CNN 模型,根据它们的美学分数对图像进行分类。有 2,00,000 张图像,每张图像都由 100 多个对象评分。计算平均分数并且将分数归一化。
分数的分布近似高斯分布。所以我决定在为每个类分配适当的权重后建立一个 10 类分类模型,因为数据是不平衡的。
我的问题:
对于这个问题,分数是连续的,即 0<0.2<0.3<0.4<0.5<..<1。
那么这是否意味着这是一个回归问题?如果是这样,我如何平衡回归问题的数据,因为大多数数据点都在 0.4 和 0.6 之间。
谢谢!
最佳答案
由于您的标签是连续的,您可以使用类似 pandas.qcut() 的技术将它们分成 10 个相等的分位数,并为每个类提供标签。这可以将回归问题转化为分类问题。
就不平衡而言,您可能想要尝试对少数数据进行过采样。这将确保您的模型不会偏向于多数数据。
希望这可以帮助。
关于classification - 多类分类还是回归?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49630344/