我可以理解为什么软Margin SVM会受到不平衡训练集的影响:最小化优化问题的误差可以驱动将所有数据训练分类为负面(如果|负面例子| >> |正面例子|)。
但是,在硬间隔SVM中,我没有松弛变量和C常量,所以我不想最小化错误,因为硬间隔SVM期望没有错误(对于问题的定义)!硬间隔 SVM 只是搜索支持向量并最大化由支持向量“识别”的类支持超平面之间的间隔;现在,如果我在负支持向量(即负类支持超平面)“后面”有很多点或相同数量的正点,这些不会影响我的边距和分离超平面;
它总是相同的,因为它仅取决于支持向量,并且无论我是否增加点数,它们总是相同的!为什么硬间隔 SVM 会受到不平衡数据集的影响,或者我的推理是错误的? 谢谢!
最佳答案
对于真正的硬间隔 SVM,任何数据集都有两种选择,无论其平衡方式如何:
- 训练数据在特征空间中完全可分离,您将获得训练错误为零的结果模型。
- 训练数据在特征空间中不可分离,您不会得到任何东西(没有模型)。
此外,请注意,您可以在给定足够复杂的内核的任何数据集上训练硬裕度 SVM(例如,具有非常大 gamma 的 RBF)。不过,生成的模型通常很糟糕,因为它完全过度拟合了训练数据。
关于machine-learning - SVM 硬边距 : why imbalanced dataset may cause bad results?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17764533/