machine-learning - SVM 硬边距 : why imbalanced dataset may cause bad results?

标签 machine-learning classification regression svm libsvm

我可以理解为什么软Margin SVM会受到不平衡训练集的影响:最小化优化问题的误差可以驱动将所有数据训练分类为负面(如果|负面例子| >> |正面例子|)。

但是,在硬间隔SVM中,我没有松弛变量和C常量,所以我不想最小化错误,因为硬间隔SVM期望没有错误(对于问题的定义)!硬间隔 SVM 只是搜索支持向量并最大化由支持向量“识别”的类支持超平面之间的间隔;现在,如果我在负支持向量(即负类支持超平面)“后面”有很多点或相同数量的正点,这些不会影响我的边距和分离超平面;

它总是相同的,因为它仅取决于支持向量,并且无论我是否增加点数,它们总是相同的!为什么硬间隔 SVM 会受到不平衡数据集的影响,或者我的推理是错误的? 谢谢!

最佳答案

对于真正的硬间隔 SVM,任何数据集都有两种选择,无论其平衡方式如何:

  1. 训练数据在特征空间中完全可分离,您将获得训练错误为零的结果模型。
  2. 训练数据在特征空间中不可分离,您不会得到任何东西(没有模型)。

此外,请注意,您可以在给定足够复杂的内核的任何数据集上训练硬裕度 SVM(例如,具有非常大 gamma 的 RBF)。不过,生成的模型通常很糟糕,因为它完全过度拟合了训练数据。

关于machine-learning - SVM 硬边距 : why imbalanced dataset may cause bad results?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17764533/

相关文章:

machine-learning - 多项式朴素贝叶斯中 coef_ 和 feature_log_prob_ 之间的区别?

python - CoreML - 多数组输入需要在应用程序或模型中进行预处理?

python - 短文本情感分类任务所需的最小训练集大小是多少

python - 使用 sklearn 的多元线性回归与成本函数的正态方程不匹配

python - 使用Python训练后,神经网络未提供预期的输出

python - 训练精度提高但验证精度保持在 0.5,模型预测每个验证样本几乎相同的类

用于商业用途的 Java 机器学习库?

python - 如何使用三次或更高次的多项式曲面回归来拟合一组 3D 数据点?

在 R 中复制 Stata 边距

python - 如何实现泊松回归?