machine-learning - SVM 硬边距 : why imbalanced dataset may cause bad results?

标签 machine-learning classification regression svm libsvm

我可以理解为什么软Margin SVM会受到不平衡训练集的影响:最小化优化问题的误差可以驱动将所有数据训练分类为负面(如果|负面例子| >> |正面例子|)。

但是，在硬间隔SVM中，我没有松弛变量和C常量，所以我不想最小化错误，因为硬间隔SVM期望没有错误(对于问题的定义)!硬间隔 SVM 只是搜索支持向量并最大化由支持向量“识别”的类支持超平面之间的间隔；现在，如果我在负支持向量(即负类支持超平面)“后面”有很多点或相同数量的正点，这些不会影响我的边距和分离超平面；

它总是相同的，因为它仅取决于支持向量，并且无论我是否增加点数，它们总是相同的!为什么硬间隔 SVM 会受到不平衡数据集的影响，或者我的推理是错误的？谢谢!

最佳答案

对于真正的硬间隔 SVM，任何数据集都有两种选择，无论其平衡方式如何:

训练数据在特征空间中完全可分离，您将获得训练错误为零的结果模型。
训练数据在特征空间中不可分离，您不会得到任何东西(没有模型)。

此外，请注意，您可以在给定足够复杂的内核的任何数据集上训练硬裕度 SVM(例如，具有非常大 gamma 的 RBF)。不过，生成的模型通常很糟糕，因为它完全过度拟合了训练数据。

关于machine-learning - SVM 硬边距 : why imbalanced dataset may cause bad results?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17764533/

上一篇：r - e1071 : test error rate doesn't match up with tune's results 的基本 SVM 问题

下一篇：scala - 使用 Scala 的开源机器学习项目

python - CoreML - 多数组输入需要在应用程序或模型中进行预处理？

python - 短文本情感分类任务所需的最小训练集大小是多少

python - 使用 sklearn 的多元线性回归与成本函数的正态方程不匹配

python - 使用Python训练后，神经网络未提供预期的输出

python - 训练精度提高但验证精度保持在 0.5，模型预测每个验证样本几乎相同的类

用于商业用途的 Java 机器学习库？

python - 如何使用三次或更高次的多项式曲面回归来拟合一组 3D 数据点？

在 R 中复制 Stata 边距

python - 如何实现泊松回归？