machine-learning - 仅包含 "yes"个实例的二元分类

标签 machine-learning neural-network classification svm knn

假设我有一个二元分类问题。我必须为每个输入元素分配一个标签(是或否),但在训练集中我只有"is"实例。这很常见,因为很多时候我们想说给定的元素是否与给定的元素“相似”。我们可以在声音识别或图像识别问题中找到可能的例子。

示例 1:我们有很多狗叫的声音,并给出一个新的声音,我们想要判断它是否是狗叫

示例 2:我们有很多狗的照片,并给出一张新图片,我们想说它是否代表狗

在常见的机器学习问题中,训练集由"is"实例和“否”实例组成,并给定分类器建立的新元素(如果它与"is"实例或“否”更相似)。

正如上述场景所预期的那样,我们不能有“没有”实例,因为它们可能是世界上所有可能的其他声音/图片。

哪些机器学习方法(SVM、神经网络、KNN...)可以用来解决此类问题?

最佳答案

这是一个称为新颖性检测的问题。

具体来说,您有一个被认为是无噪声的数据集。例如。您有一组数据,代表一系列狗叫声。

如果你有一些狗叫和一些猫喵叫,并且想要找到将狗和猫分开的边界,这就是一个异常值检测问题。

可以在 SKlearn 文档网站上找到一个简单的示例

http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#example-svm-plot-oneclass-py

具体实现将取决于您的数据的具体情况 - 没有包罗万象的解决方案。根据“没有免费的午餐”定理,不存在能够在一系列问题上表现最佳的算法。

关于machine-learning - 仅包含 "yes"个实例的二元分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36048718/

相关文章:

numpy - Keras LSTM 训练数据格式

neural-network - 模式识别训练(神经网络)

python - optim.lr_scheduler.ReduceLROnPlateau 给出错误值无法转换为 float 类型而不溢出 : inf

machine-learning - 训练过程中出现Nans的常见原因

machine-learning - 我有一个数据集,我想使用 NLP 进行短语提取,但我无法这样做?

php - 使用朴素贝叶斯分类器对推文进行分类 : some problems

python - 在 scikit-learn 中获得多标签预测的准确性

python - Stanford NLP Parser 对 Kaggle Movie 评论中使用的相同语句给出不同的结果(情感)

machine-learning - 在 scikit-learn 中使用多标签随机森林没有标签分配的样本

machine-learning - Libsvm/Liblinear 中的实例权重