假设我有一个二元分类问题。我必须为每个输入元素分配一个标签(是或否),但在训练集中我只有"is"实例。这很常见,因为很多时候我们想说给定的元素是否与给定的元素“相似”。我们可以在声音识别或图像识别问题中找到可能的例子。
示例 1:我们有很多狗叫的声音,并给出一个新的声音,我们想要判断它是否是狗叫
示例 2:我们有很多狗的照片,并给出一张新图片,我们想说它是否代表狗
在常见的机器学习问题中,训练集由"is"实例和“否”实例组成,并给定分类器建立的新元素(如果它与"is"实例或“否”更相似)。
正如上述场景所预期的那样,我们不能有“没有”实例,因为它们可能是世界上所有可能的其他声音/图片。
哪些机器学习方法(SVM、神经网络、KNN...)可以用来解决此类问题?
最佳答案
这是一个称为新颖性检测的问题。
具体来说,您有一个被认为是无噪声的数据集。例如。您有一组数据,代表一系列狗叫声。
如果你有一些狗叫和一些猫喵叫,并且想要找到将狗和猫分开的边界,这就是一个异常值检测问题。
可以在 SKlearn 文档网站上找到一个简单的示例
http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#example-svm-plot-oneclass-py
具体实现将取决于您的数据的具体情况 - 没有包罗万象的解决方案。根据“没有免费的午餐”定理,不存在能够在一系列问题上表现最佳的算法。
关于machine-learning - 仅包含 "yes"个实例的二元分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36048718/