我有一个看起来像这样的训练集。
特征:分类/数字
输出:二进制1/0
[1] feature[1][1] feature[1][2] ... feature[1][j]
[2] feature[2][1] feature[2][2] ... feature[2][j]
.
.
.
[i] feature[i][1] feature[i][2] ... feature[i][j]
假设一些样本(行)具有“好”值组合,可能会产生类似的输出,而其他样本(行)具有“坏”值组合,因此难以预测。
我的目标是,通过摆脱那些缺乏规律性的不良样本,我想提高最终的准确性。有人可以告诉我什么是自动检测这些样本的最佳算法或预处理,以便只训练好的样本?预先感谢您!
ENV:MXNet、R
最佳答案
对于深度学习模型,您通常有足够的自由度让模型学习对预测有用的特征空间中的结构。如果有两个具有不同特征的群体(例如猿和人类),并且了解该群体对于做出预测很有用,那么模型应该能够学习这一点。
此外,如果您的最终目标是分类,那么在深度学习模型中,softmax layer 是很常见的。作为输出,可以解释为给定类别的概率;该概率越高,您对预测的信心就越大。您应该按照 this paper 中的建议校准和评估此概率。 .
另一方面,如果您希望应用更简单的模型(例如线性模型),您可能需要事先执行无监督学习并将其作为分类特征包含在模型中。正如 Viacheslav 所建议的,像 K-Means 这样的聚类算法可以适用于您的数据集,否则您可能需要查看高斯混合模型或 DBSCAN。
关于r - 仅训练 R MXNet 数据集中可预测样本的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44717363/