r - 仅训练 R MXNet 数据集中可预测样本的最佳方法

标签 r ruby machine-learning deep-learning mxnet

我有一个看起来像这样的训练集。

特征:分类/数字

输出:二进制1/0

[1] feature[1][1] feature[1][2] ... feature[1][j]
[2] feature[2][1] feature[2][2] ... feature[2][j]
.
.
.
[i] feature[i][1] feature[i][2] ... feature[i][j]

假设一些样本(行)具有“好”值组合,可能会产生类似的输出,而其他样本(行)具有“坏”值组合,因此难以预测。

我的目标是,通过摆脱那些缺乏规律性的不良样本,我想提高最终的准确性。有人可以告诉我什么是自动检测这些样本的最佳算法或预处理,以便只训练好的样本?预先感谢您!

ENV:MXNet、R

最佳答案

对于深度学习模型,您通常有足够的自由度让模型学习对预测有用的特征空间中的结构。如果有两个具有不同特征的群体(例如猿和人类),并且了解该群体对于做出预测很有用,那么模型应该能够学习这一点。

此外,如果您的最终目标是分类,那么在深度学习模型中,softmax layer 是很常见的。作为输出,可以解释为给定类别的概率;该概率越高,您对预测的信心就越大。您应该按照 this paper 中的建议校准和评估此概率。 .

另一方面,如果您希望应用更简单的模型(例如线性模型),您可能需要事先执行无监督学习并将其作为分类特征包含在模型中。正如 Viacheslav 所建议的,像 K-Means 这样的聚类算法可以适用于您的数据集,否则您可能需要查看高斯混合模型或 DBSCAN。

关于r - 仅训练 R MXNet 数据集中可预测样本的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44717363/

相关文章:

ruby - 在 Heroku 上存储私有(private)文件

python - 具有自定义回归函数的 Pipeline 和 GridSearchCV - 传递参数?

python - 通过索引在矩阵中赋值

Ruby - 如何将 EOF 标记添加到 PDF 文件中或以其他方式绕过 PDF::Reader::MalformedPDFError: PDF 不包含 EOF 标记

ruby - Ruby 中的统计和矩阵代数

machine-learning - LogisticRegressionCV 错误地预测标签

matlab - 在matlab中定义掩码的代码

Java R 接口(interface) (JRI) 设置

使用 writeogr() 下载 Shapefile 时出现 R Shiny downloadHandler() 错误

从字符向量中删除所有不属于某些单词的单词