r - 仅训练 R MXNet 数据集中可预测样本的最佳方法

标签 r ruby machine-learning deep-learning mxnet

我有一个看起来像这样的训练集。

特征:分类/数字

输出:二进制1/0

[1] feature[1][1] feature[1][2] ... feature[1][j]
[2] feature[2][1] feature[2][2] ... feature[2][j]
.
.
.
[i] feature[i][1] feature[i][2] ... feature[i][j]

假设一些样本(行)具有“好”值组合，可能会产生类似的输出，而其他样本(行)具有“坏”值组合，因此难以预测。

我的目标是，通过摆脱那些缺乏规律性的不良样本，我想提高最终的准确性。有人可以告诉我什么是自动检测这些样本的最佳算法或预处理，以便只训练好的样本？预先感谢您!

ENV:MXNet、R

最佳答案

对于深度学习模型，您通常有足够的自由度让模型学习对预测有用的特征空间中的结构。如果有两个具有不同特征的群体(例如猿和人类)，并且了解该群体对于做出预测很有用，那么模型应该能够学习这一点。

此外，如果您的最终目标是分类，那么在深度学习模型中，softmax layer 是很常见的。作为输出，可以解释为给定类别的概率；该概率越高，您对预测的信心就越大。您应该按照 this paper 中的建议校准和评估此概率。 .

另一方面，如果您希望应用更简单的模型(例如线性模型)，您可能需要事先执行无监督学习并将其作为分类特征包含在模型中。正如 Viacheslav 所建议的，像 K-Means 这样的聚类算法可以适用于您的数据集，否则您可能需要查看高斯混合模型或 DBSCAN。

关于r - 仅训练 R MXNet 数据集中可预测样本的最佳方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44717363/

上一篇：python - 文档的监督标签建议

下一篇：r - 市场篮分析 - 具有可变数量功能的单一模型？

相关文章：

ruby - 在 Heroku 上存储私有(private)文件

python - 具有自定义回归函数的 Pipeline 和 GridSearchCV - 传递参数？

python - 通过索引在矩阵中赋值

Ruby - 如何将 EOF 标记添加到 PDF 文件中或以其他方式绕过 PDF::Reader::MalformedPDFError: PDF 不包含 EOF 标记

ruby - Ruby 中的统计和矩阵代数

machine-learning - LogisticRegressionCV 错误地预测标签

matlab - 在matlab中定义掩码的代码

Java R 接口(interface) (JRI) 设置

使用 writeogr() 下载 Shapefile 时出现 R Shiny downloadHandler() 错误

从字符向量中删除所有不属于某些单词的单词