我有一个数据,其中每个样本都有由 x 和大约 9000 个其他特征以及相应的 y(目标值)组成的特征向量。其中x和y都是连续值(0到20之间)。 x 是一个有噪声的数据,但我们无法识别噪声的来源。目标是从 x 和其他特征(特征没有噪声)预测 y。样本数量约为90万个。我可以在这个问题上使用哪些机器学习方法。也是神经网络或深度学习中著名的网络。
最佳答案
这对我来说听起来像是一个标准回归问题,尽管你的预测相关性会很糟糕(技术术语:-)),与x的噪音成正比。查找所有预测房价的教育示例(通常用于说明梯度下降)。您有 9000 个特征,而不是 3 或 4 个,但这只是训练时间的问题。
您还可以考虑一些“因子分析”,以便消除对 y 贡献不足的特征(相关系数接近 0.0)。这称为“降维”;寻找 PCA(主成分分析)。
关于machine-learning - 使用机器学习方法从噪声输入中预测连续目标值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37887630/