machine-learning - kNN 中的特征选择和重要特征

标签 machine-learning salesforce random-forest knn

我正在 kNN 的帮助下开发推荐引擎。不过，数据很稀疏，大约有 1500 个样本和大约 200 个特征。我有一个值为 1 或 0 的序数目标。

对其进行特征选择的技术是什么？我假设如果我选择随机森林进行特征选择，那么所选的特征可能与 kNN 假设的重要特征不同。

此外，对于包含 i 的样本数量如此之少的特征数量是否有任何限制？

最佳答案

特征选择技术想要排除不相关的特征，或/和排除冗余的特征。一种经过验证的技术是使用 Supervized discretization based on entropy (可以找到一些更通用的解释 here )以有意义地减少数据大小，然后使用 Info Gain 获取与目标变量最相关的前 k 个特征。您可以尝试至少 5 种不同的方法，这还取决于您用于实现应用程序的机器学习库/框架。

关于machine-learning - kNN 中的特征选择和重要特征，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42016078/

上一篇：machine-learning - Keras NoteBook GPU 超时

下一篇：machine-learning - 在 Tensorflow 中将数据分成批处理进行分类

machine-learning - Theano 梯度不适用于 .sum()，仅适用于 .mean()？

machine-learning - sklearn.linear_model.SGDClassifier 如何进行多类分类？

java - Salesforce 中的列表

salesforce - Visualforce:如何使用 $User 显示用户帐户

python - SVM 和随机森林，召回率 = 0

python - 随机森林分类的不确定性

r - 使用 Softmax 转换输出激活会产生相似的值

python - R 和 sklearn 中的随机森林

Java - 重构类似方法的代码