machine-learning - kNN 中的特征选择和重要特征

标签 machine-learning salesforce random-forest knn

我正在 kNN 的帮助下开发推荐引擎。不过,数据很稀疏,大约有 1500 个样本和大约 200 个特征。我有一个值为 1 或 0 的序数目标。

对其进行特征选择的技术是什么?我假设如果我选择随机森林进行特征选择,那么所选的特征可能与 kNN 假设的重要特征不同。

此外,对于包含 i 的样本数量如此之少的特征数量是否有任何限制?

最佳答案

特征选择技术想要排除不相关的特征,或/和排除冗余的特征。一种经过验证的技术是使用 Supervized discretization based on entropy (可以找到一些更通用的解释 here )以有意义地减少数据大小,然后使用 Info Gain 获取与目标变量最相关的前 k 个特征。您可以尝试至少 5 种不同的方法,这还取决于您用于实现应用程序的机器学习库/框架。

关于machine-learning - kNN 中的特征选择和重要特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42016078/

相关文章:

r - 在 tidymodels recipes::recipe() 中创建一个多元矩阵

machine-learning - Theano 梯度不适用于 .sum(),仅适用于 .mean()?

machine-learning - sklearn.linear_model.SGDClassifier 如何进行多类分类?

java - Salesforce 中的列表

salesforce - Visualforce:如何使用 $User 显示用户帐户

python - SVM 和随机森林,召回率 = 0

python - 随机森林分类的​​不确定性

r - 使用 Softmax 转换输出激活会产生相似的值

python - R 和 sklearn 中的随机森林

Java - 重构类似方法的代码