我正在 kNN 的帮助下开发推荐引擎。不过,数据很稀疏,大约有 1500 个样本和大约 200 个特征。我有一个值为 1 或 0 的序数目标。
对其进行特征选择的技术是什么?我假设如果我选择随机森林进行特征选择,那么所选的特征可能与 kNN 假设的重要特征不同。
此外,对于包含 i 的样本数量如此之少的特征数量是否有任何限制?
最佳答案
特征选择技术想要排除不相关的特征,或/和排除冗余的特征。一种经过验证的技术是使用 Supervized discretization based on entropy (可以找到一些更通用的解释 here )以有意义地减少数据大小,然后使用 Info Gain 获取与目标变量最相关的前 k 个特征。您可以尝试至少 5 种不同的方法,这还取决于您用于实现应用程序的机器学习库/框架。
关于machine-learning - kNN 中的特征选择和重要特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42016078/