python - 从特征集中选择集成特征

标签 python machine-learning scikit-learn feature-selection

我有一个关于集成特征选择的问题。

我的数据集由 1000 个样本和大约 30000 个特征组成,它们被分类为标签 A 或标签 B。 我想做的是挑选一些可以有效地对标签进行分类的特征。

我使用了三种方法,单变量方法( PIL 逊系数),套索回归和SVM-RFE(递归特征消除),所以我从中得到了三个特征集。我使用 python scikit-learn 进行特征选择。

然后我想到了集成特征选择方法,因为特征的大小太大了。在这种情况下,如何制作具有 3 个特征集的集成子集?

我能想到的是取集合的并集并再次使用套索回归或 SVM-RFE,或者只是取集合的交集。

谁能给个主意?

最佳答案

我想您要做什么取决于您以后想如何使用这些功能。如果您的目标是“有效地对标签进行分类”,您可以做的一件事是使用您的分类算法(即 SVC、Lasso 等)作为包装器并执行 Recursive Feature Elimination (RFE) with cross-validation。 .

您可以从您使用的前三种方法的特征联合开始,或者从头开始为您想要拟合的给定模型类型,因为示例数量很少。无论如何,我认为根据您的情况选择特征的最佳方法是选择能够优化您的目标的特征,这似乎是分类准确性,因此是 CV 提案。

关于python - 从特征集中选择集成特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34216940/

相关文章:

python - 在Python中初始化计算潮湿空气密度的类和类方法

python - LeetCode 的两和 - 为什么我自己的代码失败了

python - 用python组合有序文件

python - ML : are there any python libraries/examples available for generating the questions and answers from the plain text

python - TfidfVectorizer NotFittedError

Python、Sklearn : How to reverse train_test_split of Sklearn?

python - 如何在电子邮件中查找集群

python percache 静态方法

android-studio - 如何在 Android Studio 中使用 onnxruntime 和 .ort 模型

python - 每个时期的数据大小都不同