出于学术目的,我正在对欺诈检测进行一些研究。 我想具体了解从事务数据集进行特征选择\工程的技术。 更详细地说,给定一个交易数据集(例如信用卡),选择什么样的特征用于模型以及它们是如何设计的?
我遇到的所有论文都集中在模型本身(SVM、NN,...),而没有真正涉及这个主题。
此外,如果有人知道未匿名的公共(public)数据集 - 这也会有所帮助。
谢谢
最佳答案
对特征选择/排序有深入的了解对于数据科学家或机器学习从业者来说是一笔巨大的财富。充分掌握这些方法可以提高模型的性能,更好地理解数据的底层结构和特征,并可以更好地直观地了解许多机器学习模型背后的算法。
使用特征选择通常有两个原因: 1.减少特征数量,减少过拟合,提高模型的泛化能力。 2. 更好地理解特征及其与响应变量的关系。
可能的方法:
单变量特征选择:
- PIL 逊相关性
- 互信息和最大信息系数 (MIC)
- 距离相关性
- 基于模型的排名
基于树的方法:
- 随机森林特征重要性(平均减少杂质、平均减少准确率)
其他:
- 稳定性选择
- RFE
关于machine-learning - 用于欺诈检测的特征工程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50330778/