我正在尝试实现 xgboost
在具有不平衡类(1% 的 1% 和 99% 的零)的分类数据上。
我正在使用 binary:logistic
作为分类的目标函数。
据我所知xgboost
- 当 boosting 开始构建树时,目标函数被迭代优化,当所有树组合在一起时,最终实现最佳性能。
在我的数据中,由于类不平衡,我面临着 Accuracy Paradox 的问题。 .在模型的最后,我能够取得巨大的成就 accuracy
但是 可怜的 precision
和 recall
我想要一个自定义目标函数,它可以优化模型并返回具有最佳 f-score
的最终 xgboost 模型。 .或者我可以使用任何其他可以返回最佳的目标函数f-score
?
Where F-Score = (2 * Precision * Recall)/(Precision + Recall)
最佳答案
我不是这方面的专家,但我认为这个评估指标应该可以胜任:
f1score_eval <- function(preds, dtrain) {
labels <- getinfo(dtrain, "label")
e_TP <- sum( (labels==1) & (preds >= 0.5) )
e_FP <- sum( (labels==0) & (preds >= 0.5) )
e_FN <- sum( (labels==1) & (preds < 0.5) )
e_TN <- sum( (labels==0) & (preds < 0.5) )
e_precision <- e_TP / (e_TP+e_FP)
e_recall <- e_TP / (e_TP+e_FN)
e_f1 <- 2*(e_precision*e_recall)/(e_precision+e_recall)
return(list(metric = "f1-score", value = e_f1))
}
引用文献:
https://github.com/dmlc/xgboost/issues/1152
http://xgboost.readthedocs.io/en/latest/parameter.html
关于r - 自定义目标函数来优化 Fscore - XGBOOST,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43650582/