我在理解和应用 Python 中的生存分析决策树时遇到问题。我有一个数据集,其中包含变量年龄、体重、肿瘤大小、体积……(均为 float ),我想知道是否与总体生存率(也是 float )相关。
但是我该如何应用决策树呢?在文献中,我只看到 y_train 必须是分类变量(例如 0 或 1,良性或恶性,...)的示例,但它不适用于像 float 这样的连续变量。
但是我想创建一个决策树,以便最终您可以发现,当肿瘤大小 > xx 且体积 > yy 时,您预测的总生存期约为 < zzz。
有人可以帮我解决我的问题吗?有人知道在哪里可以阅读有关此主题的更多信息吗?
最佳答案
Scikit-survival 包提供了一些集成决策树模型,例如 RandomSurvivalForest以及 Cox 模型等经典模型 CoxPhSurvivalAnalysis .
文档提供了一个很好的代码 example 。关于目标变量y
,至少在本例中文档指出
y – A structured array containing the binary event indicator as first field, and time of event or time of censoring as second field.
关于python - 如何利用决策树进行生存分析?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66800109/