apache-spark - 逻辑回归的 PySpark mllib p 值

标签 apache-spark apache-spark-mllib logistic-regression apache-spark-ml

我目前正在使用 ML-Lib 包(Spark 2.1 版)在 PySpark 中运行逻辑回归。为了理解这些系数并检查它们的统计显着性，我想研究相应的 p 值。

有没有办法使用 ML-Lib 包获得 p 值？

最佳答案

您可以使用 ML 库中的广义线性回归包来接收逻辑回归的 p 值:

from pyspark.ml.regression import GeneralizedLinearRegression
glr = GeneralizedLinearRegression(family="binomial", link="logit", maxIter=10, 
regParam=0.0)
model = glr.fit(dataset)
summary = model.summary
print("Coefficient Standard Errors: " + str(summary.coefficientStandardErrors))
print("T Values: " + str(summary.tValues))
print("P Values: " + str(summary.pValues))

你可以在这里找到详细的解释:https://spark.apache.org/docs/2.2.0/ml-classification-regression.html#generalized-linear-regression

请记住数据帧的特征值(以及矩阵可逆性的条件)以接收标准误差(以及 P 值)，因为在这种情况下，该包将为您提供错误。

关于apache-spark - 逻辑回归的 PySpark mllib p 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53194617/

上一篇：security - 反射(reflect)跨站点脚本的可能的攻击媒介是什么？

下一篇：caSTLe-windsor - CaSTLe Windsor - 如何根据构造函数参数解析组件

相关文章：

r - 外部函数调用中的 NA/NaN/Inf (arg 5)

python - sklearn 逻辑回归 "ValueError: Found array with dim 3. Estimator expected <= 2."

apache-spark - Spark 结构化流式传输蓝/绿部署

apache-spark - 用字典键值(pyspark)替换spark df中一列的值

scala - Spark on YARN 和 spark-bigquery 连接器

pyspark - 将一次热编码后获得的稀疏向量转换为列

java - 更新 DenseVector 类中的元素，Spark

apache-spark - 如何设置Spark Kmeans初始中心

python - 用于逻辑回归的 Shapley？

apache-spark - 运行 Spark 的 EMR Notebooks - 如何从私有(private) github 分支安装其他库