通过分类特征,我们可以看到 BigQuery ML 通过在创建的模型上运行 ML.WEIGHTS 自动创建一个“_null_filler”虚拟变量,这是有道理的。
在数字特征的情况下,缺失值是使用均值还是其他方法估算的?官方文档中是否提到了这两种行为?
最佳答案
插补是用替代值替换缺失数据的统计过程。在训练时,当 BigQuery 在数据集中遇到空值时,就会出现缺失值。在预测中,当 BigQuery 遇到空值或以前看不到的值时,可能会出现缺失值。以下记录了 BigQuery ML 如何在各种情况下处理缺失数据。
对于数值类型(由 BigQuery ML 自动标准化),空值将替换为训练和预测的原始输入数据集中的特征列计算的平均值。
对于one-hot encoded columns,添加了一个额外的类别,所有空值都将映射到该类别以进行训练和预测。看不见的数据在预测时实际上分配了 0 的权重。
我们的公开文档中缺少此信息。我们正在努力添加它。感谢您提出这个问题。
关于google-bigquery - BigQuery ML 如何处理 NULL 数字特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53730751/