google-bigquery - BigQuery ML 如何处理 NULL 数字特征?

标签 google-bigquery

通过分类特征,我们可以看到 BigQuery ML 通过在创建的模型上运行 ML.WEIGHTS 自动创建一个“_null_filler”虚拟变量,这是有道理的。

在数字特征的情况下,缺失值是使用均值还是其他方法估算的?官方文档中是否提到了这两种行为?

最佳答案

插补是用替代值替换缺失数据的统计过程。在训练时,当 BigQuery 在数据集中遇到空值时,就会出现缺失值。在预测中,当 BigQuery 遇到空值或以前看不到的值时,可能会出现缺失值。以下记录了 BigQuery ML 如何在各种情况下处理缺失数据。

对于数值类型(由 BigQuery ML 自动标准化),空值将替换为训练和预测的原始输入数据集中的特征列计算的平均值。

对于one-hot encoded columns,添加了一个额外的类别,所有空值都将映射到该类别以进行训练和预测。看不见的数据在预测时实际上分配了 0 的权重。

我们的公开文档中缺少此信息。我们正在努力添加它。感谢您提出这个问题。

关于google-bigquery - BigQuery ML 如何处理 NULL 数字特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53730751/

相关文章:

google-bigquery - 如何在 BigQuery 中使用标准 SQL 查询 GA RealtimeView?

google-bigquery - BigQUEry 架构中的 REPEATED + REQUIRED 字段

streaming - Bigquery Streaming API 使用插入 ID 覆盖行

python - 将查询结果从表写入 BigQuery 中的分区聚簇表

google-cloud-platform - 我不想为我想与之共享 bigquery 数据集的外部用户生成服务帐户 - 这会产生什么影响?

unicode - 如何在标准 SQL 中使用 Unicode 规范化删除变音符号(例如重音符号)?

java - 数据流 GCS 到 BigQuery - 如何每个输入输出多行?

google-analytics - 如何在 BigQuery 中识别广告分发网络

缓存 bigquery 查询

google-bigquery - 6小时后查询超时,如何优化?