apache-spark - 处理 spark mllib 分类器中的 null/NaN 值

我有一组分类列(字符串)，我正在解析这些列并将其转换为特征向量以传递给 mllib 分类器(随机森林)。

在我的输入数据中，某些列具有空值。比如说，在其中一列中，我有 p 值 + 空值: 我应该如何构建我的特征向量和分类器的 categoricalFeaturesInfo 映射？

选项 1:我在 categoricalFeaturesInfo 中告知 p 值，并在我的输入向量中使用 Double.NaN？
- 附带问题:分类器如何处理 NaN？
选项 2:我将 null 视为一个值，因此我在 categoricalFeaturesInfo 中告知 (p+1) 个值，并将 null 映射到某个 double ?

感谢您的帮助。

(PS:我知道新的dataframe + pipeline + vectorindexer API，但由于某些原因它不太符合我的需要，所以我需要自己做)

最佳答案

看起来选项 2 是一个。如果 null 对您来说实际上是分类特征的另一个级别，只需将其映射到某个值即可。请注意，分类特征级别应映射到 0、1、2 .... 等，然后才能正确使用它们，请参见此处:

因此空值将被映射到这些数字之一。

关于apache-spark - 处理 spark mllib 分类器中的 null/NaN 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32999099/