python - 将 Pandas 'categorical' dtype 与 sklearn 一起使用

sklearn 是否支持直接在拟合模型中使用 Panda 的 Categorical 数据类型？据我所知，sklearn 不支持这种数据类型，这是不幸的，因为分类数据类型既编码分类数据又包含数据的映射方案。此外，分类编码纯粹是一个数据处理/处理问题，因此由 Pandas 处理似乎更自然。

注意

我知道有几种方法可以在 Pandas 和 sklearn 中对分类变量进行编码——这不是我要问的。

最佳答案

来自 issue-tracker 的交叉发布:

我认为这些至少是两个独立的问题: 1. sklearn 可以/将支持以分类特征作为输入的 pandas 数据帧 2. sklearn 可以/将支持通过 pandas 分类数据类型对分类变量进行操作。

或多或少会将所有分类变量转换为单热编码特征，也称为虚拟列。这对用户来说真的很容易做到。我们可以在 scikit-learn 中“在后台”执行此操作，但这会使代码复杂化，而且我看不出有什么好处。
基本不可能。有一个分类数据类型对树来说很好，但我认为 pandas 没有稳定的 c 级接口(interface)，所以我们不能真正进入它。即使有，它仍然需要大量重写树代码。我认为这对非树估计器没有帮助。

关于python - 将 Pandas 'categorical' dtype 与 sklearn 一起使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30851944/