python - 使用 sklearn 预处理 Label Binarizer 的一种热编码

我正在尝试使用 sklearn.preprocessing.LabelBinarizer() 创建仅包含两列标签的单热编码，即我只想对两组对象进行分类。在这种情况下，当我使用 fit(range(0,2)) 时，它只返回一个一维数组，而不是 2x1。这很好，但是当我想在 Tensorflow 中使用它们时，为了尺寸一致性，形状实际上应该是 (2,1)。请告诉我如何解决它。

代码如下:

from sklearn import preprocessing
lb = preprocessing.LabelBinarizer()
lb.fit(range(0, 3))

调用lb.transform([1, 0])，结果为:

[[0 1 0]
 [1 0 0]]

而当我们将 3 更改为 2 时，即 lb.fit(range(0, 2))，结果将是

[[1]
 [0]]

代替

[[0 1]
 [1 0]]

这将在与具有 n 维度的数组一致工作的算法中产生问题。有什么办法可以解决这个问题吗？

最佳答案

labelBinarizer() 的用途根据 documentation是

Binarize labels in a one-vs-all fashion

Several regression and binary classification algorithms are available in scikit-learn. A simple way to extend these algorithms to the multi-class classification case is to use > the so-called one-vs-all scheme.

如果您的数据只有两种类型的标签，那么您可以直接将其提供给二元分类器。因此，一列足以以 One-Vs-Rest 方式捕获两个类。

二进制目标转换为列向量

>>> lb = preprocessing.LabelBinarizer()
>>> lb.fit_transform(['yes', 'no', 'no', 'yes'])
array([[1],
       [0],
       [0],
       [1]])

如果您的目的只是创建单热编码，请使用以下方法。

from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit_transform([['yes'], ['no'], ['no'], ['yes']]).toarray()
array([[0., 1.],
      [1., 0.],
      [1., 0.],
      [0., 1.]])

希望这能澄清您的问题，即为什么 Sklearn labelBinarizer() 不将 2 类数据转换为两列输出。

关于python - 使用 sklearn 预处理 Label Binarizer 的一种热编码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55359235/

python - 使用 sklearn 预处理 Label Binarizer 的一种热编码

上一篇：python - 如何使用 re.match 查找 URL 的第一部分？

下一篇：python - 如何在Python中的pandas中添加缺失值的列