我正在尝试使用 sklearn.preprocessing.LabelBinarizer()
创建仅包含两列标签的单热编码,即我只想对两组对象进行分类。在这种情况下,当我使用 fit(range(0,2))
时,它只返回一个一维数组,而不是 2x1。这很好,但是当我想在 Tensorflow
中使用它们时,为了尺寸一致性,形状实际上应该是 (2,1)。请告诉我如何解决它。
代码如下:
from sklearn import preprocessing
lb = preprocessing.LabelBinarizer()
lb.fit(range(0, 3))
调用lb.transform([1, 0])
,结果为:
[[0 1 0]
[1 0 0]]
而当我们将 3 更改为 2 时,即 lb.fit(range(0, 2))
,结果将是
[[1]
[0]]
代替
[[0 1]
[1 0]]
这将在与具有 n
维度的数组一致工作的算法中产生问题。有什么办法可以解决这个问题吗?
最佳答案
labelBinarizer()
的用途根据 documentation是
Binarize labels in a one-vs-all fashion
Several regression and binary classification algorithms are available in scikit-learn. A simple way to extend these algorithms to the multi-class classification case is to use > the so-called one-vs-all scheme.
如果您的数据只有两种类型的标签,那么您可以直接将其提供给二元分类器。因此,一列足以以 One-Vs-Rest 方式捕获两个类。
二进制目标转换为列向量
>>> lb = preprocessing.LabelBinarizer()
>>> lb.fit_transform(['yes', 'no', 'no', 'yes'])
array([[1],
[0],
[0],
[1]])
如果您的目的只是创建单热编码,请使用以下方法。
from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit_transform([['yes'], ['no'], ['no'], ['yes']]).toarray()
array([[0., 1.],
[1., 0.],
[1., 0.],
[0., 1.]])
希望这能澄清您的问题,即为什么 Sklearn labelBinarizer()
不将 2 类数据转换为两列输出。
关于python - 使用 sklearn 预处理 Label Binarizer 的一种热编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55359235/