python - 使用 sklearn 预处理 Label Binarizer 的一种热编码

标签 python scikit-learn

我正在尝试使用 sklearn.preprocessing.LabelBinarizer() 创建仅包含两列标签的单热编码,即我只想对两组对象进行分类。在这种情况下,当我使用 fit(range(0,2)) 时,它只返回一个一维数组,而不是 2x1。这很好,但是当我想在 Tensorflow 中使用它们时,为了尺寸一致性,形状实际上应该是 (2,1)。请告诉我如何解决它。

代码如下:

from sklearn import preprocessing
lb = preprocessing.LabelBinarizer()
lb.fit(range(0, 3))

调用lb.transform([1, 0]),结果为:

[[0 1 0]
 [1 0 0]]

而当我们将 3 更改为 2 时,即 lb.fit(range(0, 2)),结果将是

[[1]
 [0]]

代替

[[0 1]
 [1 0]]

这将在与具有 n 维度的数组一致工作的算法中产生问题。有什么办法可以解决这个问题吗?

最佳答案

labelBinarizer() 的用途根据 documentation

Binarize labels in a one-vs-all fashion

Several regression and binary classification algorithms are available in scikit-learn. A simple way to extend these algorithms to the multi-class classification case is to use > the so-called one-vs-all scheme.

如果您的数据只有两种类型的标签,那么您可以直接将其提供给二元分类器。因此,一列足以以 One-Vs-Rest 方式捕获两个类。

二进制目标转换为列向量

>>> lb = preprocessing.LabelBinarizer()
>>> lb.fit_transform(['yes', 'no', 'no', 'yes'])
array([[1],
       [0],
       [0],
       [1]])

如果您的目的只是创建单热编码,请使用以下方法。

from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit_transform([['yes'], ['no'], ['no'], ['yes']]).toarray()
array([[0., 1.],
      [1., 0.],
      [1., 0.],
      [0., 1.]])

希望这能澄清您的问题,即为什么 Sklearn labelBinarizer() 不将 2 类数据转换为两列输出。

关于python - 使用 sklearn 预处理 Label Binarizer 的一种热编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55359235/

相关文章:

python - Pyramid.security 问题 : Double cookies? 不安全的 cookie?过期?

python - 导入会使 Django 减慢多少?

python - python 中使用 SVM 进行机器学习的分类报告测试集出错

python - 使用python讲解onehotencoder

python - scikit-learn python 中带 Bootstrap 的随机森林 = False

python - NumPy 中的 x.shape[0] 与 x[0].shape

python - Python优先级队列中的二维数组

python - 使用 kivy.logger 记录变量的值

python - 在 Win10 机器上更新 scikit-learn 时出现“_remove_dead_weakref”错误

python - 为什么 classifier.predict() 方法期望测试数据中的特征数量与训练数据中的特征数量相同?