我有一个类似这样的列表:
list = ['Opinion, Journal, Editorial',
'Opinion, Magazine, Evidence-based',
'Evidence-based']
逗号在类别之间分隔,例如。意见和期刊是两个不同的类别。真正的列表要大得多,并且有更多可能的类别。我想使用 one-hot encoding 来转换列表,以便它可以用于机器学习。例如,我想从该列表中生成一个包含如下数据的稀疏矩阵:
list = [[1, 1, 1, 0, 0],
[1, 0, 0, 0, 1],
[0, 0, 0, 0, 1]]
理想情况下,我想使用 scikit-learn's one hot encoder因为我认为这是最有效的。
回应@nbrayns评论:
想法是将类别列表从文本转换为向量,如果它属于该类别,它将被分配 1,否则分配 0。对于上面的示例,标题将是:
headings = ['Opinion', 'Journal', 'Editorial', 'Magazine', 'Evidence-based']
最佳答案
如果您能够使用 Pandas,则此功能基本上是内置的:
import pandas as pd
l = ['Opinion, Journal, Editorial', 'Opinion, Magazine, Evidence-based', 'Evidence-based']
pd.Series(l).str.get_dummies(', ')
Editorial Evidence-based Journal Magazine Opinion
0 1 0 1 0 1
1 0 1 0 1 1
2 0 1 0 0 0
如果您想坚持使用 sklearn
生态系统,您正在寻找 MultiLabelBinarizer
,而不是 OneHotEncoder
。顾名思义,OneHotEncoder
仅支持每个类别每个样本一个级别,而您的数据集有多个级别。
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer() # pass sparse_output=True if you'd like
mlb.fit_transform(s.split(', ') for s in l)
[[1 0 1 0 1]
[0 1 0 1 1]
[0 1 0 0 0]]
要将列映射回分类级别,您可以访问 mlb.classes_
。对于上面的示例,这给出了 ['Editorial' 'Evidence-based' 'Journal' 'Magazine' 'Opinion']
。
关于python - 类别的一次性编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42034338/