我有一个与此类似的数据集:
category 1 category 2 prediction
X a 1
Y b 0
Z b 1
X a 1
Y a 0
Z b 0
X b 1
Y f 1
Z d 1
假设这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将包含类别 1
中的 15-20 种不同类型。 类别 1
中的每个类型都可以在类别 2
中拥有一个类型。例如。 X
可以有两次或三次 a
类型的条目以及两次 b
类型的条目。第三列是输出。我想在这样的数据集上训练模型,最后在训练模型后,我想传递任何一个 category 1
和 category 2
,例如:X
& a
- 这应该给我一个 1
或 0
的预测输出。我打算为此目的使用逻辑回归。
问题:
由于我有文本数据,我是否应该使用虚拟数据并为每种类型创建一列? (例如,由于我有
X
、Y
、Z
,我应该创建三个不同的列并分配1
或0
。我可以为此使用逻辑回归吗?或者它不适合我的应用程序? (我更愿意获得预测
1
的概率)
任何建议都会有帮助。
最佳答案
Logistic regression如果您的分类是基于每个类别的对数几率,则适合。对于二元分类,它的结果与同类方法没有太大差异。
是的,您应该使用“虚拟模型”来获取分类数据。这被称为“单热编码”,来自一种电气设计技术,在该技术中,在任何给定时间,簇中的一根电线将是“热”的(有电流)。对于您发布的数据,您将拥有类别 1 的三列和类别 2 的至少四列(a、b、d、f)。
关于machine-learning - 具有文本特征的数据集的逻辑回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51850210/