machine-learning - 具有文本特征的数据集的逻辑回归

标签 machine-learning logistic-regression feature-engineering

我有一个与此类似的数据集:

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

假设这是三列。我想提一下，第 1 列和第 2 列是文本特征，而不是数字数据。我的输入数据将包含类别 1 中的 15-20 种不同类型。 类别 1 中的每个类型都可以在类别 2 中拥有一个类型。例如。 X 可以有两次或三次 a 类型的条目以及两次 b 类型的条目。第三列是输出。我想在这样的数据集上训练模型，最后在训练模型后，我想传递任何一个 category 1 和 category 2，例如:X & a - 这应该给我一个 1 或 0 的预测输出。我打算为此目的使用逻辑回归。

问题:

由于我有文本数据，我是否应该使用虚拟数据并为每种类型创建一列？ (例如，由于我有 X、Y、Z，我应该创建三个不同的列并分配 1 或0。
我可以为此使用逻辑回归吗？或者它不适合我的应用程序？ (我更愿意获得预测 1 的概率)

任何建议都会有帮助。

最佳答案

Logistic regression如果您的分类是基于每个类别的对数几率，则适合。对于二元分类，它的结果与同类方法没有太大差异。

是的，您应该使用“虚拟模型”来获取分类数据。这被称为“单热编码”，来自一种电气设计技术，在该技术中，在任何给定时间，簇中的一根电线将是“热”的(有电流)。对于您发布的数据，您将拥有类别 1 的三列和类别 2 的至少四列(a、b、d、f)。

关于machine-learning - 具有文本特征的数据集的逻辑回归，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51850210/

上一篇：machine-learning - 样本权重在分类模型中如何发挥作用？

下一篇：machine-learning - 将所有特征置于与目标变量相同的范围内对性能有何影响？

相关文章：

scala - 如何使用键将值映射到Spark DataFrame中的列

machine-learning - 具有多个类别的 NER 的 CRF

python - 我的 Andrew Ng 类(class)的逻辑回归梯度 Python 代码不起作用

python - 带有附加参数的自定义聚合原语？

scikit-learn - class_weight 在 linearSVC 和 LogisticRegression 损失函数中的作用

python - 逻辑回归成本变化变为恒定

machine-learning - 不平衡数据的特征工程

machine-learning - 具有非整数特征值的逻辑回归

python - 神经网络回归预测所有测试样本的相同值

python - Scikit Learn RFECV 值错误 : continuous is not supported

©2024 IT工具网联系我们