machine-learning - 具有文本特征的数据集的逻辑回归

标签 machine-learning logistic-regression feature-engineering

我有一个与此类似的数据集:

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

假设这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将包含类别 1 中的 15-20 种不同类型。 类别 1 中的每个类型都可以在类别 2 中拥有一个类型。例如。 X 可以有两次或三次 a 类型的条目以及两次 b 类型的条目。第三列是输出。我想在这样的数据集上训练模型,最后在训练模型后,我想传递任何一个 category 1category 2,例如:X & a - 这应该给我一个 10 的预测输出。我打算为此目的使用逻辑回归。

问题:

  1. 由于我有文本数据,我是否应该使用虚拟数据并为每种类型创建一列? (例如,由于我有 XYZ,我应该创建三个不同的列并分配 10

  2. 我可以为此使用逻辑回归吗?或者它不适合我的应用程序? (我更愿意获得预测 1 的概率)

任何建议都会有帮助。

最佳答案

Logistic regression如果您的分类是基于每个类别的对数几率,则适合。对于二元分类,它的结果与同类方法没有太大差异。

是的,您应该使用“虚拟模型”来获取分类数据。这被称为“单热编码”,来自一种电气设计技术,在该技术中,在任何给定时间,簇中的一根电线将是“热”的(有电流)。对于您发布的数据,您将拥有类别 1 的三列和类别 2 的至少四列(a、b、d、f)。

关于machine-learning - 具有文本特征的数据集的逻辑回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51850210/

相关文章:

scala - 如何使用键将值映射到Spark DataFrame中的列

machine-learning - 具有多个类别的 NER 的 CRF

python - 我的 Andrew Ng 类(class)的逻辑回归梯度 Python 代码不起作用

python - 带有附加参数的自定义聚合原语?

scikit-learn - class_weight 在 linearSVC 和 LogisticRegression 损失函数中的作用

python - 逻辑回归成本变化变为恒定

machine-learning - 不平衡数据的特征工程

machine-learning - 具有非整数特征值的逻辑回归

python - 神经网络回归预测所有测试样本的相同值

python - Scikit Learn RFECV 值错误 : continuous is not supported