python - 如何处理文本和数字特征的组合?

标签 python scikit-learn

查看 Kaggel 的 Job Salary Prediction ,我看到数字特征(如类别)和文本特征(如 FullDescription)。

我如何着手对此类数据进行训练?我考虑过使用 TfidfTransformer 对文本进行矢量化,但是它创建了许多学习算法(例如 RandomForestRegressor)拒绝使用的稀疏矩阵。另外,一旦我有了文本的特征向量,我该如何将它与其他特征结合起来?

关于如何处理此类数据的任何指示?

谢谢!

最佳答案

我首先会独立学习每个文本字段的 tf-idf 特征的线性模型,然后将线性模型预测作为附加特征添加到其他特征中,然后训练 ExtraTreesRegressor GradientBoostedTreeRegressor 组合特征。

关于python - 如何处理文本和数字特征的组合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16827614/

相关文章:

Python:将对象序列化为json

python - 我如何从Python脚本打印返回值(成功/失败)

python - 具有非正则化截距项的 Scikit-learn Ridge 回归

scikit-learn - 将 LightGBM/XGBoost 模型加载到 sklearn

python - Scikit-learn 多标签分类

python - 如何使用 Beautiful Soup 拉取没有属性的 <p> 标签?

python - Gmail API Users.Messages GET 元数据 header 格式

python - 按 dict.values 的数值对字典进行排序

python - 默认的 sklearn TfidfVectorizer 预处理器是做什么的?

python - 堆叠两个不同维度的稀疏矩阵