查看 Kaggel 的 Job Salary Prediction ,我看到数字特征(如类别)和文本特征(如 FullDescription)。
我如何着手对此类数据进行训练?我考虑过使用 TfidfTransformer 对文本进行矢量化,但是它创建了许多学习算法(例如 RandomForestRegressor)拒绝使用的稀疏矩阵。另外,一旦我有了文本的特征向量,我该如何将它与其他特征结合起来?
关于如何处理此类数据的任何指示?
谢谢!
最佳答案
我首先会独立学习每个文本字段的 tf-idf 特征的线性模型,然后将线性模型预测作为附加特征添加到其他特征中,然后训练 ExtraTreesRegressor
或 GradientBoostedTreeRegressor
组合特征。
关于python - 如何处理文本和数字特征的组合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16827614/