python - 如何处理文本和数字特征的组合？

查看 Kaggel 的 Job Salary Prediction ，我看到数字特征(如类别)和文本特征(如 FullDescription)。

我如何着手对此类数据进行训练？我考虑过使用 TfidfTransformer 对文本进行矢量化，但是它创建了许多学习算法(例如 RandomForestRegressor)拒绝使用的稀疏矩阵。另外，一旦我有了文本的特征向量，我该如何将它与其他特征结合起来？

关于如何处理此类数据的任何指示？

谢谢!

最佳答案

我首先会独立学习每个文本字段的 tf-idf 特征的线性模型，然后将线性模型预测作为附加特征添加到其他特征中，然后训练 ExtraTreesRegressor 或 GradientBoostedTreeRegressor 组合特征。

关于python - 如何处理文本和数字特征的组合？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16827614/

相关文章：

Python:将对象序列化为json