numpy - 处理具有数字属性的标称值的策略

标签 numpy machine-learning pandas scikit-learn feature-selection

我使用的数据集主要由来自 SFDC 的名义值(例如 EE 名称、职位、角色、潜在客户来源、帐户名称等)组成，并且尝试将这些特征与是否销售线索已转换为销售联系人。

我想通过一些基本的特征选择算法来运行这些数据，但大多数只需要数值。我可以使用 bool 映射方案将每个独特的分类映射到新字段(特征)，但随后我将生成大量新特征，并且我不确定这是否会产生有意义的输出。诚然，最好的解决方案可能是通过决策树运行数据，但想看看社区中其他人是否提出了其他策略来处理已在现实世界中成功使用的大多数名义数据的数据集应用程序。

我使用 python 和 scipy/numpy/pandas/scikit-learn 来进行分析。

最佳答案

我首先尝试使用sklearn.feature_extraction.DictVectorizer然后尝试可以处理稀疏数据表示的 Chi2 单变量特征选择。例如，scikit-learn 中有一个 chi2 特征选择在稀疏文本数据上的应用:http://scikit-learn.org/dev/auto_examples/document_classification_20newsgroups.html

不幸的是，scikit-learn 的决策树和集成尚不适用于稀疏表示。

关于numpy - 处理具有数字属性的标称值的策略，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15327099/

上一篇：machine-learning - Mahout 分类器训练数据的预处理

下一篇：machine-learning - 贝叶斯设置中 l2 正则化的参数形式应该是什么？

相关文章：

python - 在 Numpy 中连接空数组

python - NumPy 版本的 "Exponential weighted moving average"，相当于 pandas.ewm().mean()

machine-learning - 如何为火灾探测系统创建机器学习模型？

optimization - 专门针对误报的二元分类目标

python - pandas groupby 对汇总统计数据进行排序

python - 这是获得随机舍入解决方案的正确方法吗？

numpy - numba git : failed type inference due to: non-precise type pyobject

python - Tensorflow Inception V3 无法加载计算图

python - 如何根据 Pandas 中的一列列表组合两个数据框

python - 按组 pandas 选择每 n 个观察值