python - Sklearn 中的数据类型和机器学习算法

标签 python pandas machine-learning scikit-learn

有谁知道在滑雪套件学习中运行机器学习算法时变量的数据类型是否起着(负面)作用?

这里有一些可能会影响对此问题的回答的背景知识:我有一个包含 299 个变量的数据集,其中输出变量是虚拟变量。这将是一个分类问题,我想尝试不同的选项,例如逻辑回归和基于树的模型。当我用 pandas 导入数据集时,我注意到一些变量被分配了 int64 数据类型,而实际上,它们是分类变量。这对于机器学习算法来说会是一个问题吗?如果这是一个愚蠢的问题,请原谅我......我对机器学习世界还比较陌生,虽然我没有在有关该主题的文献中看到任何内容,但我确实想确保我之前不会偏离轨道我什至开始了。

最佳答案

它将用于 scikit-learn,因为 scikit-learn 不支持分类特征。它最终会将整数值视为数字特征,并且不会像您希望的那样表现。它确实支持以数字形式重新编码(请参阅 here ),但是与使用自然支持数字和分类特征的库和算法相比,这是次优的。

关于python - Sklearn 中的数据类型和机器学习算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34799176/

相关文章:

python - pandas.DataFrame.round 似乎不适用于我的 DataFrame - 舍入问题导致额外的数据存储在 csv 文件中

python - 对单个句子进行预测时,收到错误 "Number of features of the model must match the input."

python - 识别砖墙中的砖 block

python - 使用 Selenium 进行网页抓取

python - Django:以编程方式确定管理页面的路径?

python - 为什么在许多实现中变分自动编码器的损失与纸上的符号相反?

python - 学习率、动量和准确度的 3D 图

python - 合并多个列表理解

python - Pandas 将文本列导出为单个未转义的文本文件

python - 通过与训练数据的一致映射来分解实时数据?