r - 机器学习的数据转换

标签 r python-2.7 numpy pandas graphlab

我有包含 SKU ID 及其计数的数据集,我需要将此数据输入机器学习算法,以使 SKU ID 成为列并且 COUNTs 位于事务 ID 和 SKU ID 的交集处。任何人都可以建议如何实现这种转变。

当前数据

TransID     SKUID      COUNT
1           31         1  
1           32         2 
1           33         1  
2           31         2  
2           34         -1  

所需数据

TransID      31      32      33      34
  1          1        2      1       0
  2          2        0      0       -1  

最佳答案

R 中,我们可以使用 xtabs

xtabs(COUNT~., df1)
#         SKUID
#TransID 31 32 33 34
#     1  1  2  1  0
#     2  2  0  0 -1

dcast

library(reshape2)
dcast(df1, TransID~SKUID, value.var="COUNT", fill=0)
#  TransID 31 32 33 34
#1       1  1  2  1  0
#2       2  2  0  0 -1

传播

library(tidyr)
spread(df1, SKUID, COUNT, fill=0)

关于r - 机器学习的数据转换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36806745/

相关文章:

python - numpy tostring 相当于 numpy fromstring

mysql - R中的序列化对象到mysql数据库

Django-CMS 3.0.3 发布页面会重复插件 django-cms-saq 中的数据

python - 如何在 Keras-Python 中输入二维数组?

python - 无法导入随机python

python-2.7 - numpy.distutils.system_info.NotFoundError : no lapack/blas resources found

python - 如何解释三维数据集?

r - 经常更新 R 包是个好习惯吗?

r - 如何在 R/RStudio 中安装 "developer mode"中的包?

r - 有没有办法在 Shiny 中设置 react 函数的优先级?