python - 如何将所有特征输入到一个向量列中

标签 python pandas dataframe pyspark

有一个像这样的数据框:

|   X1  |   X2  |   X3  |
| ----- | ----- | ----- |
| 11    | 12    | 4     |
| 22    | 16    | 10    |
| 12    | 17    | 75    |
| 42    | 3     | 6     |
            .
            .
            .

我怎样才能把它改成这样:

|  Attributes   | label |
| ------------- | ----- |
| (11,22,12,42) | 0     |
| (12,16,17,3)  | 0     |
| (4,10,75,6 )  | 0     |
            .
            .
            .

每一列都成为一个向量... 我知道如何做相反的事情,即使用 VectorAssembler 将每行的所有值放入向量中,但我不知道如何将每列的所有值放入这样的向量中.

任何帮助将不胜感激。

最佳答案

但是,你可以这样做

In [33]: pd.DataFrame([[tuple(df[c]), 0] for c in df], columns=['Attributes', 'label'])
Out[33]: 
         Attributes  label
0  (11, 22, 12, 42)      0
1   (12, 16, 17, 3)      0
2    (4, 10, 75, 6)      0

但是,在数据框中存储这样的元组效率不高。

关于python - 如何将所有特征输入到一个向量列中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66732622/

相关文章:

python - 从 pandas 生成 QVD 文件?

pandas - 如何从 Pandas 中的两个数据帧做条件映射

python - dateutil.parser.parse 不返回正确的日期时间

python - KeyError 更改数据框中的列

python - 查找列表中标签关系的频率(成对相关?)

python - 这段代码中是如何引用这个execute函数的?

python - 如何使用opencv在python代码中输入OBS虚拟凸轮?

python - 使用 Django 的用户模型后,我的数据填充不再起作用。为什么?

python - 如何在 Scikit-Learn 中重用 LabelBinarizer 进行输入预测

python - 有没有办法在不满足条件的情况下替换值以避免 nan?