python - 为什么连接两个数据帧时样本大小不同?

标签 python pandas dataframe dimension

我分别转换了训练集和测试集,以使用 pandas.get_dummies() 获取分类特征的虚拟对象。
因此,由于训练集和测试集的类别差异而出现维度差异。
我试图使尺寸相等。
但是出现了下面的问题。
连接两个数据帧时为什么样本大小不同?

enter image description here

最佳答案

我认为X_train.index中没有默认的RangeIndex,因此需要在concat之前创建它:

X_train = X_train.reset_index(drop=True)

另一个解决方案是在两个 DataFrame 中为相同索引添加参数 index:

diff_df2 = pd.Dataframe(np.zeros((X_train.shape[0], len(diff_dummy2))), 
                        columns=diff_dummy2,
                        index= X_train.index)

关于python - 为什么连接两个数据帧时样本大小不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54376792/

相关文章:

python - base64 类型错误,TypeError : expected bytes, 不是 str

python - 如何在 python 中正确关闭 gobject 主循环?

python - 将无法转换为整数的值替换为零 python pandas

python - 导出 CSV 显示 ImportError : cannot import name 'CompressionOptions' from 'pandas._typing'

python - 使用 pandas 查找数据框中重复句子的数量

python - KDE 有两点失败?

python - Mongo UUID python vs java 格式

python - Pandas 按日期时间分组

r - 按数据框行计算小于 x 的值数

将数据框中的列重新排序为指定的顺序