我分别转换了训练集和测试集,以使用 pandas.get_dummies()
获取分类特征的虚拟对象。
因此,由于训练集和测试集的类别差异而出现维度差异。
我试图使尺寸相等。
但是出现了下面的问题。
连接两个数据帧时为什么样本大小不同?
最佳答案
我认为X_train.index
中没有默认的RangeIndex
,因此需要在concat
之前创建它:
X_train = X_train.reset_index(drop=True)
另一个解决方案是在两个 DataFrame
中为相同索引添加参数 index
:
diff_df2 = pd.Dataframe(np.zeros((X_train.shape[0], len(diff_dummy2))),
columns=diff_dummy2,
index= X_train.index)
关于python - 为什么连接两个数据帧时样本大小不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54376792/