python - 如何将 Pandas 计算序列合并到 Pandas 数据框中

标签 python pandas machine-learning

我正在用 pandas 做一些计算,我的名为 data 的 Pandas 数据框如下:

用户id ------ hashtagcount

1034 ---- 3
1034 ---- 0
1034 ---- 5
1337 ---- 2
1337 ---- 1
1337 ---- 2
2288 ---- 6
.... ---- 。

我还有其他的专栏。我使用以下方法在我的 Pandas 数据集中选择具有重复值的行。例如,UserId 在上面出现了 3 次。

unique_spam_row=data[["UserID","UserCreatedAt","UserDescriptionLength","UserFollowersCount","UserFriendsCount","UserLocation"]]

我删除了重复的值。 spam_data=unique_spam_row.drop_duplicates()

但是 我需要在新的 spam_data 数据框中保存每个 UserID 的平均标签数。

我也是这样

spam=data.groupby('UserID')["HashtagCount"].sum()

我得到了

用户ID
1034 - 8
1337 - 5
2288 - 9
............

type(spam) 给我,它是一个系列,我需要添加这些 8、5、9 ....作为 spam_data 数据框中的 AvgHashtag 列,其中重复的行已经被删除...... 非常感谢您的建议。

最佳答案

我认为transform应该工作:

data['count'] = data.groupby('UserID')["HashtagCount"].transform('sum')

这将返回一个系列,其索引与原始 df 对齐,因此您可以将其正确添加为列

关于python - 如何将 Pandas 计算序列合并到 Pandas 数据框中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31424797/

相关文章:

python - 如何在Python中多次使用迭代器

python - pandas python 中没有列名

python - 提高分类交叉熵在四维预测和目标上的性能

python - 打印到远程 IPP/CUPS 服务器或打印机的最简单方法(在 python 中)是什么?

python - 如何解决退出暂停屏幕后时钟显示不正确的问题?

python - tkinter 小部件的 cnf 参数

python - 我们可以从 AWS S3 复制图像并将其写入 excel 文件(S3)而不使用 Python 在本地存储数据吗?

pandas - AttributeError : 'DataFrame' object has no attribute 'DataFrame'

python - 使用 OneVsRestClassifier 时全为零

javascript - 使用序列训练神经网络(当前未收敛)