python - 如何处理 pandas 数据框中的重复字段？

我想对从论坛上抓取的数据进行一些分析。这是我第一次做这样的事情，所以我的方法可能从一开始就是错误的，但这是我目前所拥有的。

我已经抓取了 17k 个讨论，每个讨论都包含一定数量的帖子(总共 78k 个帖子)。我已将所有内容存储在 6 列的数据框中。每一行对应一个帖子，列分别为:

'thread_id', 'thread_length', 'thread_title', 'post_number', 'post content' ,'poster'

正如您所看到的，属于该主题的值(标题、id 和长度)会重复很多次:例如，如果一个主题有 30 个帖子，则其 id、长度和标题将重复 30 次.

我的问题是:如何绘制线程长度的直方图？我可能应该只选择具有不同线程 id 值的长度值，但我不知道该怎么做。另外，我想必须有一种“更干净”的方式来组织这个数据框，所以我愿意接受任何建议。

最佳答案

这些列对我来说看起来不错。您可以使用:

df.drop_duplicates('thread_id').thread_length.plot.hist()

关于python - 如何处理 pandas 数据框中的重复字段？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49875667/