我想对从论坛上抓取的数据进行一些分析。这是我第一次做这样的事情,所以我的方法可能从一开始就是错误的,但这是我目前所拥有的。
我已经抓取了 17k 个讨论,每个讨论都包含一定数量的帖子(总共 78k 个帖子)。我已将所有内容存储在 6 列的数据框中。每一行对应一个帖子,列分别为:
'thread_id', 'thread_length', 'thread_title', 'post_number', 'post content' ,'poster'
正如您所看到的,属于该主题的值(标题、id 和长度)会重复很多次:例如,如果一个主题有 30 个帖子,则其 id、长度和标题将重复 30 次.
我的问题是:如何绘制线程长度的直方图?我可能应该只选择具有不同线程 id 值的长度值,但我不知道该怎么做。另外,我想必须有一种“更干净”的方式来组织这个数据框,所以我愿意接受任何建议。
最佳答案
这些列对我来说看起来不错。您可以使用:
df.drop_duplicates('thread_id').thread_length.plot.hist()
drop_duplicates
仅通过考虑thread_id
列来识别重复项,并保留第一次出现的位置(默认情况下)。- 然后我获取
thread_length
列, - 它为您提供了一个
Series
,您可以使用hist
方法plot
来获取直方图。
关于python - 如何处理 pandas 数据框中的重复字段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49875667/