python - 如何处理 pandas 数据框中的重复字段?

标签 python pandas

我想对从论坛上抓取的数据进行一些分析。这是我第一次做这样的事情,所以我的方法可能从一开始就是错误的,但这是我目前所拥有的。

我已经抓取了 17k 个讨论,每个讨论都包含一定数量的帖子(总共 78k 个帖子)。我已将所有内容存储在 6 列的数据框中。每一行对应一个帖子,列分别为:

'thread_id', 'thread_length', 'thread_title', 'post_number', 'post content' ,'poster'

正如您所看到的,属于该主题的值(标题、id 和长度)会重复很多次:例如,如果一个主题有 30 个帖子,则其 id、长度和标题将重复 30 次.

我的问题是:如何绘制线程长度的直方图?我可能应该只选择具有不同线程 id 值的长度值,但我不知道该怎么做。另外,我想必须有一种“更干净”的方式来组织这个数据框,所以我愿意接受任何建议。

最佳答案

这些列对我来说看起来不错。您可以使用:

df.drop_duplicates('thread_id').thread_length.plot.hist()
  • drop_duplicates 仅通过考虑 thread_id 列来识别重复项,并保留第一次出现的位置(默认情况下)。
  • 然后我获取 thread_length 列,
  • 它为您提供了一个Series,您可以使用hist方法plot来获取直方图。

关于python - 如何处理 pandas 数据框中的重复字段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49875667/

相关文章:

csv - Pandas to_csv : how to format floats in a column with mixed types

python - 如何删除 Pandas 中以相同文本结尾的多个列?

python - iPython (python 2) - 导入错误 : No module named model_selection

python - 如何修复 .index() 方法返回错误的值?

python - Pandas 中的值错误

python - 比较数组中的 np.nan 时 "less"中的无效值

python - 从特定/dir/in循环运行多个scripts.py

python - Django Sentry 默认标签

python - yticklabels 在 Pandas 图中截断

python - 动态添加行到 DataFrame