python - 遍历 pandas 中的行并计算唯一的主题标签

标签 python pandas counter series unique-values

我有一个包含数千条推文的 csv 文件。假设数据如下:

Tweet_id   hashtags_in_the_tweet

Tweet_1    [trump, clinton]
Tweet_2    [trump, sanders]
Tweet_3    [politics, news]
Tweet_4    [news, trump]
Tweet_5    [flower, day]
Tweet_6    [trump, impeach]

如您所见,数据包含 tweet_id 和每条推文中的主题标签。我想要做的是去所有的行,最后给我一些像值计数的东西:

Hashtag    count
trump      4
news       2
clinton    1
sanders    1
politics   1
flower     1
obama      1
impeach    1

考虑到 csv 文件包含 100 万行(100 万条推文),执行此操作的最佳方法是什么?

最佳答案

使用np.unique

v,c=np.unique(np.concatenate(df.hashtags_in_the_tweet.values),return_counts=True)

#pd.DataFrame({'Hashtag':v,'Count':c})

即使问题看起来不同,但仍然相关unnesting问题

unnesting(df,['hashtags_in_the_tweet'])['hashtags_in_the_tweet'].value_counts()

关于python - 遍历 pandas 中的行并计算唯一的主题标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53530816/

相关文章:

python - 通过名称获取对嵌入式 python 函数的 C 引用?

python - 使用 nodejs 作为服务器使用 Python 发出 socket.io 消息

python - 使用 pandas str.find 方法对数据框列中的字符串进行切片

java - 倒计时服务器端实现

python:从收集计数器获取百分比

python - Django - 如何将值从 <a href> 传递到 View

python - 如何使用 postman 从 Django Rest Framework 获取 token

python - 对多个 NumPy 数组进行逻辑或运算

python - 你如何从 Bokeh 中的 Pandas GroupBy 绘图?

python - "pythonic"填充词袋的方法