python计算csv列中唯一元素的数量

标签 python csv pandas unique counter

我正在尝试使用 Python 获取 csv 列中唯一项的计数。

示例 CSV 文件(没有标题):

AB,asd
AB,poi
AB,asd
BG,put
BG,asd

到目前为止我已经试过了。

import csv
from collections import defaultdict, Counter

input_file = open('Results/1_sample.csv')
csv_reader = csv.reader(input_file, delimiter=',')

data = defaultdict(list)
for row in csv_reader:
    data[row[0]].append(row[1])
for k, v in data.items():
    print k
    print Counter(v)

这给出了这种格式的输出:

AB
Counter({'asd': 2, 'poi': 1})
BG
Counter({'asd': 1, 'put': 1})

但我希望我的输出是这样的:

AB:2
BG:2
total_unique_count:3 #unique count of column[1], irrespective of the data in column[0]

最佳答案

您正在寻找 SeriesGroupby 方法 nunique :

In [11]: df
Out[11]:
    0    1
0  AB  asd
1  AB  poi
2  AB  asd
3  BG  put
4  BG  asd

In [12]: g = df.groupby(0)

In [13]: g[1].nunique()
Out[13]:
0
AB    2
BG    2
Name: 1, dtype: int64

关于python计算csv列中唯一元素的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29634417/

相关文章:

python - 如何避免从数据库中检索重复值?

python - 如何在Pandas数据框中的其他列中填充基于新列的值

python - 在来自每个客户端的几条消息后,Select 返回空套接字列表

python - for 循环中打印函数的语法无效

java - 如何根据java中的双引号分隔符将多个List<String>元素合并为一个

postgresql - 有什么简单的工具可以将 CSV 文件加载到 PostgreSQL 中吗?

python - 将数据保存到 CSV 文件后如何保持相同的数据类型?

python - 如何根据条件从另一个数据帧更新数据帧值

python - 如何将 Pydantic BaseModel 列表转换为 Pandas Dataframe

python - 从 csv 文件中切片行