python - 在 CSV 文件中查找多次出现的对

标签 python list python-2.7 csv find-occurrences

我正在尝试编写一个 Python 脚本,该脚本将搜索 CSV 文件并确定两个项目彼此相邻出现时的出现次数。

例如,假设 CSV 如下所示:

red,green,blue,red,yellow,green,yellow,red,green,purple,blue,yellow,red,blue,blue,green,purple,red,blue,blue,red,green 

我想找出“红色、绿色”相邻出现的次数(但我想要一个不仅仅针对此 CSV 中的单词的解决方案)。

到目前为止,我认为将 CSV 转换为列表可能是一个好的开始:

import csv
with open('examplefile.csv', 'rb') as f:
    reader = csv.reader(f)
    your_list = list(reader)

print your_list

返回:

[['red', 'green', 'blue', 'red', 'yellow', 'green', 'yellow', 'red', 'green', 'purple', 'blue', 'yellow', 'red', 'blue', 'blue', 'green', 'purple', 'red', 'blue', 'blue', 'red', 'green ']]

在这个列表中,'red', 'green' 出现了 3 次——我可以使用什么方法/模块/循环结构来确定是否存在不止一次列表中的两个项目在列表中彼此相邻?

最佳答案

您要查找的内容称为二元组(两个单词对)。您通常会在文本挖掘/NLP 类型的问题中看到这些问题。试试这个:

from itertools import islice, izip
from collections import Counter
print Counter(izip(your_list, islice(your_list, 1, None)))

返回:

Counter({('red', 'green'): 3, ('red', 'blue'): 2, ('yellow', 'red'): 2, ('green', 'purple'): 2, ('blue', 'blue'): 2, ('blue', 'red'): 2, ('purple', 'blue'): 1, ('red', 'yellow'): 1, ('green', 'blue'): 1, ('purple', 'red'): 1, ('blue', 'yellow'): 1, ('blue', 'green'): 1, ('yellow', 'green'): 1, ('green', 'yellow'): 1})

如果您只需要获取出现次数超过 1 次的项目,请将 Counter 对象视为 python dict。

counts = Counter(izip(your_list, islice(your_list, 1, None)))
print [k for k,v in counts.iteritems() if v  > 1]

所以你只有相关的配对:

[('red', 'blue'), ('red', 'green'), ('yellow', 'red'), ('green', 'purple'), ('blue', 'blue'), ('blue', 'red')]

请参阅我借用一些代码的帖子:Counting bigrams (pair of two words) in a file using python

关于python - 在 CSV 文件中查找多次出现的对,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30657325/

相关文章:

macos - 虚拟环境列表

python - 在Python Pandas 数据框中对唯一值进行分组和计数

python - 如何在 Python 中绘制多元函数?

java - 链表删除方法

python - 通过返回迭代器而不是列表来节省 Py3k 内存

python - 如何创建具有多种原因的python异常?

python - 如何在 python 中使用单个进程扩展 psycopg2 插入和选择?

python - 如何从一个 numpy float 组创建一个 numpy 标签数组?

python - 从python中的字典列表中写出一个csv文件

python - 不同时区的两个 `time` 对象的比较