嘿,大家好,我一直在编写这段代码来计算文本文档中出现的字符串数量,这是我之前的问题,代码如下所示:
from collections import Counter
with open("C:\\Documents and Settings\\Zha\\Desktop\\stringResult\\sguresult_lenght10.txt") as f:
content = f.read()
a = Counter(content.split()).most_common()
for line in a:
print line
打印行的结果示例如下
('KERNEL32.dll', 58)
('not', 49)
('.data', 49)
("nRX|'", 20)
('xZGVr', 20)
('TyN*u', 20)
('[Wu^D', 20)
逗号之前的部分是字符串,接下来的部分是出现的次数 现在的问题是我需要删除外面的所有括号和中间的 ' ' 单引号,只留下字符串和数字,即
KERNEL32.dll, 58
not, 49
.data, 49
etc
我一直在尝试使用正则表达式,但似乎我可能会弄错模式,因为单引号有时是字符串本身的第一部分。有什么简单的方法可以解决这个问题吗?谢谢
最佳答案
你可以使用这个:
for line in a:
print '%s, %s' % (line[0], line[1])
关于Python 计数器,用于计算输出中列出的最常见字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24040207/