我有以下排序数据:
AAA
AAA
TCG
TTT
TTT
TTT
我想统计每个字符串出现的次数:
AAA 2
TCG 1
TTT 3
我知道我可以使用 uniq -c
来做到这一点,但在这里我需要对我拥有的整个 C++ 代码进行额外的处理。
我坚持这个结构(根据“pgras”建议修改):
#include <iostream>
#include <vector>
#include <fstream>
#include <sstream>
using namespace std;
int main ( int arg_count, char *arg_vec[] ) {
if (arg_count !=2 ) {
cerr << "expected one argument" << endl;
return EXIT_FAILURE;
}
string line;
ifstream myfile (arg_vec[1]);
if (myfile.is_open())
{
int count;
string lastTag = "";
while (getline(myfile,line) )
{
stringstream ss(line);
string Tag;
ss >> Tag; // read first column
//cout << Tag << endl;
if (Tag != lastTag) {
lastTag = Tag;
count = 0;
}
else {
count++;
}
cout << lastTag << " " << count << endl;
}
cout << lastTag << " " << count << endl;
myfile.close();
}
else {cout << "Unable to open file";}
return 0;
}
它打印出这个错误的结果:
AAA 0
AAA 1
TCT 0
TTT 0
TTT 1
TTT 2
TTT 2
最佳答案
当标签与 lastTag 不同时,您必须重置计数器,如果相同则递增...当标签不同时,您可以处理前一个标签及其关联的计数值(在重置计数之前)...
关于c++ - 计算排序字符串的算法(自制软件 "uniq -c"),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/633881/