遵循这个接口(interface)的东西:
class StreamTokenizer
{
public:
StreamTokenizer(const std::string delimiter);
std::list<std::string> add_data(const std::string);
std::string get_left_over();
};
StreamTokenizer d(" ");
std::list<std::string> tokens;
tokens.append(d.add_data("tok"));
tokens.append(d.add_data("1 t"));
tokens.append(d.add_data("ok2 tok3"));
tokens.push_back(d.get_left_over());
// tokens = {tok1, tok2, tok3}
// d = {}
它以 block 的形式接收数据,它应该返回它到目前为止找到的所有标记,它应该能够将剩余的连接到下一个 block ,并且它不应该保存已经标记化的数据。
请不要建议使用 stringstream,除非你能展示如何从中删除已经标记化的数据(我的流几乎是无限的)
最佳答案
是的,它叫做“标准库”。
您要求的内容似乎在流可以轻松处理的范围内。
std::stringstream d;
d << "tok";
d << "1 t";
d << "ok2 tok3";
std::vector<std::string> tokens((std::istream_iterator<std::string>(d)),
std::istream_iterator<std::string>());
for (std::string s : tokens)
std::cout << s << "\n";
结果:
tok1
tok2
tok3
我没有在这里显示“获取其余部分”功能。我想 istream::read
可能是显而易见的选择。
我想我应该补充一点:默认情况下,字符串将在流解释为空白的任何地方被打断,而不仅仅是空格字符。您可以通过编写自定义 ctype
facet 并将该 facet 注入(inject)流来更改它解释为空白的内容。例如,我在 a previous answer 中展示了如何为 -
和 /
执行此操作。 .
关于c++ - 有没有实现流式分词器的 C++ 库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16970417/