c++ - 有没有实现流式分词器的 C++ 库?

标签 c++ tokenize

遵循这个接口(interface)的东西:

class StreamTokenizer
{
public:
    StreamTokenizer(const std::string delimiter);
    std::list<std::string> add_data(const std::string);
    std::string get_left_over();
};
StreamTokenizer d(" ");
std::list<std::string> tokens;
tokens.append(d.add_data("tok"));
tokens.append(d.add_data("1 t"));
tokens.append(d.add_data("ok2 tok3"));
tokens.push_back(d.get_left_over());
// tokens = {tok1, tok2, tok3}
// d = {}

它以 block 的形式接收数据,它应该返回它到目前为止找到的所有标记,它应该能够将剩余的连接到下一个 block ,并且它不应该保存已经标记化的数据。

请不要建议使用 stringstream,除非你能展示如何从中删除已经标记化的数据(我的流几乎是无限的)

最佳答案

是的,它叫做“标准库”。

您要求的内容似乎在流可以轻松处理的范围内。

std::stringstream d;

d << "tok";
d << "1 t";
d << "ok2 tok3";

std::vector<std::string> tokens((std::istream_iterator<std::string>(d)),
                                 std::istream_iterator<std::string>());

for (std::string s : tokens)
    std::cout << s << "\n";

结果:

tok1
tok2
tok3

我没有在这里显示“获取其余部分”功能。我想 istream::read 可能是显而易见的选择。

我想我应该补充一点:默认情况下,字符串将在流解释为空白的任何地方被打断,而不仅仅是空格字符。您可以通过编写自定义 ctype facet 并将该 facet 注入(inject)流来更改它解释为空白的内容。例如,我在 a previous answer 中展示了如何为 -/ 执行此操作。 .

关于c++ - 有没有实现流式分词器的 C++ 库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16970417/

相关文章:

java - 如何将 StringTokenizer 中的分隔符添加到单独的字符串中?

c - 在 C 中使用多字符定界符拆分 char 字符串

C++ 运算符优先级和返回语句

node.js - 确保我的 API 仅适用于我的前端

java - 使用正则表达式解析大字符串以获取 java.lang.StackOverflowError 错误

c++ - C++使用删除的函数错误进行条件初始化

java - java中字母表的字符串分词器

c++ - Linux 多线程应用程序中的中断生成 SIGSEGV

c++ - 默认与推导的模板参数?

c++ - CMake无法在不同的静态库中检测符号冲突