c++ - 解析数据的正则表达式

标签 c++ regex

我正在编写一个从简单文本文件中读取一些数据的应用程序。数据文件, 我感兴趣的,具有以下形式的行:

Mem(100) = 120
Mem(200) = 231
Mem(43) = 12
...
Mem(1293) = 12.54

所以,正如你所理解的,每一行的模式是这样的

(\s)*(\t)*Mem([0-9]*) (\s,\t)*= (\s,\t)*[0-9]*(.)*[0-9]*

就像我在字符序列“Mem”之前有任意数量的空格,然后是 一个左括号。然后,有一个数字和一个右括号。之后,有任意数量的空格,直到遇到“=”(等于)字符。然后,任意数量的空格,直到我遇到一个(可能) float 。

如何在 C++ 正则表达式模式中表达它?我对 C++ 中的正则表达式概念真的很陌生,所以我需要一些帮助。

谢谢

最佳答案

首先,记得给#include <regex> .

C++ std::regex_match就像其他语言中的正则表达式一样工作。

让我们从一个简单的例子开始:

std::string str = "Mem(100)=120";
std::regex regex("^Mem\\([0-9]+\\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;

在这种情况下,我们的正则表达式是 ^Mem\([0-9]+\)=[0-9]+$ . 让我们看看它做了什么:

  • ^开头告诉 C++ 这是该行开始的地方,所以 AMem(1)=2不应该匹配。
  • $最后告诉 C++ 这是行结束的地方,所以 Mem(1)=2x不应该匹配。
  • \\(是文字 (特点。 (在正则表达式中有非常特殊的含义,所以我们将其转义 \( .然而,\字符在 C++ 字符串中有特殊含义,所以我们使用 \\(告诉 C++ 传递 \(到正则表达式引擎。
  • [0-9]匹配一个数字。 \\d应该也可以,但是 then again maybe not .
  • [0-9]+表示至少一个 数字。如果Mem()可以接受,然后使用 [0-9]*相反。

如您所见,这就像您在其他语言(例如 Java 或 C#)中找到的正则表达式。

现在,要考虑空格,请使用 std::regex regex("^\\s*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+\\s*$");

请注意 \s包括 \t ,因此无需同时指定两者。如果没有,您将使用 (\s|\t)[\s\t] , 不是 (\s,\t) .

最后,要包含 float ,我们首先需要考虑是否 Mem(1) = 1. (即后面没有数字的点)是可以接受的。

如果不是,则 .231.23可选的。在正则表达式中,我们使用 ?以表明这一点。

std::regex regex("^[\\s]*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+(\\.[0-9]+)?\\s*$");

请注意,我们使用 \.而不仅仅是 . . .在正则表达式中有特殊含义 - 它匹配任何字符 - 所以我们需要对它进行转义。

如果您有支持原始字符串的编译器(例如 Visual Studio 2013GCC 4.5Clang 3.0 ),您可以简化正则表达式字符串:

std::regex regex(R"(^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$)")

要提取有关匹配字符串的信息,您可以使用 std::smatch

让我们从一个小改动开始:

std::string str = " Mem(100)=120";
std::regex regex("^[\\s]*Mem\\(([0-9]+)\\)\\s*=\\s*([0-9]+(\\.[0-9]+)?)\\s*$");
std::smatch m;

std::cout << std::regex_match(str, m, regex) << std::endl;

注意三件事:

  1. 我们添加了 smatch .此类存储有关比赛的额外结果信息。
  2. 我们在 [0-9]* 周围添加了额外的括号.这定义了一个组。组告诉正则表达式引擎跟踪其中的任何内容。
  3. float 周围有更多括号。这定义了第二组。

非常重要的是,定义组的括号不会被转义,因为我们不希望它们匹配实际的括号字符。我们实际上想要特殊的正则表达式含义。

现在我们有了组,我们可以使用它们了:

for (auto result : m) {
    std::cout << result << std::endl;
}

这将首先打印整个字符串,然后是 Mem() 中的数字, 然后是最终数字。

换句话说,m[0]给了我们整场比赛,m[1]给我们第一组,m[2]给我们第二组和m[3]如果我们有的话,会给我们第三组。

关于c++ - 解析数据的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19327562/

相关文章:

c++ - QDir entryList可以透明地使用文件夹快捷方式吗

c++ - 只有重量的背包

c++ - 母题库(C)的列包装RowColumn类?

java - 字符串模式、正则表达式

python 正则表达式 txt

c++ - 错误 C2227 : left of '->' "function name" template class error

关于图形/渲染的 C++/CLI 或纯 C++

java - 为 JTable 单元格中的文本着色

PHP 正则表达式 : each word must end with dot

php - 正则表达式查找以空格分隔的连续新行