我必须编写一个正则表达式来从文本中获取三个词。单词之间用一个空格隔开。我写的代码并没有给出所有的序列。 例如,对于文本“一二三四五六”,我只有两个序列:1.一二三 2.四五六。但我希望我的正则表达式给我所有序列,所以输出将是:1.一二三 2.二三四 3.三四五。 4.四五六。 有人可以告诉我我的正则表达式有什么问题吗? 这是我的代码:
string input = "one two three four five six";
string pattern = @"([a-zA-Z]+ ){2}[a-zA-Z]+";
Regex rgx = new Regex(pattern, RegexOptions.IgnoreCase);
MatchCollection matches = rgx.Matches(input);
if (matches.Count > 0)
{
Console.WriteLine("{0} ({1} matches):", input, matches.Count);
Console.WriteLine();
foreach (Match match in matches)
Console.WriteLine(match.Value);
}
Console.ReadLine();
最佳答案
您的正则表达式没有任何问题 - 这就是正则表达式的工作方式。当您找到一个匹配项时,将在您刚刚找到的匹配项的末尾继续搜索下一个匹配项 - 匹配项的宽度消耗。
那么,如何解决这个问题呢?一种方法是让你的比赛不消耗任何东西。您可以通过将原始模式放在零宽度正先行断言中来做到这一点:
string pattern = @"(?=([a-zA-Z]+ ){2}[a-zA-Z]+)";
added ---> *** *
(?=pattern)
说“只有在紧接着匹配 pattern
的东西之后才匹配” - 但内容匹配 pattern
不是整体匹配的一部分,因此不会被消耗。
如果它不是匹配项的一部分,它就不会出现在 match.Value
中- 那么你如何获得值(value)呢?简单 - 只需在原始模式周围添加一个捕获组(即 (?=(pattern))
),捕获的组将正常出现在您的结果中。
string pattern = @"(?=(([a-zA-Z]+ ){2}[a-zA-Z]+))";
added ---> * *
现在,您可以查看您的 foreach
像以前一样循环,但是 match.Value
将为空 - 您想要的结果在 match.Groups[1].Value
中.
但是现在你有另一个问题。你的结果是
one two three
ne two three
e two three
two three four
wo three four
等等。这是因为您的模式匹配即使您从一个单词的中途开始。
如何解决这个问题?
我们添加另一个零宽度断言,这次是一个负向回顾:(?<![a-zA-Z])
.它不是说“仅当该点后跟模式时才匹配”,而是说“从不匹配如果该点之前是模式”。因此我们永远不会匹配前面有字母的点。 ne two three
不返回,例如,因为它前面有 o
.
string pattern = @"(?<![a-zA-Z])(?=(([a-zA-Z]+ ){2}[a-zA-Z]+))";
added ---> *************
有了这个模式,您终于得到了预期的结果。
关于c# - 从文本中提取 3 个词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14458555/