c# - 从文本中提取 3 个词

我必须编写一个正则表达式来从文本中获取三个词。单词之间用一个空格隔开。我写的代码并没有给出所有的序列。例如，对于文本“一二三四五六”，我只有两个序列:1.一二三 2.四五六。但我希望我的正则表达式给我所有序列，所以输出将是:1.一二三 2.二三四 3.三四五。 4.四五六。有人可以告诉我我的正则表达式有什么问题吗？这是我的代码:

   string input = "one two three four five six";
   string pattern = @"([a-zA-Z]+ ){2}[a-zA-Z]+";
   Regex rgx = new Regex(pattern, RegexOptions.IgnoreCase);
   MatchCollection matches = rgx.Matches(input);
   if (matches.Count > 0)
   {
       Console.WriteLine("{0} ({1} matches):", input, matches.Count);
       Console.WriteLine();
       foreach (Match match in matches)
           Console.WriteLine(match.Value);
   }
   Console.ReadLine();

最佳答案

您的正则表达式没有任何问题 - 这就是正则表达式的工作方式。当您找到一个匹配项时，将在您刚刚找到的匹配项的末尾继续搜索下一个匹配项 - 匹配项的宽度消耗。

那么，如何解决这个问题呢？一种方法是让你的比赛不消耗任何东西。您可以通过将原始模式放在零宽度正先行断言中来做到这一点:

string pattern = @"(?=([a-zA-Z]+ ){2}[a-zA-Z]+)";
added --->         ***                        *

(?=pattern)说“只有在紧接着匹配 pattern 的东西之后才匹配” - 但内容匹配 pattern不是整体匹配的一部分，因此不会被消耗。

如果它不是匹配项的一部分，它就不会出现在 match.Value 中- 那么你如何获得值(value)呢？简单 - 只需在原始模式周围添加一个捕获组(即 (?=(pattern)) )，捕获的组将正常出现在您的结果中。

string pattern = @"(?=(([a-zA-Z]+ ){2}[a-zA-Z]+))";
added --->            *                        *

现在，您可以查看您的 foreach像以前一样循环，但是 match.Value将为空 - 您想要的结果在 match.Groups[1].Value 中.

但是现在你有另一个问题。你的结果是

one two three
ne two three
e two three
two three four
wo three four

等等。这是因为您的模式匹配即使您从一个单词的中途开始。

如何解决这个问题？

我们添加另一个零宽度断言，这次是一个负向回顾:(?<![a-zA-Z]) .它不是说“仅当该点后跟模式时才匹配”，而是说“从不匹配如果该点之前是模式”。因此我们永远不会匹配前面有字母的点。 ne two three不返回，例如，因为它前面有 o .

string pattern = @"(?<![a-zA-Z])(?=(([a-zA-Z]+ ){2}[a-zA-Z]+))";
added --->         *************

有了这个模式，您终于得到了预期的结果。

关于c# - 从文本中提取 3 个词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14458555/

c# - 从文本中提取 3 个词

上一篇：c# - 在按钮单击、回发问题上动态加载用户控件

下一篇：c# - 如何在 visual studio 2010 安装项目中设置 "run as administrator"特权？