c# - 从文本中提取 3 个词

标签 c# regex

我必须编写一个正则表达式来从文本中获取三个词。单词之间用一个空格隔开。我写的代码并没有给出所有的序列。 例如,对于文本“一二三四五六”,我只有两个序列:1.一二三 2.四五六。但我希望我的正则表达式给我所有序列,所以输出将是:1.一二三 2.二三四 3.三四五。 4.四五六。 有人可以告诉我我的正则表达式有什么问题吗? 这是我的代码:

   string input = "one two three four five six";
   string pattern = @"([a-zA-Z]+ ){2}[a-zA-Z]+";
   Regex rgx = new Regex(pattern, RegexOptions.IgnoreCase);
   MatchCollection matches = rgx.Matches(input);
   if (matches.Count > 0)
   {
       Console.WriteLine("{0} ({1} matches):", input, matches.Count);
       Console.WriteLine();
       foreach (Match match in matches)
           Console.WriteLine(match.Value);
   }
   Console.ReadLine();

最佳答案

您的正则表达式没有任何问题 - 这就是正则表达式的工作方式。当您找到一个匹配项时,将在您刚刚找到的匹配项的末尾继续搜索下一个匹配项 - 匹配项的宽度消耗

那么,如何解决这个问题呢?一种方法是让你的比赛不消耗任何东西。您可以通过将原始模式放在零宽度正先行断言中来做到这一点:

string pattern = @"(?=([a-zA-Z]+ ){2}[a-zA-Z]+)";
added --->         ***                        * 

(?=pattern)说“只有在紧接着匹配 pattern 的东西之后才匹配” - 但内容匹配 pattern不是整体匹配的一部分,因此不会被消耗。

如果它不是匹配项的一部分,它就不会出现在 match.Value 中- 那么你如何获得值(value)呢?简单 - 只需在原始模式周围添加一个捕获组(即 (?=(pattern)) ),捕获的组将正常出现在您的结果中。

string pattern = @"(?=(([a-zA-Z]+ ){2}[a-zA-Z]+))";
added --->            *                        *

现在,您可以查看您的 foreach像以前一样循环,但是 match.Value将为空 - 您想要的结果在 match.Groups[1].Value 中.

但是现在你有另一个问题。你的结果是

one two three
ne two three
e two three
two three four
wo three four

等等。这是因为您的模式匹配即使您从一个单词的中途开始

如何解决这个问题?

我们添加另一个零宽度断言,这次是一个负向回顾:(?<![a-zA-Z]) .它不是说“仅当该点后跟模式时才匹配”,而是说“从不匹配如果该点之前是模式”。因此我们永远不会匹配前面有字母的点。 ne two three不返回,例如,因为它前面有 o .

string pattern = @"(?<![a-zA-Z])(?=(([a-zA-Z]+ ){2}[a-zA-Z]+))";
added --->         *************

有了这个模式,您终于得到了预期的结果。

关于c# - 从文本中提取 3 个词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14458555/

相关文章:

Javascript 正则表达式用于漂亮地格式化用户文本

java - 我应该在运行多个正则表达式之前分割一个大文件吗?

c# - 表单获得焦点时发生的事件

c# - 如何通过 photon unity network - unity 3d 实例化预制件来生成对象

java - 正则表达式 "Or"返回一组Java

regex - golang regexp ReplaceAllStrings with backreference不太管用

c# - 如何使 Windows 窗体中的多个控件随窗口自动调整大小?

c# - HashSet<T> 和 Linq 查询的性能

c# - 对于 Java 和 C# 来说,什么是好的通信层?

php - 正则表达式 - 第一个随机字符等于第二个。