c# - 解析邮件地址的正则表达式

标签 c# regex

我有一个地址类,它使用正则表达式从地址的第一行解析门牌号、街道名称和街道类型。这段代码通常运行良好,但我在这里发帖是为了与社区分享,看看是否有人有改进建议。

注意:STREETTYPES 和 QUADRANT 常量分别包含所有相关的街道类型和象限。

我在这里包含了一个子集:

private const string STREETTYPES = @"ALLEY|ALY|ANNEX|AX|ARCADE|ARC|AVENUE|AV|AVE|BAYOU|BYU|BEACH|...";

private const string QUADRANTS = "N|NORTH|S|SOUTH|E|EAST|W|WEST|NE|NORTHEAST|NW|NORTHWEST|SE|SOUTHEAST|SW|SOUTHWEST";

HouseNumber、Quadrant、StreetName 和 StreetType 都是该类的属性。

    private void Parse(string line1)
    {
        HouseNumber = string.Empty;
        Quadrant = string.Empty;
        StreetName = string.Empty;
        StreetType = string.Empty;

        if (!String.IsNullOrEmpty(line1))
        {
            string noPeriodsLine1 = String.Copy(line1);
            noPeriodsLine1 = noPeriodsLine1.Replace(".", "");

            string addressParseRegEx =
                @"(?ix)
            ^
            \s*
            (?:
               (?<housenumber>\d+)
               (?:(?:\s+|-)(?<quadrant>" +
                QUADRANTS +
                @"))?
               (?:(?:\s+|-)(?<streetname>\S+(?:\s+\S+)*?))??
               (?:(?:\s+|-)(?<quadrant>" +
                QUADRANTS + @"))?
               (?:(?:\s+|-)(?<streettype>" + STREETTYPES +
                @"))?
               (?:(?:\s+|-)(?<streettypequalifier>(?!(?:" +
                QUADRANTS +
                @"))(?:\d+|\S+)))?
               (?:(?:\s+|-)(?<streettypequadrant>(" +
                QUADRANTS + @")))??
               (?:(?:\s+|-)(?<suffix>(?:ste|suite|po\sbox|apt)\s*\S*))?
            |
               (?:(?:po|postoffice|post\s+office)\s+box\s+(?<postofficebox>\S+))
            )
            \s*
            $
            ";
            Match match = Regex.Match(noPeriodsLine1, addressParseRegEx);
            if (match.Success)
            {
                HouseNumber = match.Groups["housenumber"].Value;
                Quadrant = (string.IsNullOrEmpty(match.Groups["quadrant"].Value)) ? match.Groups["streettypequadrant"].Value : match.Groups["quadrant"].Value;
                if (match.Groups["streetname"].Captures.Count > 1)
                {
                    foreach (Capture capture in match.Groups["streetname"].Captures)
                    {
                        StreetName += capture.Value + " ";
                    }
                    StreetName = StreetName.Trim();
                }
                else
                {
                    StreetName = (string.IsNullOrEmpty(match.Groups["streetname"].Value)) ? match.Groups["streettypequalifier"].Value : match.Groups["streetname"].Value;
                }
                StreetType = match.Groups["streettype"].Value;

                //if the matched street type is found
                //use the abbreviated version...especially for credit bureau calls
                string streetTypeAbbreviation;
                if (StreetTypes.TryGetValue(StreetType.ToUpper(), out streetTypeAbbreviation))
                {
                    StreetType = streetTypeAbbreviation;
                }
            }
        }

    }

最佳答案

享受地址和正则表达式带来的乐趣,你将经历一段漫长而可怕的旅程。

你正试图在困惑中建立秩序。

对于每条“123 Simple Way”,都有一条“14 1/2 South”。

还有盐湖城:“855 South 1300 East”。

玩得开心。

在街道地址方面,异常(exception)多于规则。

关于c# - 解析邮件地址的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/642602/

相关文章:

正则表达式 Google 表格匹配具有不同位数的日和月的日期

c# - 如果 SQL DB 列为 NULL 插入到 datagridview 0

c# - 打开选定文件的默认应用程序(MSWord、Adobe 等)

Javascript 正则表达式 [删除事件]

c# - 正则表达式匹配带空格的字符串,直到第一个 "="

python - 在 Python 中从 Ascii 转换某些特殊字符时遇到问题

regex - 如何 grep 包含两次或多次列出特定字母的单词列表?

C# 和 MongoDriver - 如何从外部集合中获取值(聚合 + 查找)?

c# - 如何在订阅时保持 StackExchange.Redis 打开

c# - 使用 Linq to SQL,如何查找表中列的最小值和最大值?