regex - 如何使用 HTML5 输入验证来验证表单输入

标签 regex html forms form-verification

我试图找到一个完整的模式列表,用于通过各种类型的 HTML5 表单验证来验证输入,特别是 urlemailtel 等,但我找不到任何。目前,这些输入验证的内置版本远非完美(并且 tel 甚至不检查您输入的内容是否是电话号码)。所以我想知道,我可以使用哪些模式来验证用户在输入中输入了正确的格式?

以下是一些默认验证允许不应允许的输入的情况示例:
type="email"
此字段允许在@ 后具有不正确域的电子邮件,并允许地址以破折号或句点开头或结尾,这也是不允许的。所以,.example-@x 是允许的。
type="url"
此输入基本上允许以 http:// (Chrome) 开头的任何输入,其后跟除少数特殊字符以外的任何字符,例如在 URL 中具有功能的字符(\、@、#、~ 等)。在 FF 中,所有检查的是它是否以 http: 开头,然后是除 : 以外的任何内容(甚至在 FF 中只允许 http: )。 IE 与 FF 的作用相同,只是它不禁止 http::

例如: http://. 在所有三个中都是允许的。 http://, 也是如此。
type="tel"
目前在任何主要浏览器中都没有对电话号码的内置验证(它的功能与 type="text" 100%相同,除了告诉移动浏览器显示哪种键盘。

因此,由于浏览器在每种情况下都没有表现出一致的行为,而且由于它们确实表现出的行为非常基本,并且存在许多误报,我该怎么做才能验证我的 HTML 表单(仍在使用 HTML5 输入验证)?

PS:我发布这个是因为我发现自己拥有完整的表单验证模式列表很有用,所以我认为它可能对其他人也有用(当然其他人也可以发布他们的解决方案)。

最佳答案

这些模式不一定简单,但这是我认为在每种情况下最有效的模式。请记住,(最近)Internationalized Domain Names( IDN )也可用。有了这个,URL 中允许使用不可测试数量的字符(域名中仍然存在许多不允许使用的字符,但是允许的字符列表如此之大,并且会因不同的顶级而经常更改)域,跟上它们是不切实际的)。如果要支持国际化域名,则应使用第二种 URL 模式,否则使用第一种。

特尔;博士:

Here's a live demo 以查看以下运行模式。向下滚动以获取对这些模式的解释、推理和分析。

网址

https?:\/\/(?![^\/]{253}[^\/])((?!-.*|.*-\.)([a-zA-Z0-9-]{1,63}\.)+[a-zA-Z]{2,15}|((1[0-9]{2}|[1-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}(1[0-9]{2}|[1-9]?[0-9]|2([0-4][0-9]|5[0-5])))(\/.*)?
https?:\/\/(?!.{253}.+$)((?!-.*|.*-\.)([^ !-,\.\/:-@\[-`{-~]{1,63}\.)+([^ !-\/:-@\[-`{-~]{2,15}|xn--[a-zA-Z0-9]{4,30})|(([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9])\.){3}([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9]))(\/.*)?

电子邮件
(?!(^[.-].*|[^@]*[.-]@|.*\.{2,}.*)|^.{254}.)([a-zA-Z0-9!#$%&'*+\/=?^_`{|}~.-]+@)(?!-.*|.*-\.)([a-zA-Z0-9-]{1,63}\.)+[a-zA-Z]{2,15}

电话号码
((\+|00)?[1-9]{2}|0)[1-9]( ?[0-9]){8}
((\+|00)?[1-9]{2}|0)[1-9]([0-9]){8}

西式名称
([A-ZΆ-ΫÀ-ÖØ-Þ][A-ZΆ-ΫÀ-ÖØ-Þa-zά-ώß-öø-ÿ]{1,19} ?){1,10}

URL,不支持 IDN
https?:\/\/(?![^\/]{253}[^\/])((?!-.*|.*-\.)([a-zA-Z0-9-]{1,63}\.)+[a-zA-Z]{2,15}|((1[0-9]{2}|[1-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}(1[0-9]{2}|[1-9]?[0-9]|2([0-4][0-9]|5[0-5])))(\/.*)?

Regular expression visualization

说明:
  • DNS
  • URL 应始终以 http://或 https://开头,因为我们不希望链接到其他协议(protocol)。
  • 域名不应以 -
  • 开头或结尾
  • 域名每个最多63个字符(所以每个点之间最多63个字符),总长度(包括点)不能超过253(或255?安全,赌253。)字符[1] .
  • 非 IDN 只能支持拉丁字母、数字 0 到 9 和破折号。
  • 非 IDN 的顶级域至少只包含拉丁字母表 [2] 的字母。
  • 我设置了 15 个字母的任意限制,因为目前没有超过 13 个字符的域(“.international”),这很可能不会很快改变。
  • IP
  • 0.0.0.0127.0.0.1等特殊情况不检查
  • 不允许在其中填充零的 IP(例如 01.1.1.1 )[4]。
  • IP 号码只能从 0 到 255。256 是不允许的。

  • 请注意,现代浏览器中内置的默认 http:.* 模式将始终被强制执行,因此即使您在此模式的开头删除 https?://,它仍将被强制执行。使用 type="text" 来避免它。

    URL,支持 IDN
    https?:\/\/(?!.{253}.+$)((?!-.*|.*-\.)([^ !-,\.\/:-@\[-`{-~]{1,63}\.)+([^ !-\/:-@\[-`{-~]{2,15}|xn--[a-zA-Z0-9]{4,30})|(([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9])\.){3}([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9]))(\/.*)?
    

    Regular expression visualization

    说明:

    由于 IDN 中允许使用大量字符,因此实际上不可能在 HTML 属性中列出所有可能的组合(您会得到一个巨大的模式,因此在这种情况下,最好通过其他方法对其进行测试)比正则表达式)[5]。
  • 域名中不允许使用的字符有:!"#$%&'()*+, ./ :;<=>?@ [\]^_`` {|}~,但作为域分隔符的句点除外。
  • 这些在范围[!-,] [\.\/] [:-@] [\[-``] [{-~]匹配。
  • 此输入字段中允许所有其他字符
  • TLD 中允许包含相同的字母,最多不超过 15 个字符(与非 IDN URL 类似)。
  • 或者,TLD 可以采用 xn--* 格式,其中 * 是实际 TLD 的编码版本。这种编码每个原始字符使用 2 个拉丁字母或阿拉伯数字,因此这里的任意限制加倍为 30。

  • 电子邮件地址
    (?!(^[.-].*|[^@]*[.-]@|.*\.{2,}.*)|^.{254}.)([a-zA-Z0-9!#$%&'*+\/=?^_`{|}~.-]+@)(?!-.*|.*-\.)([a-zA-Z0-9-]{1,63}\.)+[a-zA-Z]{2,15}
    

    Regular expression visualization

    说明:

    由于电子邮件地址需要比这种模式更多的东西才能 100% 万无一失,因此这将涵盖几乎 100% 的所有内容。一个 100% 完整的模式 does exist ,但包含 PCRE (PHP)-only regex lookaheads,所以它不会在 HTML 表单中工作。
  • 电子邮件地址只能包含拉丁字母、数字0-9和!#$%&'*+\/=?^_``{|}~.- [6]中的字符。
  • 口音不是普遍支持的 [7],但如果需要,发表评论,我也许可以编写一个符合 RFC 6530 标准的版本。
  • 本地部分(@之前只能长63个字符,总地址只能长254个字符[8]。
  • 地址不能以 -. 开头或结尾,并且不能连续出现两个点 [8]。
  • 域可能不是 IP 地址 [9]。
  • 除此之外,我只包含了模式的非 IDN 部分。不过,IDN 也是允许的,因此会导致误报。

  • 电话号码
    ((\+|00)?[1-9]{2}|0)[1-9]( ?[0-9]){8}
    ((\+|00)?[1-9]{2}|0)[1-9]([0-9]){8}
    

    Regular expression visualization

    说明:
  • 电话号码必须以下列之一开头,其中 [CTRY] 代表 country code ,X 代表手机号码中第一个非零数字(如 0x2518122313)
  • 6
  • 00[CTRY]X
  • +[CTRY]X
  • 0X(这不是官方正确的语法,但 Chrome Autofill 似乎出于某种原因喜欢它。)
  • 数字之间允许有空格(请参阅无空格版本的第二个模式),除了上面定义的非零 X 之前。
  • 电话号码的长度必须正好为 9 位,除了上面定义的第一个非零 X 之前的部分。

  • 此正则表达式仅适用于 10 位电话号码。由于电话号码长度可能因国家/地区而异,因此最好使用此模式的较不严格的版本,或对其进行修改以适用于所需的国家/地区。所以,这种模式一般应该作为一种模板模式来使用。

    补充:西式名字
    ([A-ZΆ-ΫÀ-ÖØ-Þ][A-ZΆ-ΫÀ-ÖØ-Þa-zά-ώß-öø-ÿ]{1,19} ?){1,10}
    

    Regular expression visualization

    是的,我知道,我非常以西方为中心,但这也可能很有用,因为这也可能很难制作,而且如果您也为西方人制作网站,这将始终有效(亚洲名称也完全以这种格式表示)。
  • 所有名称必须以大写字母开头
  • 姓名中间可能出现大写字母(如John McDoe)
  • 名称长度必须至少为 2 个字母
  • 我设置了最多 10 个名字( these people probably won't mind ),每个名字最多可以有 20 个字母(“Werbenjagermanjensen”的长度,恰好是#1)。
  • 允许使用拉丁语和希腊语字母,包括所有带重音的拉丁语和希腊语字母( list )和冰岛语字母( [CTRY]X ):
  • ÐÞ ðþ 匹配所有大写拉丁字母:A-Z
  • ABCDEFGHIJKLMNOPQRSTUVWXYZ 匹配所有大写希腊字母,包括重音字母: Ά-Ϋ
  • Ά·ΈΉΊ΋Ό΍ΎΏΐ ΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡ΢ΣΤΥΦΧΨΩ ΪΫ 匹配所有带重音的大写拉丁字母,以及 Ð 和 Þ: À-ÖØ-Þ 。在它们之间还有字符 ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞ(在 ×Ö 之间),这样就被忽略了。
  • Ø 匹配所有小写拉丁字母:a-z
  • abcdefghijklmnopqrstuvwxyz 匹配所有小写希腊字母,包括重音字母:ά-ώ
  • άέήίΰαβγδεζηθικλμνξοπρςστυφχψωϊϋόύώ 匹配所有带小写的拉丁字母,以及 ß、ð 和 þ:ß-öø-ÿ。在它们之间还有字符 ßàáâãäåæçèéêëìíîïðñòóôõöøùúûüýþÿ(在 ÷ö 之间),这样就被忽略了。

  • 引用
  • https://en.wikipedia.org/wiki/Domain_Name_System#Domain_name_syntaxhttps://tools.ietf.org/html/rfc1034#section-3.1
  • https://en.wikipedia.org/wiki/List_of_Internet_top-level_domains/https://www.icann.org/resources/pages/tlds-2012-02-25-en
  • https://en.wikipedia.org/wiki/Domain_name#Technical_requirements_and_process/what are the allowed characters in a sub-domain
  • 基于浏览器和 Windows cmd 行都不允许填充格式的事实。
  • what are the allowed characters in a sub-domainhttp://www.domainnameshop.com/faq.cgi?id=8&session=106ee5e67d523298
  • https://en.wikipedia.org/wiki/Email_address#Local_part/What characters are allowed in an email address?
  • https://en.wikipedia.org/wiki/Email_address#Internationalization
  • https://en.wikipedia.org/wiki/Email_address#Syntaxhttp://tools.ietf.org/html/rfc5321#section-4.5.3.1
  • Sending Email using IP Address instead of Domain Name
  • 关于regex - 如何使用 HTML5 输入验证来验证表单输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27000681/

    相关文章:

    regex - youtube-dl缓存以加快下载速度

    ruby - 正则表达式——Ruby 与 Perl

    html - 同一行中的 div 部分

    javascript - 在 html5、javascript、css 中重新创建动画图形的技巧

    python - Flask 表单未提交

    Java 搜索模式正则表达式样式

    JavaScript 字符串用多个定界符拆分,同时保留定界符

    php - 如何使用表单输入更改 URL 的一部分?

    javascript - 将文本添加到输入并触发 ajax 搜索

    forms - 从组合中选择值时,在 Access 子表单数据表中突出显示该记录