<分区>
pipe 周围有一百万个备忘单,这些备忘单列举了不同理解程度的不同版本和 HTML 规范指定的字符实体。我不想相信他们中的任何一个,所以我想我会把它扔在这里,看看是否有人发布了更权威的答案。
那么,假设我想使用正则表达式匹配所有字符引用和实体。我将从 /&(?:#(?:x[0-9a-f]+|[0-9]+)|[a-z]{???,???});/我
。但是什么会进入 ???
呢?我可以想到长度为两个字符的实体,例如 lt
和 gt
,但是在 HTML 的任何规范中是否有单字母实体?同样,最长的实体是什么?最后,那些是在 HTML 中表达文字字符的仅有的三种语法,除了直接输入它们之外,不是吗?