我编写了一个解析 ASCII 文件的 xml 解析器,但我现在需要能够读取 UTF-8 编码的文件。我在 lex 中有以下正则表达式,但它们不匹配 UTF-8。我不确定我做错了什么:
utf_8 [\x00-\xff]*
bom [\xEF\xBB\xBF]
然后:
bom { fprintf( stderr, "OMG I SAW A BOM"); return BOM;}
utf_8 { fprintf( stderr, "OMG I SAW A UTF CHAR", yytext[0] ); return UTF_8;}
我还有以下语法规则:
program
: UTF8 '<' '?'ID attribute_list '?''>'
root ...
UTF8
是:
UTF8
: BOM {printf("i saw a bom\n");}
| UTF_8 {printf("i saw a utf\n");}
| {printf("i didn't see anything.'\n");}
;
它总是出现我什么也没看到
,我的解析器适用于 ASCII 文件,即当我将 XML UTF-8 文件复制粘贴到一个空文档中时。
如有任何帮助,我们将不胜感激。
编辑:
这是一个修剪后的 .l 文件以供引用:
%{
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include "y.tab.h"
int lines = 1;
%}
utf_8 [\x0000-\xffff]*
bom [\xEF\xBB\xBF]
whitespace [ \t]
ev (.|{bom})
ev1 (.|{utf_8})
%%
{whitespace} { fprintf( stderr, "%s", yytext );}
\n { fprintf( stderr, "%s%d ", yytext, lines++ );}
. { fprintf( stderr, "{TOKEN:%c}", yytext[0] ); return yytext[0];}
bom { fprintf( stderr, "OMG I SAW A BOM"); return BOM;}
utf_8 { fprintf( stderr, "OMG I SAW A UTF CHAR", yytext[0] ); return UTF_8;}
%%
void error( char *message )
{
fprintf( stderr, "Error: %s\n", message );
exit(1);
}
最佳答案
好的,这是你的问题:
utf_8 [\x0000-\xffff]*
bom [\xEF\xBB\xBF]
这里有两个问题。首先,Flex 实际上并不理解 Unicode。它适用于字节。因此,您需要一个匹配任何有效 UTF-8 字节序列 的正则表达式宏。 http://keithdevens.com/weblog/archive/2004/Jun/29/UTF-8.regex有一个执行此操作的正则表达式,转换为 Flex 语法并不难(见下文)。其次,您的 BOM 宏中的方括号使其匹配任何具有值 EF、BB 或 BF 的单字节,而不是三字节序列 EB BB BF你想要什么。
(顺便说一句,UTF-8 文件不应该有字节顺序标记,尽管很多文件确实有。)
这是一个完整的 Flex 输入文件,它或多或少做了您似乎一直在尝试做的事情:
%{
#include <stdio.h>
%}
bom \xEF\xBB\xBF
white [ \t]
u2a [\xC2-\xDF][\x80-\xBF]
u2b \xE0[\xA0-\xBF][\x80-\xBF]
u3a [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}
u3b \xED[\x80-\x9F][\x80-\xBF]
u4a \xF0[\x90-\xBF][\x80-\xBF]{2}
u4b [\xF1-\xF3][\x80-\xBF]{3}
u4c \xF4[\x80-\x8F][\x80-\xBF]{2}
utf_8 {u2a}|{u2b}|{u3a}|{u3b}|{u4a}|{u4b}|{u4c}
%%
{white} { putchar(' '); }
\n { putchar('\n'); }
{bom} { putchar('B'); }
{utf_8} { putchar('u'); }
[\x21-\x7e] { putchar('.'); }
. { putchar('^'); }
关于c - 让 lex 读取 UTF-8 不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10252777/