作为我本科项目的一部分,我目前正在研究扑克手牌历史解析器。过去几天我一直在做一些研究,发现了一些不错的解析器生成器(我选择了 JavaCC,因为项目本身将用 Java 编码)。
尽管牌局历史语法非常基本和直接,但由于玩家昵称中允许的字符集,存在歧义问题。
假设我们有一行格式如下:
Seat 5: myNickname (1500 in chips)
token myNickname
可以包含任何字符以及空格。这意味着,(1500 in chip
和 Seat 5:
都是有效的昵称 - 这最终会导致歧义问题。除了长度 ( 4-12 个字符)。
我需要解析和存储几个数据以及玩家的昵称(例如,在这种特殊情况下的座位位置和筹码数量),所以我的问题是,我在这里有什么选择?
我很乐意使用 JavaCC 来做这件事,如下所示:
SeatRecord seat() :
{ Token seatPos, nickname, chipStack; }
{
"Seat" seatPos=<INTEGER> ":" nickname=<NICKNAME> "(" chipStack=<INTEGER>
"in chips)"
{
return new SeatRecord(seatPos.image, nickname.image, chipStack.image);
}
}
现在哪个不起作用(由于提到的问题)
我还四处搜索了 GLR 解析器(它显然可以处理模棱两可的语法)——但它们似乎大多被遗弃或记录不当,除了 Bison,但那个不支持 Java 的 GLR 解析器,而且可能太复杂了使用 anway(除了歧义问题,正如我提到的,语法本身非常基础)
还是我应该坚持自己对字符串进行分词,并使用 indexOf()、lastIndexOf()
等来解析我需要的数据?只有当它是剩下的唯一选择时,我才会去做,因为恕我直言,它太丑陋了,而且我可能会错过一些情况(这会导致不正确的解析)
最佳答案
如果您的输入格式像您指定的那样简单,您可能可以使用简单的正则表达式:
^Seat ([0-9]+): (.*) \(([0-9]+) in chips\)$
本例中正则引擎的NFA解决了你的歧义,括号内是捕获组,这样你就可以提取出你感兴趣的信息了。
关于java - 处理语法歧义(扑克文件解析),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11081773/