我正在尝试使用 pyparsing 来解析一些 .LIB 文件。我有一个场景,我有一些遵循类似布局的字符串结构,但是内部有一些变体可以更改所需的语法。
问题的 TL;DR: 我需要能够绕过字符串的一部分到下一个标记,该标记可能不存在。
这是 LIB 文件的片段。
PIN EXAMPLE WITH NO TIMING
pin (core_c_sysclk ) {
clock : true ;
direction : input ;
capacitance : 0.0040;
max_transition : 0.1000;
related_ground_pin : "vss" ;
related_power_pin : "vcc" ;
fanout_load : 1.0000;
min_pulse_width_low : 0.1853;
min_pulse_width_high : 0.1249;
} /* End of pin core_c_sysclk */
bus (core_tx_td ){
bus_type : bus2 ;
/* Start of pin core_tx_td[9] */
PIN EXAMPLE WITH TIMING
pin (core_tx_td[9] ) {
direction : output ;
capacitance : 0.0005;
max_transition : 0.1000;
related_ground_pin : "vss" ;
related_power_pin : "vcc" ;
max_fanout : 15.0000;
max_capacitance : 0.1000;
/* Start of rising_edge arc of pin core_tx_td[9] wrt pin core_tx_tclk */
timing() { <----WHAT I WANT (to know if this is in the pin)
timing_type : rising_edge ;
timing_sense : non_unate ;
min_delay_arc : "true" ;
related_pin :" core_tx_tclk "; <----WHAT I WANT (core_tx_tclk in this case)
rise_transition (lut_timing_4 ){
values(\
REMOVED FOR CLARITY
);
}
fall_transition (lut_timing_4 ){
values(\
REMOVED FOR CLARITY
);
}
cell_rise (lut_timing_4 ){
values(\
REMOVED FOR CLARITY
);
}
cell_fall (lut_timing_4 ){
values(\
REMOVED FOR CLARITY
);
}
} /* End of rising_edge arc of pin core_tx_td[9] wrt pin core_tx_tclk */
.....More but not really needed for example
感兴趣的主要值是“引脚”名称、时钟类型、方向以及如果timing()存在,则相关引脚。
到目前为止,这是我解析字符串的内容:
LP = '('
RP = ')'
LCB = '{'
RCB = '}'
COM = ','
#Pins/Signals
pin_dec = (Keyword('pin') + LP + Word(alphanums+'_/[]').setResultsName('name') + RP).setResultsName('pin_dec')
pin_clk = (Keyword('clock') + ':' + Word(alphanums+'_/').setResultsName('is_clk') + ';').setResultsName('pin_clk')
pin_dir = (Keyword('direction') + ':' + Word(alphanums+'_/').setResultsName('dir') + ';').setResultsName('pin_dir')
pin_arc = (Keyword('related_pin') + ':' + '"' + Word(alphanums+'_/[]').setResultsName('name') + '"' + ';').setResultsName('pin_arc')
pin_timing = (Keyword('timing') + LP + RP + LCB + SkipTo(pin_arc) + Optional(pin_arc)).setResultsName('pin_timing')
pin_end = Keyword('} /* End of pin') + SkipTo('*/')
pin = pin_dec + LCB + Optional(pin_clk) + Optional(pin_dir) + SkipTo(Optional(pin_timing)) + SkipTo(pin_end) + pin_end
引脚 ()、时钟检查和方向检查很简单并且似乎有效。我的问题是 pin_timing
和 pin_arc
检查。在某些情况下,如代码中所示,您可能会有不需要的附加信息行。我尝试使用 SkipTo(pin_timing),但是 pin_timing 元素可能不存在,所以如果可能的话我想跳过它。
我尝试过执行 Optional(SkipTo(pin_timing))
和 SkipTo(Optional(pin_timing))
,但这些似乎都没有给我正确的结果。以下是测试示例字符串的代码片段:
for bla in pin.searchString(test_str):
print('========')
print('Pin name: ' + bla.pin_dec.name)
if bla.pin_dir:
print('Pin Dir: ' + bla.pin_dir.dir)
if bla.pin_clk:
print('Pin Clk: ' + bla.pin_clk.is_clk)
#if bla.pin_timing: just trying to print for debug
print('Pin Timing: ' + bla.pin_timing)
输出如下:
========
Pin name: core_c_sysclk
Pin Dir: input
Pin Clk: true
Pin Timing:
========
Pin name: core_tx_pwr_st[2]
Pin Dir: output
Pin Timing:
========
Pin name: core_tx_pwr_st[1]
Pin Dir: output
Pin Timing:
========
Pin name: core_tx_pwr_st[0]
Pin Dir: output
Pin Timing:
========
Pin name: core_tx_td[9]
Pin Dir: output
Pin Timing:
在 pin_timing 上设置调试(使用 pin_timing.setDebug()
),我得到以下输出:
Match {"timing" "(" ")" "{" SkipTo:({"related_pin" ":" """ W:(abcd...) """ ";"}) [{"related_pin" ":" """ W:(abcd...) """ ";"}]} at loc 596(22,7)
Exception raised:Expected "timing" (at char 596), (line:22, col:7)
基于此,它在 max_transition
行引发异常。我一直无法理解它为什么这样做。还想知道为什么它在电容线上没有给出相同的异常。我猜测我要么错误地使用了 Optional
+ SkipTo
,所以如果有任何示例可用于跳到可选 token ,并在不可用时绕过,很高兴看到。我已经浏览了 PyParsing 文档和几个 SO 主题,但是其中大多数似乎没有回答这个特定问题。
我想知道是否需要从文件中获取整个 pin()
字符串,然后执行递归解析/搜索以提取timing/lated_pin,但是我想看看是否有在尝试之前这是一个更简单的解决方案。
谢谢
最佳答案
Optional
和 SkipTo
一起使用时通常需要小心。 SkipTo
通常会查找其目标表达式,而不考虑解析器中在其之前或之后出现的其他表达式。
这是一个例子。使用 SkipTo
解析这些行:
a b c z
a d e 100 d z
以“a”开头,以“z”结尾,以及一些中间的字母,可能还有一个整数。
我们可以将其写为:
start = pp.Char('a').setName('start')
end = pp.Char('z').setName('end')
num = pp.Word(pp.nums).setName('num')
我们将使用 SkipTo
因为谁知道里面还可能有什么?
expr = (start
+ pp.Optional(pp.SkipTo(num) + num)
+ pp.SkipTo(end)
+ end)
对其进行一些测试:
expr.runTests("""
a b c z
a d e 100 d z
a 100 b d z
""")
它们看起来都不错:
a b c z
['a', 'b c ', 'z']
a d e 100 d z
['a', 'd e ', '100', 'd ', 'z']
a 100 b d z
['a', '', '100', 'b d ', 'z']
但是如果可以有多个表达式,那么 SkipTo 可能会跳过太多:
pp.OneOrMore(pp.Group(expr)).runTests("""
a b c z
a d e 100 d z
a 100 b d z
# not what we want
a b c z a d e 100 d z
""")
给予:
a b c z
[['a', 'b c ', 'z']]
[0]:
['a', 'b c ', 'z']
a d e 100 d z
[['a', 'd e ', '100', 'd ', 'z']]
[0]:
['a', 'd e ', '100', 'd ', 'z']
a 100 b d z
[['a', '', '100', 'b d ', 'z']]
[0]:
['a', '', '100', 'b d ', 'z']
# not what we want
a b c z a d e 100 d z
[['a', 'b c z a d e ', '100', 'd ', 'z']]
[0]:
['a', 'b c z a d e ', '100', 'd ', 'z']
最后一个测试字符串显示 SkipTo
跳过第一组的末尾,直到它在第二组中达到“100”,我们只得到一个大组而不是两个。
我们需要向 SkipTo
表明它无法读取到寻找 num 的组末尾。为此,请使用 failOn
:
expr = (start
+ pp.Optional(pp.SkipTo(num, failOn=end) + num)
+ pp.SkipTo(end)
+ end)
如果在找到 num
之前命中 end
表达式,我们希望跳过失败。既然我们已经说过这是可选的,那就没有问题,现在我们的测试如下所示:
pp.OneOrMore(pp.Group(expr)).runTests("""
# better
a b c z a d e 100 d z
""")
# better
a b c z a d e 100 d z
[['a', 'b c ', 'z'], ['a', 'd e ', '100', 'd ', 'z']]
[0]:
['a', 'b c ', 'z']
[1]:
['a', 'd e ', '100', 'd ', 'z']
现在看看你的例子,这是你的语法。我做了一些更改,主要是将 expr.setResultsName("some_name")
更改为 expr("some_name")
并对表达式进行分组
,以便您的分层命名有效,主要是机器人,在可选的 SkipTo
中添加 failOn
,这样它就不会跳过 pin_end
表达式:
identifier = Word(alphanums+'_/[]')
pin_dec = Group(Keyword('pin') + LP + identifier('name') + RP)('pin_dec')
pin_clk = Group(Keyword('clock') + ':' + identifier('is_clk') + ';')('pin_clk')
pin_dir = Group(Keyword('direction') + ':' + identifier('dir') + ';')('pin_dir')
pin_arc = Group(Keyword('related_pin')
+ ':'
+ '"' + identifier('name') + '"'
+ ';')('pin_arc')
pin_timing = Group(Keyword('timing')
+ LP + RP
+ LCB
+ SkipTo(pin_arc)
+ Optional(pin_arc))('pin_timing')
pin_end = RCB + Optional(cStyleComment)
pin = Group(pin_dec
+ LCB
+ Optional(pin_clk)
+ Optional(pin_dir)
+ Optional(SkipTo(pin_timing, failOn=pin_end))
+ SkipTo(pin_end)
+ pin_end
for parsed in pin.searchString(sample):
print(parsed.dump())
print()
给予:
[[['pin', '(', 'core_c_sysclk', ')'], '{', ['clock', ':', 'true', ';'], ['direction', ':', 'input', ';'], 'capacitance : 0.0040;\n max_transition : 0.1000;\n related_ground_pin : "vss" ;\n related_power_pin : "vcc" ;\n fanout_load : 1.0000;\n min_pulse_width_low : 0.1853;\n min_pulse_width_high : 0.1249;', '', '}', '/* End of pin core_c_sysclk */']]
[0]:
[['pin', '(', 'core_c_sysclk', ')'], '{', ['clock', ':', 'true', ';'], ['direction', ':', 'input', ';'], 'capacitance : 0.0040;\n max_transition : 0.1000;\n related_ground_pin : "vss" ;\n related_power_pin : "vcc" ;\n fanout_load : 1.0000;\n min_pulse_width_low : 0.1853;\n min_pulse_width_high : 0.1249;', '', '}', '/* End of pin core_c_sysclk */']
- pin_clk: ['clock', ':', 'true', ';']
- is_clk: 'true'
- pin_dec: ['pin', '(', 'core_c_sysclk', ')']
- name: 'core_c_sysclk'
- pin_dir: ['direction', ':', 'input', ';']
- dir: 'input'
[[['pin', '(', 'core_tx_td[9]', ')'], '{', ['direction', ':', 'output', ';'], 'capacitance : 0.0005;\n max_transition : 0.1000;\n related_ground_pin : "vss" ;\n related_power_pin : "vcc" ;\n max_fanout : 15.0000;\n max_capacitance : 0.1000;\n\n /* Start of rising_edge arc of pin core_tx_td[9] wrt pin core_tx_tclk */\n ', 'timing() { <----WHAT I WANT (to know if this is in the pin)\n timing_type : rising_edge ;\n timing_sense : non_unate ;\n min_delay_arc : "true" ;\n related_pin :" core_tx_tclk "; <----WHAT I WANT (core_tx_tclk in this case)\n rise_transition (lut_timing_4 ){\n values( REMOVED FOR CLARITY\n );\n ', '}']]
[0]:
[['pin', '(', 'core_tx_td[9]', ')'], '{', ['direction', ':', 'output', ';'], 'capacitance : 0.0005;\n max_transition : 0.1000;\n related_ground_pin : "vss" ;\n related_power_pin : "vcc" ;\n max_fanout : 15.0000;\n max_capacitance : 0.1000;\n\n /* Start of rising_edge arc of pin core_tx_td[9] wrt pin core_tx_tclk */\n ', 'timing() { <----WHAT I WANT (to know if this is in the pin)\n timing_type : rising_edge ;\n timing_sense : non_unate ;\n min_delay_arc : "true" ;\n related_pin :" core_tx_tclk "; <----WHAT I WANT (core_tx_tclk in this case)\n rise_transition (lut_timing_4 ){\n values( REMOVED FOR CLARITY\n );\n ', '}']
- pin_dec: ['pin', '(', 'core_tx_td[9]', ')']
- name: 'core_tx_td[9]'
- pin_dir: ['direction', ':', 'output', ';']
- dir: 'output'
所以你真的非常接近,只需要正确构造Optional
和SkipTo
,并添加failOn
和一些Group
s。剩下的就和你的方式差不多了。
关于python - 条件 SkipTo+可选匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56959054/