python - 条件 SkipTo+可选匹配

标签 python pyparsing

我正在尝试使用 pyparsing 来解析一些 .LIB 文件。我有一个场景,我有一些遵循类似布局的字符串结构,但是内部有一些变体可以更改所需的语法。

问题的 TL;DR: 我需要能够绕过字符串的一部分到下一个标记,该标记可能不存在。

这是 LIB 文件的片段。

PIN EXAMPLE WITH NO TIMING
pin (core_c_sysclk ) { 
  clock : true ; 
  direction : input ;
  capacitance :  0.0040;
  max_transition :  0.1000;
  related_ground_pin :   "vss" ;
  related_power_pin :   "vcc" ;
  fanout_load :  1.0000;
  min_pulse_width_low :  0.1853;
  min_pulse_width_high :  0.1249;

} /* End of pin core_c_sysclk */

bus (core_tx_td ){
  bus_type :  bus2 ;

  /* Start of pin core_tx_td[9] */ 
  PIN EXAMPLE WITH  TIMING
  pin (core_tx_td[9] ) { 
    direction : output ;
    capacitance :  0.0005;
    max_transition :  0.1000;
    related_ground_pin :   "vss" ;
    related_power_pin :   "vcc" ;
    max_fanout :  15.0000;
    max_capacitance :  0.1000;

    /* Start of rising_edge arc of pin core_tx_td[9] wrt pin core_tx_tclk */
    timing() {                        <----WHAT I WANT (to know if this is in the pin)
      timing_type : rising_edge ;
      timing_sense : non_unate ;
      min_delay_arc :   "true" ;
      related_pin :" core_tx_tclk ";  <----WHAT I WANT (core_tx_tclk in this case)
    rise_transition (lut_timing_4 ){
       values(\
        REMOVED FOR CLARITY
        );
      }
    fall_transition (lut_timing_4 ){
       values(\
        REMOVED FOR CLARITY
        );
      }
    cell_rise (lut_timing_4 ){
       values(\
        REMOVED FOR CLARITY
        );
      }
    cell_fall (lut_timing_4 ){
       values(\
        REMOVED FOR CLARITY
        );
      }
    } /* End of rising_edge arc of pin core_tx_td[9] wrt pin core_tx_tclk */
    .....More but not really needed for example

感兴趣的主要值是“引脚”名称、时钟类型、方向以及如果timing()存在,则相关引脚。

到目前为止,这是我解析字符串的内容:

LP          = '('
RP          = ')'
LCB         = '{'
RCB         = '}'
COM         = ','


#Pins/Signals
pin_dec       = (Keyword('pin') + LP + Word(alphanums+'_/[]').setResultsName('name') + RP).setResultsName('pin_dec')
pin_clk       = (Keyword('clock') + ':' + Word(alphanums+'_/').setResultsName('is_clk') + ';').setResultsName('pin_clk')
pin_dir       = (Keyword('direction') + ':' + Word(alphanums+'_/').setResultsName('dir') + ';').setResultsName('pin_dir')
pin_arc       = (Keyword('related_pin') + ':' + '"' + Word(alphanums+'_/[]').setResultsName('name') + '"' + ';').setResultsName('pin_arc')
pin_timing    = (Keyword('timing') + LP + RP + LCB + SkipTo(pin_arc) + Optional(pin_arc)).setResultsName('pin_timing')
pin_end       =  Keyword('} /* End of pin') + SkipTo('*/')
pin           = pin_dec + LCB + Optional(pin_clk) + Optional(pin_dir) + SkipTo(Optional(pin_timing))  + SkipTo(pin_end) + pin_end

引脚 ()、时钟检查和方向检查很简单并且似乎有效。我的问题是 pin_timingpin_arc 检查。在某些情况下,如代码中所示,您可能会有不需要的附加信息行。我尝试使用 SkipTo(pin_timing),但是 pin_timing 元素可能不存在,所以如果可能的话我想跳过它。

我尝试过执行 Optional(SkipTo(pin_timing))SkipTo(Optional(pin_timing)),但这些似乎都没有给我正确的结果。以下是测试示例字符串的代码片段:

for bla in pin.searchString(test_str):
  print('========')
  print('Pin name: ' + bla.pin_dec.name)
  if bla.pin_dir:
    print('Pin Dir: ' + bla.pin_dir.dir)
  if bla.pin_clk:
    print('Pin Clk: ' + bla.pin_clk.is_clk)
  #if bla.pin_timing: just trying to print for debug
  print('Pin Timing: ' + bla.pin_timing)

输出如下:

========
Pin name: core_c_sysclk
Pin Dir: input
Pin Clk: true
Pin Timing: 
========
Pin name: core_tx_pwr_st[2]
Pin Dir: output
Pin Timing: 
========
Pin name: core_tx_pwr_st[1]
Pin Dir: output
Pin Timing: 
========
Pin name: core_tx_pwr_st[0]
Pin Dir: output
Pin Timing: 
========
Pin name: core_tx_td[9]
Pin Dir: output
Pin Timing: 

在 pin_timing 上设置调试(使用 pin_timing.setDebug()),我得到以下输出:

Match {"timing" "(" ")" "{" SkipTo:({"related_pin" ":" """ W:(abcd...) """ ";"}) [{"related_pin" ":" """ W:(abcd...) """ ";"}]} at loc 596(22,7)
Exception raised:Expected "timing" (at char 596), (line:22, col:7)

基于此,它在 max_transition 行引发异常。我一直无法理解它为什么这样做。还想知道为什么它在电容线上没有给出相同的异常。我猜测我要么错误地使用了 Optional + SkipTo,所以如果有任何示例可用于跳到可选 token ,并在不可用时绕过,很高兴看到。我已经浏览了 PyParsing 文档和几个 SO 主题,但是其中大多数似乎没有回答这个特定问题。

我想知道是否需要从文件中获取整个 pin() 字符串,然后执行递归解析/搜索以提取timing/lated_pin,但是我想看看是否有在尝试之前这是一个更简单的解决方案。

谢谢

最佳答案

OptionalSkipTo 一起使用时通常需要小心。 SkipTo 通常会查找其目标表达式,而不考虑解析器中在其之前或之后出现的其他表达式。

这是一个例子。使用 SkipTo 解析这些行:

a b c z
a d e 100 d z

以“a”开头,以“z”结尾,以及一些中间的字母,可能还有一个整数。

我们可以将其写为:

start = pp.Char('a').setName('start')
end = pp.Char('z').setName('end')
num = pp.Word(pp.nums).setName('num')

我们将使用 SkipTo 因为谁知道里面还可能有什么?

expr = (start
        + pp.Optional(pp.SkipTo(num) + num)
        + pp.SkipTo(end)
        + end)

对其进行一些测试:

expr.runTests("""
    a b c z
    a d e 100 d z
    a 100 b d z
    """)

它们看起来都不错:

a b c z
['a', 'b c ', 'z']

a d e 100 d z
['a', 'd e ', '100', 'd ', 'z']

a 100 b d z
['a', '', '100', 'b d ', 'z']

但是如果可以有多个表达式,那么 SkipTo 可能会跳过太多:

pp.OneOrMore(pp.Group(expr)).runTests("""
    a b c z
    a d e 100 d z
    a 100 b d z

    # not what we want
    a b c z a d e 100 d z
    """)

给予:

a b c z
[['a', 'b c ', 'z']]
[0]:
  ['a', 'b c ', 'z']

a d e 100 d z
[['a', 'd e ', '100', 'd ', 'z']]
[0]:
  ['a', 'd e ', '100', 'd ', 'z']

a 100 b d z
[['a', '', '100', 'b d ', 'z']]
[0]:
  ['a', '', '100', 'b d ', 'z']

# not what we want
a b c z a d e 100 d z
[['a', 'b c z a d e ', '100', 'd ', 'z']]
[0]:
  ['a', 'b c z a d e ', '100', 'd ', 'z']

最后一个测试字符串显示 SkipTo 跳过第一组的末尾,直到它在第二组中达到“100”,我们只得到一个大组而不是两个。

我们需要向 SkipTo 表明它无法读取到寻找 num 的组末尾。为此,请使用 failOn:

expr = (start
        + pp.Optional(pp.SkipTo(num, failOn=end) + num)
        + pp.SkipTo(end)
        + end)

如果在找到 num 之前命中 end 表达式,我们希望跳过失败。既然我们已经说过这是可选的,那就没有问题,现在我们的测试如下所示:

pp.OneOrMore(pp.Group(expr)).runTests("""
    # better
    a b c z a d e 100 d z
    """)

# better
a b c z a d e 100 d z
[['a', 'b c ', 'z'], ['a', 'd e ', '100', 'd ', 'z']]
[0]:
  ['a', 'b c ', 'z']
[1]:
  ['a', 'd e ', '100', 'd ', 'z']

现在看看你的例子,这是你的语法。我做了一些更改,主要是将 expr.setResultsName("some_name") 更改为 expr("some_name") 并对表达式进行分组,以便您的分层命名有效,主要是机器人,在可选的 SkipTo 中添加 failOn ,这样它就不会跳过 pin_end 表达式:

identifier    = Word(alphanums+'_/[]')
pin_dec       = Group(Keyword('pin') + LP + identifier('name') + RP)('pin_dec')
pin_clk       = Group(Keyword('clock') + ':' + identifier('is_clk') + ';')('pin_clk')
pin_dir       = Group(Keyword('direction') + ':' + identifier('dir') + ';')('pin_dir')
pin_arc       = Group(Keyword('related_pin') 
                      + ':' 
                      + '"' + identifier('name') + '"' 
                      + ';')('pin_arc')
pin_timing    = Group(Keyword('timing') 
                      + LP + RP 
                      + LCB 
                      + SkipTo(pin_arc) 
                      + Optional(pin_arc))('pin_timing')
pin_end       = RCB + Optional(cStyleComment)
pin           = Group(pin_dec 
                      + LCB 
                      + Optional(pin_clk) 
                      + Optional(pin_dir) 
                      + Optional(SkipTo(pin_timing, failOn=pin_end))
                      + SkipTo(pin_end) 
                      + pin_end

for parsed in pin.searchString(sample):
    print(parsed.dump())
    print()

给予:

[[['pin', '(', 'core_c_sysclk', ')'], '{', ['clock', ':', 'true', ';'], ['direction', ':', 'input', ';'], 'capacitance :  0.0040;\n  max_transition :  0.1000;\n  related_ground_pin :   "vss" ;\n  related_power_pin :   "vcc" ;\n  fanout_load :  1.0000;\n  min_pulse_width_low :  0.1853;\n  min_pulse_width_high :  0.1249;', '', '}', '/* End of pin core_c_sysclk */']]
[0]:
  [['pin', '(', 'core_c_sysclk', ')'], '{', ['clock', ':', 'true', ';'], ['direction', ':', 'input', ';'], 'capacitance :  0.0040;\n  max_transition :  0.1000;\n  related_ground_pin :   "vss" ;\n  related_power_pin :   "vcc" ;\n  fanout_load :  1.0000;\n  min_pulse_width_low :  0.1853;\n  min_pulse_width_high :  0.1249;', '', '}', '/* End of pin core_c_sysclk */']
  - pin_clk: ['clock', ':', 'true', ';']
    - is_clk: 'true'
  - pin_dec: ['pin', '(', 'core_c_sysclk', ')']
    - name: 'core_c_sysclk'
  - pin_dir: ['direction', ':', 'input', ';']
    - dir: 'input'

[[['pin', '(', 'core_tx_td[9]', ')'], '{', ['direction', ':', 'output', ';'], 'capacitance :  0.0005;\n    max_transition :  0.1000;\n    related_ground_pin :   "vss" ;\n    related_power_pin :   "vcc" ;\n    max_fanout :  15.0000;\n    max_capacitance :  0.1000;\n\n    /* Start of rising_edge arc of pin core_tx_td[9] wrt pin core_tx_tclk */\n    ', 'timing() {                        <----WHAT I WANT (to know if this is in the pin)\n      timing_type : rising_edge ;\n      timing_sense : non_unate ;\n      min_delay_arc :   "true" ;\n      related_pin :" core_tx_tclk ";  <----WHAT I WANT (core_tx_tclk in this case)\n    rise_transition (lut_timing_4 ){\n       values(        REMOVED FOR CLARITY\n        );\n      ', '}']]
[0]:
  [['pin', '(', 'core_tx_td[9]', ')'], '{', ['direction', ':', 'output', ';'], 'capacitance :  0.0005;\n    max_transition :  0.1000;\n    related_ground_pin :   "vss" ;\n    related_power_pin :   "vcc" ;\n    max_fanout :  15.0000;\n    max_capacitance :  0.1000;\n\n    /* Start of rising_edge arc of pin core_tx_td[9] wrt pin core_tx_tclk */\n    ', 'timing() {                        <----WHAT I WANT (to know if this is in the pin)\n      timing_type : rising_edge ;\n      timing_sense : non_unate ;\n      min_delay_arc :   "true" ;\n      related_pin :" core_tx_tclk ";  <----WHAT I WANT (core_tx_tclk in this case)\n    rise_transition (lut_timing_4 ){\n       values(        REMOVED FOR CLARITY\n        );\n      ', '}']
  - pin_dec: ['pin', '(', 'core_tx_td[9]', ')']
    - name: 'core_tx_td[9]'
  - pin_dir: ['direction', ':', 'output', ';']
    - dir: 'output'

所以你真的非常接近,只需要正确构造OptionalSkipTo,并添加failOn和一些Groups。剩下的就和你的方式差不多了。

关于python - 条件 SkipTo+可选匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56959054/

相关文章:

python - 无法使用预先签名的 url Minio Python 加载对象

python - 让 subprocess.Popen 只等待其子进程返回,而不等待任何孙子进程返回

python - 对 Flask 中的页面进行排序 - TypeError

python - Graphviz 重叠边缘标签

python - 编译时全局应用 extern C

python - 使用 pyparsing 的这项特定工作的难度? (初学者)

Python:使用 Pyparser 测试数据的语法无效

python - pyparsing - 加载 ABNF?

python - 用 Python 解析 SQL

python - Pyparsing 新手 setParseAction 修改标记