python - 我应该如何使用 pyparsing 组织我的函数？

我正在使用 python 和 pyparsing 解析文件(这是 Matlab 中 PSAT 的报告文件，但这并不重要)。 here是我到目前为止所拥有的。我认为这很困惑，希望得到一些关于如何改进它的建议。具体来说，我应该如何使用 pyparsing 组织我的语法定义？

我应该将所有语法定义放在一个函数中吗？如果是这样，这将是一项巨大的功能。如果没有的话，我该如何打破它。目前我已将其拆分为文件的各个部分。是否值得创建大量只从一个地方调用一次的函数？我觉得两者都不合适。

我应该将所有输入和输出代码与其他类函数放在一个单独的文件中吗？这将使类(class)的目的更加明确。

我也有兴趣知道是否有更简单的方法来解析文件、进行一些健全性检查并将数据存储在类中。我似乎花了很多时间来做这件事。

(如果人们同意，我会接受它足够好或使用X而不是pyparsing的答案)

最佳答案

我可以选择使用单一大方法来创建解析器，也可以按照现在的方式逐步进行。

我可以看到您定义了一些有用的辅助实用程序，例如slit(我认为是“抑制文字”)、stringtolits 和decimaltable。这对我来说看起来不错。

我喜欢您使用结果名称，它们确实提高了解析后代码的稳健性。我建议使用 pyparsing 1.4.7 中添加的快捷方式形式，您可以在其中替换

busname.setResultsName("bus1")

与

busname("bus1")

这可以让你的代码变得更加整洁。

我会回顾一下您的解析操作，看看您在哪里使用数字索引来访问各个标记，然后返回并分配结果名称。这是一种情况，其中 GetStats 返回 (ngroup + sgroup).setParseAction(self.process_stats)。 process_stats 有如下引用:

self.num_load = tokens[0]["loads"]
self.num_generator = tokens[0]["generators"]
self.num_transformer = tokens[0]["transformers"]
self.num_line = tokens[0]["lines"]
self.num_bus = tokens[0]["buses"]
self.power_rate = tokens[1]["rate"]

我喜欢您对值和统计数据进行分组，但请继续给它们命名，例如“network”和“soln”。然后，您可以将此解析操作代码编写为(我还转换为 - 对我来说 - 更易于阅读的对象属性表示法，而不是 dict 元素表示法):

self.num_load = tokens.network.loads
self.num_generator = tokens.network.generators
self.num_transformer = tokens.network.transformers
self.num_line = tokens.network.lines
self.num_bus = tokens.network.buses
self.power_rate = tokens.soln.rate

还有一个风格问题:为什么有时使用显式 And 构造函数，而不是使用“+”运算符？

busdef = And([busname.setResultsName("bus1"),
            busname.setResultsName("bus2"),
            integer.setResultsName("linenum"),
            decimaltable("pf qf pl ql".split())])

这也很容易写:

busdef = (busname("bus1") + busname("bus2") + 
            integer("linenum") + 
            decimaltable("pf qf pl ql".split()))

总的来说，我认为这对于这种复杂的文件来说是差不多的。我有一种类似的格式(不幸的是，这是专有的，因此无法共享)，我在其中以类似于您的方式构建代码，但在一个大方法中，如下所示:

def parser():
    header = Group(...)
    inputsummary = Group(...)
    jobstats = Group(...)
    measurements = Group(...)
    return header("hdr") + inputsummary("inputs") + jobstats("stats") + measurements("meas")

Group 构造在像这样的大型解析器中特别有用，可以为解析数据的每个部分中的结果名称建立一种命名空间。

关于python - 我应该如何使用 pyparsing 组织我的函数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1866329/

python - 我应该如何使用 pyparsing 组织我的函数？

上一篇：python - 基于标签的帖子之间的欧氏距离

下一篇：python - `type` 的第一个参数有什么作用？