Scala 解析器组合器 : Efficiently Parse C-Style Comments

标签 scala parser-combinators

使用 Scala 解析器组合器(有效地)解析 C 风格的多行注释(即 /* ... */ )的最佳方法是什么？

在我参与的一个项目中，我们解析了一种类似 C 的编程语言，并希望支持多行注释。我们使用 StandardTokenParsers 的子类，它已经处理了此类注释(通过 StdLexical 。但是，该类仅适用于相当短的多行注释，否则会耗尽堆栈空间。

我们还尝试提供我们自己的空白定义以提高效率。我们使用了 RegexParser (受 another question on StackOverflow 启发)如下:

class Parser extends StandardTokenParsers {

  override val lexical = new StdLexical {
    def rp: RegexParsers = new RegexParsers {}
    override val whitespace: Parser[Any] = rp.regex("""(\s|//.*|(?m)/\*(\*(?!/)|[^*])*\*/)*""".r).asInstanceOf[Parser[Any]]
  }

  // ...

}

这稍微改善了这种情况，但如果注释超过几十行，仍然会导致堆栈溢出。任何想法如何改善这一点？

最佳答案

通过使用解析器而不是使用正则表达式定义空格跳过，我们在此类问题上取得了一些成功。在我们的 Kiama ParserUtilities.scala 中查看 WhitespaceParser 特征一些支持代码。

大部分的麻烦是覆盖正常的正则表达式空白处理并将新解析器绑定(bind)到文字和正则表达式组合器(我们通常不使用标记解析器)。见 one of our examples用于使用，在这种情况下用于处理嵌套注释。

关于Scala 解析器组合器 : Efficiently Parse C-Style Comments，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12764910/

上一篇：asp.net-mvc-2 - 向 ASP.NET MVC 的 SiteMap 添加自定义属性

下一篇：macos - 在 mac osx 中编译 libqxt

相关文章：

scala - 如何获取Gradle应用程序项目依赖的所有JAR的列表？

scala - 用于无形状可扩展记录的 API

parsing - uu-parsinglib 中的计划外贪婪行为

haskell - 使用解析器组合器解析 Haskell 本身

scala - 在运行Scala/SBT测试套件时设置环境变量

ScalaTest 相当于 JUnit 的套件？

parsing - 深度扩展解析器库的方法

Scala 解析器，为什么 "pat <~ pat ~> pat"不起作用？

f# - FParsec:如何组合解析器以便它们以任意顺序匹配

java - 如何定义要从生产中的不同子目录提供服务的 Play Assets 和 API？