lisp - 我如何操作解析树?

标签 lisp nlp pattern-matching stanford-nlp s-expression

我一直在研究自然语言解析树并以各种方式操纵它们。我一直在使用 Stanford 的 Tregex 和 Tsurgeon 工具,但代码一团糟,不适合我主要使用 Python 的环境(这些工具是 Java,不适合调整)。我想要一个工具集,当我需要更多功能时可以轻松进行黑客攻击。是否有任何其他工具非常适合在树上进行模式匹配,然后对这些匹配的分支进行操作?

例如,我想将以下树作为输入:

(ROOT
  (S
    (NP
      (NP (NNP Bank))
      (PP (IN of)
        (NP (NNP America))))
    (VP (VBD used)
      (S
        (VP (TO to)
          (VP (VB be)
            (VP (VBN called)
              (NP
                (NP (NNP Bank))
                (PP (IN of)
                  (NP (NNP Italy)))))))))))

和(这是一个简化的例子):

  1. 找到带有标签 NP 的任何节点,该节点具有第一个带有标签 NP 的子节点和一些名为“Bank”的后代,以及带有标签 PP 的第二个子节点。
  2. 如果匹配,则取出 PP 节点的所有子节点并将它们移动到匹配的 NP 的子节点的末尾。

例如,取树的这一部分:

(NP
  (NP (NNP Bank))
  (PP (IN of)
    (NP (NNP America))))

然后把它变成这样:

(NP
  (NP (NNP Bank) (IN of) (NP (NNP America))))

因为我的输入树是 S 表达式,所以我考虑过使用 Lisp(嵌入到我的 Python 程序中),但是我已经用 Lisp 编写了任何重要的东西,以至于我不知道从哪里开始。

什么是描述模式的好方法?什么是描述操作的好方法?思考这个问题的好方法是什么?

最佳答案

美在于旁观者的眼中。但你永远不会说 Tregex 或 Tsurgeon 的代码如何是一团糟。这听起来更像是您无法处理 Java 或更高的抽象,因此您正在寻找用 Python 编写的具体内容。

手写树匹配和变换函数没有错。事实上,我们过去一直这样做。但在最初的几百个之后,似乎必须有更好的方法,因此我们转向使用 Tregex 和 Tsurgeon 的特定领域语言。这通常被视为一种值得称赞的编程风格。参见 Wikipedia .它们是具有精确语法规范等的规范明确的语言。这是您使用它们的示例。

Tree t = Tree.valueOf("(ROOT (S (NP (NP (NNP Bank)) (PP (IN of) (NP (NNP America)))) (VP (VBD used) (S (VP (TO to) (VP (VB be) (VP (VBN called) (NP (NP (NNP Bank)) (PP (IN of) (NP (NNP Italy)))))))))))");
TregexPattern pat = TregexPattern.compile("NP <1 (NP << Bank) <2 PP=remove");
TsurgeonPattern surgery = Tsurgeon.parseOperation("excise remove remove");
Tsurgeon.processPattern(pat, surgery, t).pennPrint();

请注意,Java 代码实际上比 Lisp 代码更短,正是因为使用了领域特定语言。很难看出这还能更简单:指定模式、指定操作、应用。

但如果您更喜欢手写方法来匹配树上的模式并将它们更改为 Python 中的其他树,那么非常欢迎您开始这样做。

关于lisp - 我如何操作解析树?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3693323/

相关文章:

python - 在 Python 中使用 Stanford Tregex

haskell - 在 Haskell 中解构元组时,可以在哪里使用元素?

file-io - 到达eof时,读取行在Lisp中如何工作?

lambda - 带有 IF 子句的 Lisp Lambda 函数

nlp - 词嵌入中的维数是什么?

python - 将单引号替换为双引号并排除某些元素

lisp - 设置,不在 Lisp 世界中列出?

lisp - LISP 应该解决的 "not so well defined problems"是什么?

python - NLTK 上下文无关文法生成器

javascript - 具有精确模式的单词的正则表达式