parsing - 创建 .conll 文件作为斯坦福解析器的输出

标签 parsing format stanford-nlp

我想使用斯坦福解析器创建一个 .conll 文件以进行进一步处理。 到目前为止,我设法使用以下命令解析测试句子:

stanford-parser-full-2013-06-20/lexparser.sh  stanford-parser-full-2013-06-20/data/testsent.txt > output.txt

我想要一个 .conll 格式的文件,而不是 txt 文件。我很确定这是可能的,因为文档中提到了这一点(请参阅 here )。我可以以某种方式修改我的命令还是必须编写 Java 代码?

感谢您的帮助!

最佳答案

如果您正在寻找以 CoNLL X (CoNLL 2006) 格式打印的依赖项,请从命令行尝试此操作:

java -mx150m -cp "stanford-parser-full-2013-06-20/*:" edu.stanford.nlp.parser.lexparser.LexicalizedParser -outputFormat "penn" edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz stanford-parser-full-2013-06-20/data/testsent.txt >testsent.tree

java -mx150m -cp "stanford-parser-full-2013-06-20/*:" edu.stanford.nlp.trees.EnglishGrammaticalStructure -treeFile testsent.tree -conllx

这是第一个测试句子的输出:

1       Scores        _       NNS     NNS     _       4       nsubj        _       _
2       of            _       IN      IN      _       0       erased       _       _
3       properties    _       NNS     NNS     _       1       prep_of      _       _
4       are           _       VBP     VBP     _       0       root         _       _
5       under         _       IN      IN      _       0       erased       _       _
6       extreme       _       JJ      JJ      _       8       amod         _       _
7       fire          _       NN      NN      _       8       nn           _       _
8       threat        _       NN      NN      _       4       prep_under   _       _
9       as            _       IN      IN      _      13       mark         _       _
10      a             _       DT      DT      _      12       det          _       _
11      huge          _       JJ      JJ      _      12       amod         _       _
12      blaze         _       NN      NN      _      15       xsubj        _       _
13      continues     _       VBZ     VBZ     _       4       advcl        _       _
14      to            _       TO      TO      _      15       aux          _       _
15      advance       _       VB      VB      _      13       xcomp        _       _
16      through       _       IN      IN      _       0       erased       _       _
17      Sydney        _       NNP     NNP     _      20       poss         _       _
18      's            _       POS     POS     _       0       erased       _       _
19      north-western _       JJ      JJ      _      20       amod         _       _
20      suburbs       _       NNS     NNS     _      15       prep_through _       _
21      .             _       .       .       _       4       punct        _       _

关于parsing - 创建 .conll 文件作为斯坦福解析器的输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17450652/

相关文章:

c++ - 确定字符串是否包含实数或整数值的最快方法

java - 删除 XML 字符元素中重复的换行符/制表符/空格

python - 在字符串格式中调用类方法

C# - 格式化 .text 文档问题

python - 如何重新格式化一串字符串操作并获取其结果

java - Stanford CoreNLP 中的详细情绪评分

javascript - JSON CSS 解析器

python - 从 PDF 中搜索文本的脚本

java - 在斯坦福解析器上设置非折叠依赖项

python - 通过寻找单词的线性代数结构来评估 Glove 模型