我正在使用 Python 和 RegexpParser,我想编写这样的语法:
<JJ><NN><anything>
<RB><JJ><not NN nor NNT>
- 第一个意思是:第一个单词应该是 JJ,第二个单词是 NN,第三个单词应该是任何内容
- 第二个意思是:RB 后跟 JJ,第三个单词不能是 NN 或 NNT
我很难用正则表达式表达(也不是......)
...
最佳答案
例如下面的例子,语法是:
grammar = """ P: {<NN><VBD><JJ><CC><JJ>}
{<NN><VBD><JJ>}
"""
分块器:
PChunker = RegexpParser(grammar)
这句话是:
sentence = ['The', 'pizza', 'was', 'good', 'but', 'pasta', 'was', 'bad']
运行以下代码后:
print("sentence : ",PChunker.parse(pos_tag(sentence)))
结果将是:
sentence : (S
The/DT
(P pizza/NN was/VBD good/JJ)
but/CC
(P pasta/NN was/VBD bad/JJ))
关于python - NLTK正则表达式,具体语法怎么写?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55655114/