在我看来,Parsey 在正确标记问题和任何带有“is”的句子方面存在严重问题。
文本:巴拉克奥巴马是夏威夷人吗?
GCloud 代币(正确):
Parsey 代币(错误):
Parsey 决定将名词 (!) Obama 设为词根,这将其他一切都搞砸了。
文字:我叫菲利普
GCloud 代币(正确):
ParseyTokens(不正确):
parsey 再次选择 NOUN 作为词根并与 COP 斗争。
任何想法为什么会发生这种情况以及我如何解决它?
谢谢,
菲尔
最佳答案
关于第一个例子,Parsey 的训练数据似乎很旧,甚至没有提到“Barack”这个词。
如果你用比尔克林顿代替巴拉克奥巴马,你会得到一个正确的解析。
Input: Is Bill Clinton from Hawaii ?
Parse:
Is VBZ ROOT
+-- Clinton NNP nsubj
| +-- Bill NNP nn
+-- from IN prep
| +-- Hawaii NNP pobj
+-- ? . punct
第二个例子是根据斯坦福依赖关系正确解析的(参见 http://nlp.stanford.edu/software/dependencies_manual.pdf 中的“联结动词的处理”)。
Input: My name is Philip
Parse:
Philip NNP ROOT
+-- name NN nsubj
| +-- My PRP$ poss
+-- is VBZ cop
关于nlp - Parsey McParseface 错误地识别问题的根源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38711353/