nlp - Parsey McParseface 错误地识别问题的根源

标签 nlp tensorflow pos-tagger dependency-parsing parsey-mcparseface

在我看来，Parsey 在正确标记问题和任何带有“is”的句子方面存在严重问题。

文本:巴拉克奥巴马是夏威夷人吗？

GCloud 代币(正确):

是 - [root] 动词

Barrack - [nn] 名词

奥巴马 - [nsubj] NOUN

来自 - [adp] PREP

夏威夷 - [pobj] NOUN

Parsey 代币(错误):

是 - [警察] 动词

Barrack - [nsubj] NOUN

奥巴马 - [root] NOUN

来自 - [adp] PREP

夏威夷 - [pobj] NOUN

Parsey 决定将名词 (!) Obama 设为词根，这将其他一切都搞砸了。

文字:我叫菲利普

GCloud 代币(正确):

我的 [poss] PRON

名称 [nsubj] 名词

是 [root] 动词

Philipp [attr] NOUN

ParseyTokens(不正确):

我的 [poss] PRON

名称 [nsubj] 名词

是 [警察] 动词

Philipp [根] 名词

parsey 再次选择 NOUN 作为词根并与 COP 斗争。

任何想法为什么会发生这种情况以及我如何解决它？

谢谢，
菲尔

最佳答案

关于第一个例子，Parsey 的训练数据似乎很旧，甚至没有提到“Barack”这个词。
如果你用比尔克林顿代替巴拉克奥巴马，你会得到一个正确的解析。
Input: Is Bill Clinton from Hawaii ? Parse: Is VBZ ROOT +-- Clinton NNP nsubj | +-- Bill NNP nn +-- from IN prep | +-- Hawaii NNP pobj +-- ? . punct
第二个例子是根据斯坦福依赖关系正确解析的(参见 http://nlp.stanford.edu/software/dependencies_manual.pdf 中的“联结动词的处理”)。
Input: My name is Philip Parse: Philip NNP ROOT +-- name NN nsubj | +-- My PRP$ poss +-- is VBZ cop

关于nlp - Parsey McParseface 错误地识别问题的根源，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38711353/

上一篇：scala - 设置 SBT 的堆栈大小

下一篇：Perl $_嵌套循环中的变量工作机制

python - word2vec_basic 输出 : trying to test word similarity versus human similarity scores

python - 如何在 Python 中使用 SVM 进行词性标注？

python - 如何在不区分大小写的情况下翻译 NTLK swadesh 语料库中的单词 - python

python - Python 缩写检测

algorithm - 通过将字段存储为字节而不是数十亿文档的字符串，将在 Lucene 索引中优化多少空间和处理

python - tf.nn.l2_loss 和 tf.contrib.layers.l2_regularizer 是否与在 tensorflow 中添加 L2 正则化的目的相同？

python - 将 pandas 系列的 collections.counter 对象转换为 pandas dataframe 的多列

java - hazm 库的 ValueError : Could not find stanford-postagger. jar 文件 - python NLP

支持多种语言(尽可能多)的 Javascript word tokenizer 库