nlp - Parsey McParseface 错误地识别问题的根源

标签 nlp tensorflow pos-tagger dependency-parsing parsey-mcparseface

在我看来,Parsey 在正确标记问题和任何带有“is”的句子方面存在严重问题。

文本:巴拉克奥巴马是夏威夷人吗?

GCloud 代币(正确):

  • 是 - [root] 动词
  • Barrack - [nn] 名词
  • 奥巴马 - [nsubj] NOUN
  • 来自 - [adp] PREP
  • 夏威夷 - [pobj] NOUN

  • Parsey 代币(错误):
  • 是 - [警察] 动词
  • Barrack - [nsubj] NOUN
  • 奥巴马 - [root] NOUN
  • 来自 - [adp] PREP
  • 夏威夷 - [pobj] NOUN

  • Parsey 决定将名词 (!) Obama 设为词根,这将其他一切都搞砸了。

    文字:我叫菲利普

    GCloud 代币(正确):
  • 我的 [poss] PRON
  • 名称 [nsubj] 名词
  • 是 [root] 动词
  • Philipp [attr] NOUN

  • ParseyTokens(不正确):
  • 我的 [poss] PRON
  • 名称 [nsubj] 名词
  • 是 [警察] 动词
  • Philipp [根] 名词

  • parsey 再次选择 NOUN 作为词根并与 COP 斗争。

    任何想法为什么会发生这种情况以及我如何解决它?

    谢谢,
    菲尔

    最佳答案

    关于第一个例子,Parsey 的训练数据似乎很旧,甚至没有提到“Barack”这个词。
    如果你用比尔克林顿代替巴拉克奥巴马,你会得到一个正确的解析。
    Input: Is Bill Clinton from Hawaii ? Parse: Is VBZ ROOT +-- Clinton NNP nsubj | +-- Bill NNP nn +-- from IN prep | +-- Hawaii NNP pobj +-- ? . punct
    第二个例子是根据斯坦福依赖关系正确解析的(参见 http://nlp.stanford.edu/software/dependencies_manual.pdf 中的“联结动词的处理”)。
    Input: My name is Philip Parse: Philip NNP ROOT +-- name NN nsubj | +-- My PRP$ poss +-- is VBZ cop

    关于nlp - Parsey McParseface 错误地识别问题的根源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38711353/

    相关文章:

    python - TensorFlow - tf.VariableScope 和 tf.variable_scope 之间的区别

    python - word2vec_basic 输出 : trying to test word similarity versus human similarity scores

    python - 如何在 Python 中使用 SVM 进行词性标注?

    python - 如何在不区分大小写的情况下翻译 NTLK swadesh 语料库中的单词 - python

    python - Python 缩写检测

    algorithm - 通过将字段存储为字节而不是数十亿文档的字符串,将在 Lucene 索引中优化多少空间和处理

    python - tf.nn.l2_loss 和 tf.contrib.layers.l2_regularizer 是否与在 tensorflow 中添加 L2 正则化的目的相同?

    python - 将 pandas 系列的 collections.counter 对象转换为 pandas dataframe 的多列

    java - hazm 库的 ValueError : Could not find stanford-postagger. jar 文件 - python NLP

    支持多种语言(尽可能多)的 Javascript word tokenizer 库