我正在尝试使用 Stanford coreNLP 将句子拆分为单词。 我对包含撇号的单词有疑问。
例如,句子: 我今年 24 岁。
像这样拆分: [我]['][24][岁][老]
是否可以使用 Stanford coreNLP 像这样拆分它?: [我] [24] [岁] [老]
我试过使用 tokenize.whitespace,但它不会拆分其他标点符号,例如:'?'和','
最佳答案
目前,没有。后续的Stanford CoreNLP处理工具都是用Penn Treebank tokenization ,它将收缩分成两个标记(将“我是”视为“我是”的简化形式,将它变成两个“词”[I] ['m])。听起来您想要一种不同类型的标记化。
虽然有一些标记化选项,但没有一个可以改变这一点,如果不拆分收缩,后续工具(如 POS 标记器或解析器)将无法正常工作。您可以向分词器添加这样的选项,更改(删除)对 REDAUX 和 SREDAUX 尾随上下文的处理。
您也可以按照@dhg 的建议通过后处理加入缩略语,但您希望在“if”中更仔细地进行操作,这样它就不会加入引号。
关于nlp - Stanford coreNLP - 忽略撇号的拆分词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14058399/