nlp - Stanford coreNLP - 忽略撇号的拆分词

我正在尝试使用 Stanford coreNLP 将句子拆分为单词。我对包含撇号的单词有疑问。

例如，句子: 我今年 24 岁。

像这样拆分: [我]['][24][岁][老]

是否可以使用 Stanford coreNLP 像这样拆分它？: [我] [24] [岁] [老]

我试过使用 tokenize.whitespace，但它不会拆分其他标点符号，例如:'?'和'，'

最佳答案

目前，没有。后续的Stanford CoreNLP处理工具都是用Penn Treebank tokenization ，它将收缩分成两个标记(将“我是”视为“我是”的简化形式，将它变成两个“词”[I] ['m])。听起来您想要一种不同类型的标记化。

虽然有一些标记化选项，但没有一个可以改变这一点，如果不拆分收缩，后续工具(如 POS 标记器或解析器)将无法正常工作。您可以向分词器添加这样的选项，更改(删除)对 REDAUX 和 SREDAUX 尾随上下文的处理。

您也可以按照@dhg 的建议通过后处理加入缩略语，但您希望在“if”中更仔细地进行操作，这样它就不会加入引号。

关于nlp - Stanford coreNLP - 忽略撇号的拆分词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14058399/

相关文章：

java - 为了在我的项目中使用斯坦福解析器，我应该包含哪些 jar 文件？