nlp - Stanford coreNLP - 忽略撇号的拆分词

标签 nlp stanford-nlp

我正在尝试使用 Stanford coreNLP 将句子拆分为单词。 我对包含撇号的单词有疑问。

例如,句子: 我今年 24 岁。

像这样拆分: [我]['][24][岁][老]

是否可以使用 Stanford coreNLP 像这样拆分它?: [我] [24] [岁] [老]

我试过使用 tokenize.whitespace,但它不会拆分其他标点符号,例如:'?'和','

最佳答案

目前,没有。后续的Stanford CoreNLP处理工具都是用Penn Treebank tokenization ,它将收缩分成两个标记(将“我是”视为“我是”的简化形式,将它变成两个“词”[I] ['m])。听起来您想要一种不同类型的标记化。

虽然有一些标记化选项,但没有一个可以改变这一点,如果不拆分收缩,后续工具(如 POS 标记器或解析器)将无法正常工作。您可以向分词器添加这样的选项,更改(删除)对 REDAUX 和 SREDAUX 尾随上下文的处理。

您也可以按照@dhg 的建议通过后处理加入缩略语,但您希望在“if”中更仔细地进行操作,这样它就不会加入引号。

关于nlp - Stanford coreNLP - 忽略撇号的拆分词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14058399/

相关文章:

java - 为了在我的项目中使用斯坦福解析器,我应该包含哪些 jar 文件?

java - 用于获取解析树的 Stanford CoreNLP 的更快替代方案?

dependency-parsing - 依赖解析器失败的示例

parallel-processing - 特征选择、特征提取、特征权重的区别

java - 如何使用Stanford Parser使用java获取POS标签?

java - 来自波斯语依存树库的斯坦福依存解析器的波斯语依存解析器。

java - CoreNlp 拆分 stanford-corenlp-3.2.0-models.jar

python - 元音计数序列

python - 匹配器正在返回一些重复项

Java:多维缩放?