我正在使用 nltk 对文本进行标记,只是将句子提供给 wordpunct_tokenizer。这会拆分收缩(例如,'don't' 到 'don' +"' "+'t'),但我想将它们保留为一个词。我正在改进我的方法以更精确地对文本进行标记化,因此除了简单的标记化之外,我还需要更深入地研究 nltk 标记化模块。
我猜这很常见,我希望得到其他人的反馈,他们之前可能不得不处理过该特定问题。
编辑:
是的,我知道这是一个笼统的、乱七八糟的问题
此外,作为 nlp 的新手,我是否需要担心收缩?
编辑:
SExprTokenizer 或 TreeBankWordTokenizer 似乎可以满足我现在的需求。
最佳答案
您使用哪种分词器实际上取决于您接下来要做什么。正如 inspectorG4dget 所说,一些词性标注器处理拆分收缩,在这种情况下,拆分是一件好事。但也许那不是你想要的。要确定哪个分词器最好,请考虑下一步需要什么,然后将您的文本提交至 http://text-processing.com/demo/tokenize/查看每个 NLTK 分词器的行为方式。
关于python - nltk 标记化和收缩,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11351290/