python - nltk 标记化和收缩

标签 python nlp nltk

我正在使用 nltk 对文本进行标记,只是将句子提供给 wordpunct_tokenizer。这会拆分收缩(例如,'don't' 到 'don' +"' "+'t'),但我想将它们保留为一个词。我正在改进我的方法以更精确地对文本进行标记化,因此除了简单的标记化之外,我还需要更深入地研究 nltk 标记化模块。

我猜这很常见,我希望得到其他人的反馈,他们之前可能不得不处理过该特定问题。

编辑:

是的,我知道这是一个笼统的、乱七八糟的问题

此外,作为 nlp 的新手,我是否需要担心收缩?

编辑:

SExprTokenizer 或 TreeBankWordTokenizer 似乎可以满足我现在的需求。

最佳答案

您使用哪种分词器实际上取决于您接下来要做什么。正如 inspectorG4dget 所说,一些词性标注器处理拆分收缩,在这种情况下,拆分是一件好事。但也许那不是你想要的。要确定哪个分词器最好,请考虑下一步需要什么,然后将您的文本提交至 http://text-processing.com/demo/tokenize/查看每个 NLTK 分词器的行为方式。

关于python - nltk 标记化和收缩,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11351290/

相关文章:

machine-learning - 我的公报上的实体无法识别

nltk - NLTK 的 BLEU 分数和 SacreBLEU 有什么区别?

python - python 中具有多种特征类型的机器学习

python - NLTK 分类的 ValueError

java - Java 中的 NP、VP 和 PP 短语分块 (CoreNLP)

python - 我的搜索词只打印列表中的最后一个词而不是找到的词 [Python 2.7.6]

python - IPython 和内联 Matplotlib 图大小

python - csv 中的双引号元素无法用 pandas 读取

python - Pandas 在 python Pandas 数据框中获取两行之间交集的方法

NLP:语言分析技术和算法