python - nltk 标记化和收缩

标签 python nlp nltk

我正在使用 nltk 对文本进行标记，只是将句子提供给 wordpunct_tokenizer。这会拆分收缩(例如，'don't' 到 'don' +"' "+'t')，但我想将它们保留为一个词。我正在改进我的方法以更精确地对文本进行标记化，因此除了简单的标记化之外，我还需要更深入地研究 nltk 标记化模块。

我猜这很常见，我希望得到其他人的反馈，他们之前可能不得不处理过该特定问题。

编辑:

是的，我知道这是一个笼统的、乱七八糟的问题

此外，作为 nlp 的新手，我是否需要担心收缩？

编辑:

SExprTokenizer 或 TreeBankWordTokenizer 似乎可以满足我现在的需求。

最佳答案

您使用哪种分词器实际上取决于您接下来要做什么。正如 inspectorG4dget 所说，一些词性标注器处理拆分收缩，在这种情况下，拆分是一件好事。但也许那不是你想要的。要确定哪个分词器最好，请考虑下一步需要什么，然后将您的文本提交至 http://text-processing.com/demo/tokenize/查看每个 NLTK 分词器的行为方式。

关于python - nltk 标记化和收缩，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11351290/

上一篇：python - Boto connect_xxx 方法和连接池

下一篇：python - 为什么 os.umask() 的参数是倒置的？ (umask 0o000 使 chmod 0o777)

相关文章：

machine-learning - 我的公报上的实体无法识别

nltk - NLTK 的 BLEU 分数和 SacreBLEU 有什么区别？

python - python 中具有多种特征类型的机器学习

python - NLTK 分类的 ValueError

java - Java 中的 NP、VP 和 PP 短语分块 (CoreNLP)

python - 我的搜索词只打印列表中的最后一个词而不是找到的词 [Python 2.7.6]

python - IPython 和内联 Matplotlib 图大小

python - csv 中的双引号元素无法用 pandas 读取

python - Pandas 在 python Pandas 数据框中获取两行之间交集的方法

NLP:语言分析技术和算法