python - 执行顺序先到先得 : POS Tagging or Lemmatisation?

标签 python nlp nltk pos-tagger lemmatization

如果我想制作一个像 NLTK 这样的 NLP 工具包,我会在标记化和规范化之后首先实现哪些功能。词性标记还是词形还原?

最佳答案

词性对于词形还原的工作很重要,因为单词根据词性具有不同的含义。并使用此信息,词形还原将返回基本形式或引理。因此,如果先实现词性标注会更好。

词形还原背后的主要思想是将一个词的不同变形形式归为一个。例如,go, going, gonewent 将变成一个 - go。但要得出这一点,词形还原必须知道单词的上下文——该单词是名词还是动词等。

因此,词形还原函数可以将单词和词性作为输入,并在处理信息后返回词条。

关于python - 执行顺序先到先得 : POS Tagging or Lemmatisation?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42835852/

相关文章:

python - 给定两个文本的匹配单词的索引

python - NLTK Python 类型错误 : 'module' object is not callable

python - 跟踪 numpy 数组中的每个矩阵

python - 迭代 python 字典以仅检索所需的行

machine-learning - 新闻文章的聚类

python - NLTK 标记荷兰语句子

python - nltk NER 单词提取

python - numpy 有条件地用数组替换标量/ bool 值

python - Python请求库遇到重试限制时如何访问服务器响应

python - 在 TF-IDF 中结合 Unigram 和 Bigram