如果我想制作一个像 NLTK 这样的 NLP 工具包,我会在标记化和规范化之后首先实现哪些功能。词性标记还是词形还原?
最佳答案
词性对于词形还原的工作很重要,因为单词根据词性具有不同的含义。并使用此信息,词形还原将返回基本形式或引理。因此,如果先实现词性标注会更好。
词形还原背后的主要思想是将一个词的不同变形形式归为一个。例如,go, going, gone 和 went 将变成一个 - go。但要得出这一点,词形还原必须知道单词的上下文——该单词是名词还是动词等。
因此,词形还原函数可以将单词和词性作为输入,并在处理信息后返回词条。
关于python - 执行顺序先到先得 : POS Tagging or Lemmatisation?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42835852/