我所说的非英语字母是指乌尔都语、印地语等语言。 有人可以建议我路径吗?
PS:不要标记 Lemmatization of non-English words? 的重复项。这里的上下文是不同的。我的意思是根本不使用英语字母的语言。另一个问题一般涉及非英语的语言。
最佳答案
用拉丁文、阿拉伯文、梵文或西里尔文书写的词形还原语言之间没有区别。 Unicode 允许以相同的方式表示和处理所有这些脚本(以及许多其他脚本),因此只要书写系统基于发音,就可以使用相同的技术和算法进行词形还原。
因此从技术上讲,您的问题和您链接到的问题之间没有区别,"Lemmatization of non-English words?" 。不过,我不会将其标记为重复项,因为您真正的问题是“如何将印地语/乌尔都语词形还原”,并且该问题没有得到解答,因为模式不支持这种语言。
关于python - 如何对不使用英语字母的语言中的单词进行词形还原?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42699627/