python - 如何对不使用英语字母的语言中的单词进行词形还原？

我所说的非英语字母是指乌尔都语、印地语等语言。有人可以建议我路径吗？

PS:不要标记 Lemmatization of non-English words? 的重复项。这里的上下文是不同的。我的意思是根本不使用英语字母的语言。另一个问题一般涉及非英语的语言。

最佳答案

用拉丁文、阿拉伯文、梵文或西里尔文书写的词形还原语言之间没有区别。 Unicode 允许以相同的方式表示和处理所有这些脚本(以及许多其他脚本)，因此只要书写系统基于发音，就可以使用相同的技术和算法进行词形还原。

因此从技术上讲，您的问题和您链接到的问题之间没有区别，"Lemmatization of non-English words?" 。不过，我不会将其标记为重复项，因为您真正的问题是“如何将印地语/乌尔都语词形还原”，并且该问题没有得到解答，因为模式不支持这种语言。

关于python - 如何对不使用英语字母的语言中的单词进行词形还原？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42699627/

相关文章：

python - 创建长时间运行的进程的机制