python - 如何对不使用英语字母的语言中的单词进行词形还原?

标签 python nlp nltk lemmatization

我所说的非英语字母是指乌尔都语、印地语等语言。 有人可以建议我路径吗?

PS:不要标记 Lemmatization of non-English words? 的重复项。这里的上下文是不同的。我的意思是根本不使用英语字母的语言。另一个问题一般涉及非英语的语言。

最佳答案

用拉丁文、阿拉伯文、梵文或西里尔文书写的词形还原语言之间没有区别。 Unicode 允许以相同的方式表示和处理所有这些脚本(以及许多其他脚本),因此只要书写系统基于发音,就可以使用相同的技术和算法进行词形还原。

因此从技术上讲,您的问题和您链接到的问题之间没有区别,"Lemmatization of non-English words?" 。不过,我不会将其标记为重复项,因为您真正的问题是“如何将印地语/乌尔都语词形还原”,并且该问题没有得到解答,因为模式不支持这种语言。

关于python - 如何对不使用英语字母的语言中的单词进行词形还原?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42699627/

相关文章:

python - 创建长时间运行的进程的机制

python - 如何在给定引理和标记的情况下反转词形还原过程?

java - 维基百科:跨多种语言的页面

nlp - 将数据集转换为 CoNLL 格式。用 O 标记剩余的标记

python - Spacy:如何获得所有描述名词的词?

python - NLTK 停用词可用语言

python - 从 Pandas 数据框中删除停用词

python - 从 python 程序中安装模块

python - json.解码器.JSONDecodeError : Expecting property name enclosed in double quotes: line 1 column 2 (char 1)

python - 展平 numpy 数组列表,同时保留内部数组