我正在寻找一个可以对德语单词进行形态分析的库,即它将任何单词转换为其词根形式并提供有关所分析单词的元信息。
例如:
gegessen -> essen
wurde [...] gefasst -> fassen
Häuser -> Haus
Hunde -> Hund
我的收藏:
编辑:我知道,由于单词不规则,根本没有任何字典就无法执行形态分析。
当我说时,我更喜欢没有字典的图书馆,我的意思是那些映射每个单词的功能强大的词典:
arbeite -> arbeiten
arbeitest -> arbeiten
arbeitet -> arbeiten
arbeitete -> arbeiten
arbeitetest -> arbeiten
arbeiteten -> arbeiten
arbeitetet -> arbeiten
gearbeitet -> arbeiten
arbeite -> arbeiten
...
这些词典有几个缺点,包括庞大的规模和无法处理未知单词的能力。
当然,所有异常只能使用字典来处理:
esse -> essen
isst -> essen
eßt -> essen
aß -> essen
aßt -> essen
aßen -> essen
...
(我的想法现在正在旋转:))
最佳答案
我认为您正在寻找“阻止算法”。
马丁·波特的方法在语言学家中广为人知。波特词干提取器基本上是词缀剥离算法,结合了一些特殊情况的替换规则。
大多数词干会提供在语言上“不正确”的词干。例如:“beautiful”和“beauty”都可以产生词根“beauti”,这当然不是一个真实的词。但是,如果您使用这些词干来改善信息检索系统中的搜索结果,那么这无关紧要。例如,Lucene附带对Porter提取器的支持。
波特还设计了一种用于开发词干提取器的简单编程语言,称为Snowball。
Snowball中还提供德语词干。从Snowball来源生成的C版本也可以在网站上找到,并附带该算法的纯文本说明。
这是《雪球》中的德国词干:http://snowball.tartarus.org/algorithms/german/stemmer.html
如果您要寻找单词的相应词干(如在词典中找到的那样)以及词性信息,则应使用Google进行“词形化”。
关于morphological-analysis - 有免费的德语形态分析图书馆吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/680907/