morphological-analysis - 有免费的德语形态分析图书馆吗?

标签 morphological-analysis languagetool

我正在寻找一个可以对德语单词进行形态分析的库,即它将任何单词转换为其词根形式并提供有关所分析单词的元信息。

例如:

gegessen -> essen
wurde [...] gefasst -> fassen
Häuser -> Haus
Hunde -> Hund

我的收藏:
  • 它必须同时使用名词和动词。
  • 我知道,鉴于德语的复杂性,这是一项非常艰巨的任务,因此我也在寻找仅提供近似值或准确度仅为80%的库。
  • 我更喜欢不能与字典一起使用的库,但是鉴于这种情况,我还是愿意妥协。
  • 我也更喜欢C/C++/Delphi Windows库,因为那样会使它们更易于集成,但是.NET,Java等也可以。
  • 它必须是一个免费库。 (L)GPL,MPL,...

  • 编辑:我知道,由于单词不规则,根本没有任何字典就无法执行形态分析。
    当我说时,我更喜欢没有字典的图书馆,我的意思是那些映射每个单词的功能强大的词典:
    arbeite -> arbeiten
    arbeitest -> arbeiten
    arbeitet -> arbeiten
    arbeitete -> arbeiten
    arbeitetest -> arbeiten
    arbeiteten -> arbeiten
    arbeitetet -> arbeiten
    gearbeitet -> arbeiten
    arbeite -> arbeiten
    ... 
    

    这些词典有几个缺点,包括庞大的规模和无法处理未知单词的能力。

    当然,所有异常只能使用字典来处理:
    esse -> essen
    isst -> essen
    eßt -> essen
    aß -> essen
    aßt -> essen
    aßen -> essen
    ...
    

    (我的想法现在正在旋转:))

    最佳答案

    我认为您正在寻找“阻止算法”。

    马丁·波特的方法在语言学家中广为人知。波特词干提取器基本上是词缀剥离算法,结合了一些特殊情况的替换规则。

    大多数词干会提供在语言上“不正确”的词干。例如:“beautiful”和“beauty”都可以产生词根“beauti”,这当然不是一个真实的词。但是,如果您使用这些词干来改善信息检索系统中的搜索结果,那么这无关紧要。例如,Lucene附带对Porter提取器的支持。

    波特还设计了一种用于开发词干提取器的简单编程语言,称为Snowball。

    Snowball中还提供德语词干。从Snowball来源生成的C版本也可以在网站上找到,并附带该算法的纯文本说明。

    这是《雪球》中的德国词干:http://snowball.tartarus.org/algorithms/german/stemmer.html

    如果您要寻找单词的相应词干(如在词典中找到的那样)以及词性信息,则应使用Google进行“词形化”。

    关于morphological-analysis - 有免费的德语形态分析图书馆吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/680907/

    相关文章:

    java - 从 XML 字符串获取值

    java - 部署报错Unable to compile class for JSP

    二值图像中的环形或空心伪影检测算法

    python - 形态学骨架 - scikit-image、pymorph、OpenCV-Python 之间的差异?

    python - 如何从手绘电路的扫描图像中检测逻辑门?

    java - maven 中没有这样的编译器 'javac'

    java语言工具库,找不到依赖

    r - data.frame 到数组(2 列)

    image-processing - opencv形态膨胀过滤器作为最大过滤器

    java - 在 LanguageTool 中,如何创建字典并将其用于拼写检查?