c# - 如何正确地为单词添加 "a"和 "an"前缀?

标签 c# nlp linguistics

我有一个 .NET 应用程序,在给定一个名词的情况下,我希望它正确地为该词添加前缀“a”或“an”。我该怎么做?

在您认为答案是简单地检查第一个字母是否为元音之前,请考虑以下短语:

  • 一个无心的错误
  • 一辆二手车

最佳答案

  1. 下载维基百科
  2. 解压缩并编写一个快速过滤程序,仅输出文章文本(下载通常为 XML 格式,以及非文章元数据)。
  3. 找到 a(n).... 的所有实例,并为以下单词及其所有前缀建立索引(您可以为此使用一个简单的后缀)。这应该区分大小写,并且您需要最大字长 - 15 个字母?
  4. (可选)丢弃所有出现次数少于 5 次或“a”与“an”达到不到 2/3 多数(或其他一些阈值 - 此处调整)的前缀。最好保留空前缀以避免极端情况。
  5. 您可以通过丢弃其父级共享相同“a”或“an”注释的所有前缀来优化您的前缀数据库。
  6. 在判断是使用“A”还是“AN”时,找到最长的匹配前缀,并以其为首。如果您在第 4 步中没有丢弃空前缀,那么总是匹配前缀(即空前缀),否则您可能需要一个完全不匹配字符串的特殊情况(这样的输入应该很少见)。

您可能没有比这更好的了 - 它肯定会击败大多数基于规则的系统。

编辑:我有 implemented this in JS/C# .你可以try it in your browser ,或下载它使用的小型、可重用的 javascript 实现。 .NET 实现是包 AvsAn on nuget .实现是微不足道的,因此在必要时应该很容易移植到任何其他语言。

事实证明,“规则”比我想象的要复杂得多:

  • 这是出乎意料的结果,但却是一致投票
  • 这是一个诚实的决定,但是一个金银花灌木
  • 符号:它是一个 0800 数字,或者是一个牛至的∞。
  • Acronyms:a NASA 科学家,an NSA 分析师; FIAT 汽车但 FAA 政策。

...这只是强调基于规则的系统很难构建!

关于c# - 如何正确地为单词添加 "a"和 "an"前缀?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1288291/

相关文章:

nlp - 这个神经网络模型是否存在?

parsing - 如何解析对于正式语法而言过于可变但对于 NLP 而言又过于受限的文本?

Python - 英语翻译器

python - NLTK WordNet 动词层次结构

Razor C# 中的 JavaScript 调用

C# 嵌套标签的正则表达式

open-source - 术语提取和情感分析开源项目

c# - 以编程方式启用录音设备

c# - ORA-01858 : a non-numeric character was found where a numeric was expected

python - python中的多文档摘要