python - 用于识别产品的自定义 NER

我正在尝试构建一个用于产品名称及其型号的自定义命名实体提取器。

我的用例包含如下句子: “微软使用了产品 ABC-300 并将其与 ASQ 集成”。上句提到的产品是:ABC-300和ASQ

我已经尝试过使用Stanford和Spacy NER，两者的准确性都低于预期。

是否有任何在段落或句子中包含产品名称的数据集可用于训练自定义 NER 模型？训练的句子可以是简单的，也可以是复杂的。任何类型的数据都会有用。

任何关于如何用更少的训练数据解决这个问题的线索也将受到赞赏。

最佳答案

一种可能的解决方案是使用 TokensRegexNERAnnotator ( https://stanfordnlp.github.io/CoreNLP/regexner.html )

假设您可以“正则表达式”产品名称

关于python - 用于识别产品的自定义 NER，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59731715/

相关文章：

python - 使用 argparse 输出调用函数