nlp - 命名实体日期提取

标签 nlp named-entity-recognition

总的来说,我对 NER、提取和编程完全陌生。我正在尝试找出一种方法来提取某些文档的到期日期和开始日期。有没有办法做到这一点?我可以从哪里开始?我一直在环顾四周,但遇到的问题是一样的。可以提取日期,但不能提取日期是到期日期还是过帐日期。如果只有 1 个日期,是过帐日期还是到期日期。像这样的东西。任何帮助将不胜感激。

示例:

“中世纪亚洲论文截止日期为 9 月 3 日。”

“您于 4 月 6 日提交的最后一份作业本应在 10 天内提交。”

“出价不得晚于发布之日起一个月内(今天)。”

最佳答案

以自由文本表达日期的可能性是巨大的。解决办法有以下几种:

  • 您可以提供一组正则表达式并尝试自己解析它们。

  • 如果您有带注释的文档,另一种选择是训练 CRF 等监督序列分类器。

  • 第三种选择,可以快速获得结果,是使用 Facebook 研究 https://github.com/facebookincubator/duckling 中的这个框架。 ,它会识别日期或时间表达式,甚至会将它们标准化为单个唯一日期。

  • 另一个选项是 ct-parse ,基于 Duckling,但是一个纯 python 包,用于解析德语和英语自然语言中的时间表达式。

关于nlp - 命名实体日期提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46192144/

相关文章:

html - 通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

python - 带 spacy 的德语小写词形还原

python - 在 Prodigy 中对 csv 文件运行 ner.manual

python - 无法在 Jupyter 笔记本中下载 nltk.download()

python - NLP 问题处理带连词的句子

javascript - 将字符串拆分成对、三元组、四元组和 on (ngrams)?

nlp - 斯坦福 NER 小写实体

java - NER标签数量

python - 如何在 stanford nlp 中查找命名实体的索引

machine-learning - 用于命名实体识别的 NLTK