总的来说,我对 NER、提取和编程完全陌生。我正在尝试找出一种方法来提取某些文档的到期日期和开始日期。有没有办法做到这一点?我可以从哪里开始?我一直在环顾四周,但遇到的问题是一样的。可以提取日期,但不能提取日期是到期日期还是过帐日期。如果只有 1 个日期,是过帐日期还是到期日期。像这样的东西。任何帮助将不胜感激。
示例:
“中世纪亚洲论文截止日期为 9 月 3 日。”
“您于 4 月 6 日提交的最后一份作业本应在 10 天内提交。”
“出价不得晚于发布之日起一个月内(今天)。”
最佳答案
以自由文本表达日期的可能性是巨大的。解决办法有以下几种:
您可以提供一组正则表达式并尝试自己解析它们。
如果您有带注释的文档,另一种选择是训练 CRF 等监督序列分类器。
第三种选择,可以快速获得结果,是使用 Facebook 研究 https://github.com/facebookincubator/duckling 中的这个框架。 ,它会识别日期或时间表达式,甚至会将它们标准化为单个唯一日期。
另一个选项是 ct-parse ,基于 Duckling,但是一个纯 python 包,用于解析德语和英语自然语言中的时间表达式。
关于nlp - 命名实体日期提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46192144/