我正在使用 Amazon Comprehend Medical 进行实体伤害检测。
假设我有一段文字如下:
约翰接受了手术修复脱臼的左膝和完全 ACL 撕裂。”
Amazon comprehend Medical (ACM) 能够将脱臼识别为一种医疗状况。但是请考虑下一段文字:
“约翰因右膝盖脱臼而缺阵。”
在这段文字中,ACM 无法将脱臼识别为一种医疗状况。同样,如果我输入“左脚踝扭伤”这样的文本,ACM 能够将脚踝扭伤识别为一种医疗状况,但如果我输入“左脚踝扭伤”,它就不会识别该词扭伤是一种医疗状况。
有什么方法可以清理我的文本并更改单词的顺序,以便可以准确地标记这些实体?
最佳答案
您正在寻找的称为词形还原。例如,您可以使用 NLTK 工具包将每个单词简化为其非变形基本形式(引理),这将为您提供“dislocate”和“strain”作为基本形式。这可以提高实体检测的精度。单词的顺序实际上并不重要。否则,训练您自己的 NER ( https://nlpforhackers.io/named-entity-extraction/ )。
关于python - 在 Amazon Comprehend Medical 中识别单词的不同时态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58528509/