python - 在 Amazon Comprehend Medical 中识别单词的不同时态

标签 python nlp nltk amazon-comprehend

我正在使用 Amazon Comprehend Medical 进行实体伤害检测。

假设我有一段文字如下:

约翰接受了手术修复脱臼的左膝和完全 ACL 撕裂。”

Amazon comprehend Medical (ACM) 能够将脱臼识别为一种医疗状况。但是请考虑下一段文字:

“约翰因右膝盖脱臼而缺阵。”

在这段文字中,ACM 无法将脱臼识别为一种医疗状况。同样,如果我输入“左脚踝扭伤”这样的文本,ACM 能够将脚踝扭伤识别为一种医疗状况,但如果我输入“左脚踝扭伤”,它就不会识别该词扭伤是一种医疗状况。

有什么方法可以清理我的文本并更改单词的顺序,以便可以准确地标记这些实体?

最佳答案

您正在寻找的称为词形还原。例如,您可以使用 NLTK 工具包将每个单词简化为其非变形基本形式(引理),这将为您提供“dislocate”和“strain”作为基本形式。这可以提高实体检测的精度。单词的顺序实际上并不重要。否则,训练您自己的 NER ( https://nlpforhackers.io/named-entity-extraction/ )。

关于python - 在 Amazon Comprehend Medical 中识别单词的不同时态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58528509/

相关文章:

python - NLP-词袋分类

python - 如何使用 nltk 正则表达式模式来提取特定的短语 block ?

python - “float”对象在 Newton-Raphson 迭代中不可迭代

python - 更新同一索引的行

python - 为什么使用 urllib2 打开 url 时出现乱码?

python - 如何在 python 中更快地操作大文件?

python - NLTK - block 语法不读取逗号

c# - 英语自然句的算法

python - NLTK - 自动翻译相似词

ipython - 如何制作 iPython/Jupyter 中内联的 NLTK draw() 树