基于机器阅读理解的肺癌诊断文本结构化研究与应用

电子病历中记录的病理诊断是医疗领域中重要的信息源。病理诊断通常是非结构化的病症描述和诊断结论文本,不易挖掘其中蕴含的重要信息。病理诊断文本的结构化对于辅助临床决策、疾病的预防和早期诊断具有重要的意义。然而,肺癌诊断文本结构化任务仍然面临着以下两个挑Telaglenastat战:(1)需抽取的属性类型多,数据对于每个类型的属性描述信息少,不利于所有属性的抽取。(2)模型无法适应可能出现的新的属性抽取需求。针对以上两个问题,本文的工作如下:(1)提出了一种基于机器阅读理解的多任务属性抽取模型,实现对肺癌诊断文本中的属性抽取。首先,为了解决训练数据不足的问题。使用了问题与诊断文本拼接的方式构造模型的训练数据,通过将不同类别的属性问题与对每条肺癌诊断文本进行拼接,实现了对训练数据的扩充;其次,为了解决模型对答案边界抽取错误的问题,通过在问题中加入对应答案的候选词,给予模型更多关于答案边界的提示信息,使得模型更充分的考虑问题与文本的上下文语意,从而更精准的确定答案的边界位置;最后,为了提高模型整体的属性抽取效果,采用了多任务学习的思想,设计合适辅助任务和主干任务,同时进行任务训练,任务间共享底层模型编码信息,辅助任务对主干任务进行权重约束,使得其与单任务的机器阅读理解属性抽取模型相比,属性抽取效果得到明显提升。(2)提出了一种基于机器阅读理解的持续属性抽取模型,实现了只使用少量标注新属性的数据对模型进行增量更新。由于医疗领域数据安全性问题,标注过的数据不应该再对新属性进行补充标注。若对新数据进行全量标注时间成本高,且随着标注量的增大,标注错误也会随之累积,不利于后续模型训练。为了解决模型不能适应新的属性抽取需求问题,同时避免对数据进行全量标注。本文在传统机器阅读理解模型的基础上引入持续学习思想,只需要对数据中出现的新属性进行标注,然后在该数据上进行训练即可实现Malaria immunity对模型的更新。对于旧的属性抽取知识,利用学习过该知识的教师模型蒸馏知识到学生模型,对学生模型中旧的属性抽取知识进行巩固,对抗灾难性遗忘。对于新的有标注属性,学生模型直接根据真实标签进行学习。通过该方案可以使得学生模型同时掌握新旧属性的抽取知识,解决了机器阅读理解模型不能增量更新的问题。(3)在以上提出模型的基础上,本文设计并实现了一个基于B/S架构的肺癌诊断文本结构化原型系统。该系统能够从非结构化的肺癌诊断报告中抽取出指定属性的属性值,并结合肺癌诊断数据自身规则形成结构化的病Pidnarulex配制理诊断数据。同时…