面向多维生物医药数据整合挖掘的人工智能关键算法与应用研究

近年来,随着高通量生物组学、高内涵筛选技术、药物信息学和化学信息学的快速发展,生物医药多源大数据得到了快速积累。而以多维生物医药数据整合挖掘为基础,人工智能(Artificial Intelligence,AI)逐渐成为药物研发的关键技术。药物研发中的两个重要方向,药物重定位和联合用药也在AI技术的加持了取了巨大的进步,为创新药物研发和疾病治疗带来了全新的机遇。然而,AI算法在生物医药领域的应用仍面临诸多挑战。其中,生物医药实体关系的复杂性和算法的不可解释性使得AI的应用受到诸多限制。目前,新型图网络方法和可解释人工智能方法正在多个领域崭露头角。他们在药物重定位和联合用药领域的应用充满巨大潜力,有助于研究人员深入了解药物的作用机制和药效特点,有可能为药物研发带来革命性的进展。本研究拟以多维生物医药数据整合为基础,探索面向药物重定位和联合用药的图网络与可解释人工智能关键算法。首先,为了有效整合多维生物医药数据,本研究设计了基于网络的多维度数据集成算法;然后,以多维生物医药数据整合为基础,本研究采用图网络人工智能方法进行数据挖掘,构建了面向药物重定位和联合用药的一系列数据关联挖掘计算框架;最后,为了对生物医药关联的预测做出解释,本研究采用数据驱动和知识驱动相结合的AI算法构建了面向生物实体关联预测的可解释性计算框架。首先,针对多维生物医药数据整合,本研究建立了基于网络上随机游走过程的多维度数据集成算法。以癌症多组学数据整合为例,算法表现出色,展现了较强的抗噪能力和对网络结构感知的高灵敏性。以多维生物医药数据整合为基础,在基于图网络的药物重定位和联合用药方面,本研究针对药物-靶标关联预测、药物反应预测和药物组合预测设计实现了一系列图神经网络算法。首先,针对药物-靶标关联预测,提出了基于异构网络的图神经网络模型DTI-HETA。DTI-HETA使用图卷积策略和图注意力机制突出不同邻域节点的贡献。模型具有出色的药物-靶标关联预测能力,可以为药物重定位提供线索。然后,针对药物反应预测,提出了基于多视图注意力机制的图神经网络计算框架Deep DRP。通过使用图注意力模型和多头自注意力机制,Deep DRP可以有效捕捉生物化学实体之间的内部和外部关联。Deep DRP在多个场景下的预测性能都超过了现有方法,体外实验也成功验证了模型预测的高敏感性药物。最后,针对药物组合预测,开发了用于预测药物组合协同效应的图循环神经网络模型。模型使用门控机制和门控循环单元确保每个节点的表示可以更全面地吸收局部和全局信息以及潜在的关联信息。模型性能明显优于最先进的药物组合预测算法。此外,模型预测出的新型药物组合通过体外实验得到验证。这些药物组合可作为潜在的联合用药治疗策略被进一步评估。以多维生物医药数据整合为基础,在基于可解释人工智能的药物重定位和联合用药方面,本研究基于数据驱动和知识驱动相结合的AI算法建立了药物治疗属性预测计算框架,抗癌药物组合预测计算框架和生物实体关联预测计算框架。首先,针对药物治疗属性预测,设计了对比激活知识嵌入可解释神经网络。模型仅使用全连接神经网络的0.73%的网络参数就能实现较好的性能水平。此外,通过将生物通路的先验知识嵌入到神经网络中并根据“对比激活”提取重要性,模型能够捕获药物治疗属性预测中的关键通路并进行可解释性分析。然后,为了利用生物知识嵌入的可解释深度学习框架开发抗癌药物组合疗法,分别提出了合成致死预测模型Ediacara BiotaKNNSL和药物组合预测模型SEEnergy。KNNSL实现了预测能力和解释能力之间的平衡。此外,KNNSL能够帮助发现有前途的药物组合,如MDM2和CDK9抑制剂的组合,它们在体外实验表现出显著的抗癌作用,模型提供的解释性进一步阐明了相关的生物学过程。SEEnergy在多维度药物数据的基础上通过生物知识嵌入的神经网络和基于注意力的图网络两个模块提供两个层面的药物协同机制的解释性分析。基于计算和体外实验的验证也表明了SEEnergy在具有高预测精度的同时提供了具有应用潜力的机制解析。最后,针对生物实体关联预测,在前两项研究的基础上,提出了知识嵌入可解释深度森林框架,进一步推进了知识嵌入可解释AI模型的发展。模型适用于各类生物实体关联预测任务,例如药物组合预测、药物-靶标关联预测和合成致死预测。同时,模型利用树结构的特殊性质从重要生物过程定位和决策规则抽取等方面对模型进行多层次的解释。模型在各项指标和任务中表现出优秀的预测能力,并且有助于揭示潜在的生物机制。本研究的创新点主要有以下三个方面。第一,针对多维生物医药数据整合提出了基于网络的数据集成算PLX-4720纯度法。第二,以多维生物医药数据整合为基础,面向药物重定位和联合用药设计并实现一系列基于图网络的模型,为药物-靶标关联预测、药物反应预测和药物组合预测提供了便于使用的计算模型,充分利用了生物实体之间的关联信息,提升了药物发现的效率,降低了药物发现的成本。第三,以可解释AI为中心,提出了数据驱动与知识驱动融合的新型可解释人工智能模型。采用生物先验知识嵌入的模型在药物治疗属性预测、抗癌药物组合开发和生物实体关联预测方面CL13900浓度取得了优秀的预测性和解释性之间的平衡。更重要的是,模型的解释性发现了可供验证的药物作用机制假设,有助于更精准的药物发现,揭示药物的作用机理,并指导药物的临床应用。