药物发现的可能性是无穷无尽的,然而,药物发现过程中的高损耗率是生物医学科学中面临的一个首要问题。据估计,截至2020年,美国FDA批准的每种药物的开发成本平均高达13亿美元。
近年来,计算机辅助药物设计(CADD)已成为药物研发的重要领域,它可以进行候选分子的初始筛选,并进行进一步优化。而其在最初阶段发现的良好线索对药物发现过程至关重要。但CADD面临着三个主要问题:首先,所需的算力成本很高;其次,一款药物能否成功上市不仅仅基于治疗其预期疾病的效果,90%的药物无法通过临床试验,药物的许多特性,例如ADMET(吸收、分配、代谢、排泄、毒性),药物-药物相互作用(DDI)和副作用在很大程度上影响药物的成功;第三,当前的CADD技术通常涉及使用许多专用模型,每个模型预测一个特定的化学性质,当许多模型堆叠时,所需的算力成本呈指数级增长。
近日,南洋理工大学慕宇光教授、智峪生科郑良振博士和山东大学李伟峰教授等在Nature子刊NatureMachineIntelligence上发表了题为:Applicationofvariationalgraphencodersasaneffectivegeneralistalgorithmincomputer-aideddrugdesign的研究论文。
该研究提出了一个单一、通用的统一模型,利用图卷积变分编码器,可以同时预测小分子药物的多种特性,例如吸收、分配、代谢、排泄和毒性,以及靶点特异性对接评分预测和药物-药物相互作用。使用这种模型可以实现目前最先进的虚拟筛选,具有高达两个数量级的加速优势。变分图编码器的隐空间最小化,还能与Pareto最优原则结合,加速特定药物的开发,并具有可解释性的额外优势。
尽管计算机辅助药物设计(CADD)在分子特性预测方面已经取得了相当大的进展,但仍迫切需要快速准确的模型。目前可用的许多方法大多专门用于预测特定属性,这导致堆叠使用多个模型时需要难以置信的高额算力成本。
在这项研究中,研究团队提出了一个变分图编码器(VariationalGraphEncoder)来解决CADD中面临的上述挑战,这是一个包含变分自编码器元素的卷积图神经网络模型,被训练来预测分子的简单描述符和二进制分子指纹,而非重建输入。
通过变分图编码器的中间数学表示(隐空间),可以训练代理模型来预测更复杂的属性。之前利用隐空间的工作包括在变分自编码器中采样,以产生有效的和选择性的RIPK1抑制剂和BRAF抑制剂。
分子被编码成图形格式,然后通过自编码器传递,隐空间用于通过代理模型进行属性预测
在方法方面,之前在递归神经网络中编码和解码SMILES字符串的工作,解锁了分子隐空间优化和预测的可能性。之后使用图特征和邻接矩阵连接的变分自编码器神经网络的工作也显示出有希望的结果。然而,后者限制了可以使用或由自编码器生成的分子的大小,而前者容易受到多个SMILES字符串编码同一分子的影响。这两种方法都不涉及任何节点级卷积。
解决这个问题的方法是使用边缘条件图卷积神经网络,它通过卷积主动破译每个分子中的连接和相邻原子。指纹和化学描述符的编码取代了传统的自动编码器,也允许在保持键和连接信息的同时编码任何大小的分子。因此,通过克服这些限制,可以在虚拟筛选中实现准确且可解释的模型,对不同数据库的数据集进行预测,并结合目标特异性评分功能进行虚拟筛选。
随着代理模型的整体多样性和准确性大大提高,可以使用Pareto最优原则进行更具挑战性的多目标优化。当与基于结构的虚拟筛选结合应用时,在初始筛选中可以观察到高达两个数量级的加速,这使得从前不可能的筛选大量分子成为可能。研究团队表示,这一方法将计算机辅助药物设计(CADD)转变为计算机辅助药物工程(CADE)。
期望的分子性质可以通过代理模型优化来设计,并且可以解释在性质预测中一个分子如何优于另一个分子
总的来说,该研究开发的变分图编码器的隐空间具有令人惊讶的多用途性质,可用于预测高度多样化数据集的属性。后续进一步的工作将涉及限制因素的缓解策略和算法在药物发现管线中的应用,包括随后的实验验证。
2012-04-06
2012-04-06
2012-04-06
2012-04-06
2012-04-06
2012-04-06
2012-04-06
2012-04-06
2012-04-06
2012-04-06