论文信息
研究背景
分子性质预测本质上是通过算法建立分子结构与性质之间数学关系的模型。其中,分子结构表征是关键。由于图数据结构能直观反映分子结构并符合人类专家的化学直觉,近年来,结构表征已从人工设计描述符转向基于图神经网络(GNN)的自动特征提取方法,并在多种下游预测任务中取得了良好效果。然而,传统GNN大多只能表达分子的二维拓扑结构,无法有效捕捉三维几何信息。尽管已有研究尝试引入三维结构提升GNN能力,但尚无全面表征分子绝对构型的方法,更缺乏融合电子结构信息的模型。因此,开发能同时表征三维几何与电子结构的算法具有重要意义。
文章概述
近日,核生化灾害防护化学全国重点实验室肖军华与丁俊杰研究团队提出了一种新型量子融合几何增强型分子表征学习算法,成功实现了将分子电子结构信息嵌入分子绝对构型的显式编码。相关研究成果已发表于国际权威期刊《Advanced Science》,论文共同第一作者为杨芷江与王亮亮。该算法在GEM模型“原子-化学键-键角”三级结构的基础上首次引入二面角信息,构建了层级关联图,并据此提出了三维图神经网络E-GeoGNN。在此基础上,结合分子几何结构与电子结构两个尺度的自监督预训练任务,进一步开发出可同时表征两类信息的Q-GEM算法。Q-GEM应用于性质预测评估,在13项基准测试中,12项表现最优。此外,在区分异构体能力评估中,表示聚类分类性能的Davies-Bouldin指数由1.70降至0.95,较GEM模型下降约25%,表明Q-GEM具备更强的细微构象区分能力与电子结构相似性识别能力。本研究通过融合几何增强型图神经网络与多尺度自监督训练策略,显著提升了分子结构表征的信息完整性,为分子性质预测及智能分子设计与优化提供了更具潜力的新方法。
图文导读
图1 E-GeoGNN的三张输入图及其预训练任务:图G中,原子被视为图的节点,化学键被视为图的边;图H的节点为化学键,由化学键组成的键角则视为图H的边;对于图I,键角被视为图的节点,2个键角所在平面所组成的二面角被视为边
图2 2种分子表征算法下手性异构体对欧几里得距离分布对比:橙色和蓝色分别为使用GEM与Q-GEM的表征
图3 2种表征算法下两组构象的聚类可视化:蓝色和绿色分别为使用MMFF94优化与MMFF94优化后加噪声得到的分子构象
结论
本研究旨在解决当前分子结构信息表征不完整的问题,进一步挖掘分子结构表征算法的潜力,并提出了一种新型性质预测算法 Q-GEM。该算法框架由用于全面提取分子结构信息的三维图神经网络 E-GeoGNN 以及融合分子几何结构与电子水平特征的自监督学习任务构成。实验结果表明,Q-GEM 在多数性质预测任务中达到了当前最先进的性能(SOTA)。进一步分析显示,通过引入分子二面角信息与电子结构特征,Q-GEM 相较于其他基于图的分子表征方法,在电子结构识别、细微构象区分及绝对构型辨别方面展现出更优越的能力,这可能是其突破分子性质预测性能瓶颈的关键机制。同时,这一特性也表明 Q-GEM 在未来手性分子性质预测及活性悬崖问题的解决中具有广阔的应用前景。
期刊简介
Advanced Science 是Wiley旗下创刊于2014年的优质开源期刊,发表材料科学、物理化学、生物医药、工程等各领域的创新成果与前沿进展。期刊为致力于最大程度地向公众传播科研成果,所有文章均可免费获取。被Medline收录,PubMed可查。最新影响因子为17.521,中科院2021年SCI期刊分区材料科学大类Q1区、工程技术大类Q1区。
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!