来宝网移动站

JCIM | 刁妍妍/李洪林团队开发自动监测化学反应的核磁谱图识别算法MatCS

来宝网 2024/7/16点击272次

华东理工大学/华东师范大学的李洪林教授/刁妍妍团队在Journal of Chemical Information and Modeling上发表文章:Enhancing Chemical Reaction Monitoring with a Deep Learning Model for NMR Spectra Image Matching to Target Compounds,报道了一个用于自动化学反应监测的深度学习模型MatCS。该模型旨在通过预测目标化合物的SMILES和核磁共振光谱(包括1H NMR和13C NMR)谱图之间的对应关系,实现对化学反应进程的自动监测。

研究背景
在合成实验室中,研究人员通常利用核磁共振光谱对合成产物的结构进行解析,从而验证其是否获得目标产物。随着化学合成技术朝着智能化和连续性的方向发展,需要高效的计算机辅助结构解析 (CASE) 技术来取代耗时耗力的人工分析。然而,目前的CASE方法主要从光谱数据推导精确的化学结构,存在准确度低、计算成本高和依赖化学数据库等缺点。在现实合成反应中,研究人员首先关注的是是否获得目标产物,而并非精确解析获得的化合物。针对以上问题,研究团队提出了MatCS方法,为自动化反应的结构验证任务提供了一种简单而有效的策略。对于难以区分相似分子结构光谱的testsim数据集,MatCS模型取得了优异的性能,其中F1分数达到0.81,AUC值为0.87。此外,它在包含实验核磁共振光谱的外部SDBS数据集上也表现出了卓越的性能,进一步证实了其在实际自动化合成中进行结构验证任务的巨大潜力。
研究方法
MatCS方法的整体流程如图1所示。MatCS通过输入NMR谱图(包括1H NMR和13C NMR)以及目标化合物的SMILES,来判断两者是否匹配。模型对化合物分子采用SMILES、分子指纹和分子图三种方法进行特征表征,并通过不同的神经网络进行特征提取。同时,1H NMR和13C NMR谱图被送入ResNet101网络(可选择性地集成卷积块注意力模块CBAM)以生成各自的谱图特征向量。最后,将这些学习到的特征串联起来输入到一个全连接层分类模块中,以预测输入的NMR谱图与目标化合物结构是否匹配。MatCS与现有方法的不同点在于将产物结构确认的挑战转化为二元分类任务,而不局限于针对分子的结构阐明,更加契合真实的应用场景。此外,MatCS直接对核磁谱图进行图片处理操作,避免了谱图信息提取带来的误差累计,提升了准确性。
在这项工作中,使用RDKit对来自PubChem和GDB-13数据库的分子SMILES进行过滤处理,以排除无法解析的SMILES、重复项、含有金属离子、卤素或带电离子的分子,同时移除具有超过3个芳香环的分子,最终保留了含有16个或更少非氢原子的分子50761个。对于NMR谱图的处理,通过OpenBabel将SMILES转换为mol格式,随后导入MestReNova 14.2软件进行NMR预测。
MatCS模型的任务是预测给定化合物C及其1H NMR和13C NMR谱图是否匹配。作为一个二元分类问题,模型需要对正负样本数据同时进行训练和评估。正样本是化合物和其对应谱图的配对(Ci, Si),标签为1;负样本则是化合物与其不匹配的谱图的配对 (Ci, Sj, i≠j) ,标签为0。为避免过拟合,每个化合物只随机选取一个不匹配的谱图作为负样本。最终共获得101522个样本,正负样本比例为1:1,并将其随机分配为训练集、验证集和测试集,比例约为8:1:1。除了上述提到的测试数据集(称为testrand),本研究构建了另外两个测试数据集,testdiff和testsim,以全面评估模型的泛化能力。在所有三个数据集中,正样本是相同的,而差异在于负样本的选择。testdiff的负样本来自结构差异显著的化合物,Morgan指纹相似度接近0;而testsim的负样本则选择与真实分子指纹相似度最高的不匹配谱图,以测试模型区分高度相似结构的能力。
图片
图1 MatCS的模型框架[1]
研究结果
1. 模型评价
使用不同分子表示方法的模型均能识别化合物分子与核磁共振谱图之间的对应关系,结果如表1所示。基于SMILES和分子图的模型表现较为出色,而基于ECFP指纹的模型性能一般,这可能与其高维特征导致的稀疏性有关。为了进一步提升模型性能,尝试使用图注意力机制 (GAT) 与图卷积网络 (GCN) 结合的架构。结果表明,这种结合能够更深入地挖掘分子图中节点间的潜在特征,该模型在五个评估指标上均优于之前基于SMILES的模型。而且,选择合适的NMR图像特征提取方法对模型性能也至关重要。我们采用GAT_GCN网络提取分子图特征,并引入CBAM模块以增强ResNet101模型的图像特征提取能力(表2)。融合CBAM的模型在testrand、testdiff和testsim上各项评估指标均显著提升。因此,确定最佳模型框架MatCS,该框架采用含有CBAM预训练的ResNet101网络和GAT_GCN架构分别提取谱图和分子特征,经过特征串联和分类,实现NMR谱图与化合物结构之间的精确匹配。
表1 使用SMILES、分子指纹和分子图时,MatCS模型在内部测试集上的性能比较[1]
图片
表2 基于ResNet101网络,添加CBAM模块前后MatCS模型在内部测试集上的性能比较[1]
图片
为了验证基于深度学习的MatCS模型的优势,将其与传统的机器学习模型进行了比较。对于NMR谱图,选用方向梯度直方图 (HOG) 方法进行提取特征并使用主成分分析 (PCA) 进行降维,随后将这些特征与分子指纹特征结合,输入随机森林 (RF) 和支持向量分类器 (SVC) 模型进行分类。尽管尝试了多种超参数设置,但机器学习模型在三个内部测试集上仅达到了大约0.5的AUC值,显示出较低的区分能力。相对地,利用预训练的MatCS模型提取特征并使用SVC和RF方法进行分类时,所得到的模型结果与MatCS模型效果相当,这证实了MatCS在特征提取方面的高效性。MatCS提供了一种直接从NMR图像中提取特征的有效手段,这一方法同样适用于从多种其他光谱类型中进行特征提取。
此外,为了验证MatCS方法对真实NMR谱图图像的辨识能力,从SDBS数据库中收集了199种化合物,并使用与testsim负样本选取的方法创建SDBS_preprocess数据集。这些化合物的1H NMR和13C NMR谱图图像首先使用MestReNova生成,然后根据实验测量的化学位移进行校准,以获得用于模型评估的最终数据。这一过程可视为图像预处理,确保化学位移轴与MatCS模型训练使用一致。结果表明,经过实验数据校准的NMR谱图上,MatCS实现了超过0.84的AUC值和0.81的F1分数,表明MatCS对真实NMR谱图具有一定的识别能力(表3)。
表3 MatCS模型在外部SDBS数据集上的评估指标[1]
图片
2. MatCS实用性分析
为了阐述MatCS在有机化学中的实际应用意义,以经典的α,β-不饱和酮的共轭加成反应为例进行说明。给定化合物1和格氏试剂MeMgBr,通过1,2-加成途径可生成化合物2。然而,在铜离子的存在下,反应会转向1,4-加成,从而生成化合物3(图2a)。使用MatCS方法对NMR光谱与三种化合物的对应关系进行匹配分析的结果表明,MatCS可以准确识别每组光谱与化合物的匹配度,有效助力于化学反应的自动化监测,并确定预期的化学反应是否已经发生。同时,为了深入探究MatCS模型中GAT层的作用,对预测化合物P(c2, s2)和P(c3, s3)时的注意力权重矩阵进行了可视化分析(图2b)。通过平均注意力权重矩阵的热图,发现一些原子之间的相互作用关系很强,这与分子结构的化学理解也相吻合,而且,随着周围原子的不同,这些原子获得的注意力权重也会有所变化。这说明GAT层能够让模型更精准地捕捉到分子中重要原子的特征,从而做出更准确的预测。
图片
图2 利用α,β-不饱和酮的加成反应说明MatCS的应用潜力[1]
总结
MatCS方法用于预测核磁共振光谱图像与目标化合物结构之间的匹配性,以便在合成实验室中进行结构确认。MatCS以NMR谱图和分子结构为输入,利用GCN与GAT来学习分子图的结构特征,并采用带有CBAM预训练的ResNet101网络从NMR光谱图像中提取特征。该模型能够直接判断NMR谱图是否与目标化合物匹配,无需人工分析,从而为研究人员提供了更快捷的结构验证解决方案。目前,MatCS专注于处理重原子数不超过16的简单有机化合物结构。未来,研究将致力于将模型的能力扩展到解析更复杂的分子结构,并计划整合包括红外光谱 (IR) 、质谱 (MS) 在内的多种谱图信息,以实现对化合物结构的全面分析和对化学反应过程的实时、高精度监测。


推荐仪器
  • *
  • *
  • *
  • *