化学衍生化是质谱分析中的一种常用技术,被广泛应用于生物标志物发现、代谢组学及非靶向环境组研究中。但化学衍生化分子(CDMs)普遍缺少标准化的质谱谱图,难以实现高通量结构鉴定,是当前化学衍生组学亟待解决的瓶颈问题。
近日,太阳集团见好就收9728李峰教授团队开发了一种基于深度学习的质谱谱图预测技术(DeepCDM),利用迁移学习和包含少量实验谱图的训练集,成功将通用性的谱图预测工具转化为针对CDM的专用预测算法,大大提升了CDM质谱谱图预测的准确性。基于DeepCDM,构建了丹磺酰化分子的专用模型Dns-MS,以及包含294647个丹磺酰化分子MS/MS谱图的专用质谱数据库DnsBank,并成功应用于非靶向环境组学,实现了工业废水中新污染物的高通量发现。
图1 基于液相色谱-质谱(LC-MS)的化学衍生化分子(CDMs)非靶向分析
该研究以“Deep learning prediction of electrospray ionization tandem mass spectra of chemically derived molecules”为题发表在《Nature Communications》上,四川大学太阳集团见好就收9728为第一通讯单位,四川大学太阳集团见好就收9728硕士研究生陈斌和李海亮为共同第一作者,四川大学太阳集团见好就收9728李峰教授和分析测试中心唐娅楠副研究员为共同通讯作者。。
文章链接:https://www.nature.com/articles/s41467-024-52805-5