人工智能预测蛋白质“光学指纹”

世界上不存在一模一样的两枚人体指纹,也不存在一模一样的两个蛋白质。而紫外光谱对蛋白质全局的骨架结构信息很敏感,在测量紫外吸收光谱所获得蛋白质的骨架“光学指纹”,经过理论模拟的解读,可以揭示出精确的蛋白质结构,为生命科学和医学诊断提供极其重要的指导。这是人工智能技术首次用于理论计算预测蛋白质的光谱研究。

指纹,是每个人独有的“人体身份证”。通过指纹测量和辨认,我们可以确认每个人的身份。世界上不存在一模一样的两枚人体指纹,也不存在一模一样的两个蛋白质。

作为生命的基石,每个蛋白质都有独特的生命功能“身份”。一般来说,不同的蛋白质拥有稳定而又灵活可变的蛋白结构,通过结构演化实现不同的生命功能,如果结构和身份认证乱套,对生命体来说可谓是灾难性的。然而,每个蛋白质都是纳米和微米尺度的物体,直接深入到微观去观察和认证每个蛋白质的身份是很艰难的事情,既需要极高倍数的显微镜,还要能够固定每个蛋白质不动。于是科学家们发展了光谱学的方法,通过测量蛋白质对光照的响应信号,可以发现不同的蛋白质的光谱特征都不一样。比如,X射线光谱、红外吸收光谱、拉曼光谱、紫外吸收光谱,都可以指认出蛋白质的“光学指纹”。而紫外光谱对蛋白质全局的骨架结构信息很敏感,在测量紫外吸收光谱所获得蛋白质的骨架“光学指纹”,经过理论模拟的解读,可以揭示出精确的蛋白质结构,为生命科学和医学诊断提供极其重要的指导。

然而,蛋白质光学指纹的理论解读也不是一件容易的事,由于它们的结构通常复杂多变,需要做大量的高精度的量子化学理论计算。巨大的计算量,导致最厉害的超级计算机也轻易“吃不消”。长期以来,蛋白质的光谱的理论解读是一个困难和挑战,这个困难也限制了光谱的准确分析和蛋白质结构的发现。因此,怎样在光谱理论模拟中避免太昂贵的量子化学计算,从而高效率地解读蛋白质骨架的紫外“光学指纹”,是一个重要的科学课题。

近年来,人工智能技术被广泛的应用到各个领域,用于大幅度降低复杂体系的计算量。受此启发,中国科学技术大学微尺度物质科学国家研究中心江俊教授,与中科大罗毅教授和美国加州大学尔湾分校Shaul Mukamel教授合作,把人工智能机器学习中的神经网络技术,用来模拟蛋白质肽键结构与性质之间的构效关系,将计算量一下降低了上万倍。最后他们成功地预测了肽键紫外光谱,还用随机森林的办法揭示了具有化学内涵的结构描述子和构效关系。人工智能与量子化学理论计算的结合,为预测蛋白质的光学特性提供了一种高效的工具。相关成果以“A Neural Network Protocolfor Electronic excitations of N-Methy lacetamide”为题发表在《美国科学院院报》(Proceedings of National Academy of Science, DOI: 10.1073/ pnas. 1821044116)。

江俊课题组近些年致力于发展机器学习技术在量化领域的应用,努力探究使其成为解决量化问题的一种重要工具。在本工作中,研究人员首先在300K温度下通过分子动力学模拟以及量子化学计算,得到了五万组不同构型的肽键模型分子。通过机器学习算法筛选出分子的键长,分子的键角,多个原子之间的二面角跟电荷信息作为描述符,通过神经网络来构建肽键基态结构与其激发态性质之间的构效关系。基于训练好的机器学习模型,预测出了肽键的基态偶极矩及激发态性质,最后预测出肽键的紫外吸收光谱。为了验证机器学习模型的鲁棒性,研究人员又基于300K的温度下得到的机器学习模型,预测出肽键在200K以及400K温度下的紫外吸收光谱,其结果与时间密度泛函理论计算很好的吻合。

这是人工智能技术首次用于理论计算预测蛋白质的光谱研究。通过理论计算得到大量数据,使用人工智能加以训练构建构效关系,使用最后得到的模型用于预测,为模拟蛋白质的光谱提供了一种新的思路。本项工作确立了机器学习模拟蛋白质肽键骨架紫外吸收光谱的可行性和优势,蛋白质的“光学指纹”解读也将会变得更加轻易和有效。

相关工作得到了国家自然科学基金、中国科学院先导项目的资助,该论文第一作者为博士生叶盛与博士后胡伟、李鑫,江俊与Shaul Mukamel为共同通讯作者。

论文链接:https://doi.org/10.1073/pnas.1821044116

随便看看别的百科