专访 | 复旦大学复杂体系多尺度研究院首任院长马剑鹏:AI for Science是中国输不起的赛道,未来可能出现“纯粹的AI科学家”

图片来源:诺贝尔奖官方X平台账号

当地时间10月9日,瑞典皇家科学院公布了2024年诺贝尔化学奖得主。

该奖项一分为二,一半授予戴维•贝克(David Baker),以表彰他“利用计算机进行蛋白质设计”的成就,另一半给了谷歌DeepMind的首席执行官德米斯•哈萨比斯(Demis Hassabis)和高级研究科学家约翰•M•詹珀(John M. Jumper),以表彰他们在“蛋白质结构预测方面的贡献”。2020年,哈萨比斯和詹珀发布了名为AlphaFold 2的人工智能(AI)模型,是利用AI技术预测蛋白质三维结构的革命性工具。

这是AI在本届诺贝尔奖的第二次胜利。前一日,诺贝尔物理学奖颁给了计算机科学家约翰·霍普菲尔德(John J. Hopfield)和杰弗里·欣顿(Geoffrey E. Hinton),表彰他们通过人工神经网络实现机器学习的基础性发现和发明,帮助计算机以更接近人脑的方式学习,为AI的发展奠定了基础。

为什么AI能赢得诺贝尔奖委员会的青睐,接连拿下两大诺奖桂冠?《每日经济新闻》记者(以下简称NBD)专访了复旦大学复杂体系多尺度研究院首任院长、上海人工智能实验室领军科学家马剑鹏教授,就AI与科学研究之间的关系以及中国在相关领域的进展进行了解读。

马剑鹏教授是国际知名的计算生物学家,是美国医学生物工程学会、美国科学促进会及美国物理学会的会士。2018年,马教授作为上海市高峰人才引进团队核心成员全职归国,与Michael Levitt(2013年诺贝尔化学奖得主)教授联合创建了复旦大学复杂体系多尺度研究院。在“AI for Science(科学智能)”领域中尤为关键的蛋白质结构预测研究中,马教授团队自主研发的OPUS-系列国产软件性能领跑全球,成功搭建全链条AI赋能新药研发的先进技术平台。

马剑鹏教授 图片来源:复旦大学复杂体系多尺度研究院官网

AI for Science领域是输不起的赛道,应加强算法突破

NBD:今年诺贝尔化学奖授予了致力于用AI驱动蛋白质结构预测的科学家。作为这一领域的知名科学家,您如何看待AI在未来科学研究中的作用?

马剑鹏:我曾提过AlphaFold是诺奖级的贡献,但没想到这么快就获奖了。从2018年“AlphaFold”亮相,到“AlphaFold 2”被美国《科学》杂志评为2020年十大科学突破之一,再到今年5月发布的“AlphaFold 3”,直接改变了上一代版本的核心架构,用“扩散模块”取代了上一代中非常重要的“结构模块”。

蛋白质结构解析,即从氨基酸序列预测蛋白质的三维结构,是化学家们在过去50多年里面临的一个挑战。在AI介入之前,蛋白质的从头设计不仅极为艰苦,而且成功率很低。不过,过去20多年中,结构生物学积累了海量数据,为基于AI的蛋白质结构预测和蛋白质设计作好了“临门一脚”的铺垫。

“AlphaFold 2”的出现不仅在这一问题上实现了大幅的提升,甚至逼近于解决这一问题。意义更为深远的是,科学智能(AI for Science)的概念开始深入人心。虽然这个问题并没有完全解决,但已经往前进了一大步,已经超越了期望。

AlphaFold 2的工作原理 图片来源:诺贝尔奖官网新闻稿截图

NBD:AI的获奖对科研界意味着什么?

马剑鹏:这一领域是我们输不起的赛道,今后要重点在算法上另辟蹊径。因此,国家需要在AI蛋白质结构研究领域投入更多的资源和人才培养力度,对于一项从0到1的基础研究,要给予充足的经费支持和发展空间。蛋白质预测领域目前展现出来的潜力是无穷的,一定要久久为功。

NBD:您所领导的团队开发了OPUSFold,这一平台在蛋白质结构预测中的应用与AlphaFold 2有相似之处。马教授认为OPUSFold的开发对推动AI在结构生物学领域的应用有何独特意义?

马剑鹏:面对人工智能的科技竞争,作为同行,不能在相同路径上追赶,而是要另辟蹊径,争取局部突破。蛋白质三维结构由主链和侧链搭建而成,Alphafold 2的主链预测总体做得不错,但侧链预测的质量不够好,至少离药物设计要求的精度还有很大的差距。

OPUS-Fold 3是我们团队自主研发的蛋白质折叠平台,对标戴维•贝克的蛋白质结构预测软件Rosetta,达到同等折叠精确度并在侧链建模超越20%。该平台在指导蛋白质设计场景中引入物理化学性质信息,及湿实验反馈验证信息,提升设计成功率。我们还研发了一款名为OPUS-Rota5的算法,它能大大提升蛋白质侧链结构测试精度,专门针对Alphafold 2的软肋。现在即便是有了Alphafold 3,复旦大学的侧链结构测试精度依然保持着全世界领先水平。

未来有可能出现“纯粹的AI科学家”

NBD:今年的诺贝尔奖表明,AI已经成为推动生命科学研究的重要力量。马教授认为在接下来的10年里,AI会如何改变生物学和药物发现的研究方式?在哪些领域可能会看到新的突破?

马剑鹏:未来,AI可能会进一步提升蛋白质折叠的预测精度,并帮助识别新的蛋白质-蛋白质相互作用,为药物靶点的发现和设计提供更可靠的数据支持。未来的AI模型将能更快速地预测化合物的药效和毒性,加速药物发现过程。同时,生成对抗网络(GAN)等生成模型的进步将帮助研究人员设计出全新的分子结构,大幅提高新药开发的速度。

同时,AI在蛋白质结构解析技术上的发展,将对酶工业、抗体改造和生物材料等领域产生深远影响,实现更高效和定制化的创新成果。

比如,AI可以解析酶的活性位点并识别关键的氨基酸残基,从而帮助工程师通过定向进化或理性设计改造酶,以实现更高的催化效率、稳定性等。

我们团队近期通过AI技术与湿实验验证共同推进,大大提高了酶的活性及热稳定性,可以对酶工业起到降本增效的实际作用。

利用贝克的Rosetta软件开发的蛋白质图片来源:诺贝尔奖官网新闻稿截图

NBD:随着AI对科学贡献的增加,您是否认为未来有可能会出现“纯粹的AI科学家”(即人工智能系统,而非研究AI的人类)?这些AI科学家是否有可能获得像诺贝尔奖这样的重要奖项?

马剑鹏:未来确实有可能出现“纯粹的AI科学家”,即能够独立进行科学研究、提出新理论、设计实验并做出发现的人工智能系统。这样的AI科学家不仅会成为人类科学家的辅助工具,甚至可能完全自主地推动某些领域的重大突破。

至于能否获得诺奖,还需要看它是否具备自动化推理与创新能力、实验设计与执行能力等,并且会涉及诸多技术、伦理和规范性挑战。

强调AI并不会淡化基础科学研究

NBD:在开发OPUSFold以及推动AI技术在生物学中的应用时,您是否觉得跨学科合作至关重要?

马剑鹏:跨学科非常重要,我们研究院团队就是一个典型的跨学科研究团队,成员背景包含了计算机科学、生物学、物理学和化学等。研究方向有分子生物学、细胞生物学、遗传学、结构生物学、AI算法开发与应用、大数据等。

今年,复旦大学宣布推出至少100门AI领域课程,AI已是绕不开的话题,你不一定需要会写算法,但至少要会用。AI要“从娃娃抓起”,因此注重跨学科领域人才的培养是非常必要的。

NBD:国外一些科学家在接受采访时提到,他们担忧AI浪潮可能会扭曲研究方向,导致科学家追逐热门课题(AI应用),而忽略了基础研究。请问您对这一问题有何看法?

马剑鹏:把AI研究和技术研究割裂或者对立有失偏颇,AI本身是个工具,可以用在工程问题上,比如无人机操控、人脸识别、自动驾驶,也可以应用在基础科学研究上。

事实上,AlphaFold是因为AI变强大了,才可以用来做基础研究,而AlphaFold研究的问题本身是一个非常基础的科学问题,和应用没有直接关系,尽管它的成功可以间接赋能新药创新等等,所以不存在“强调了AI就淡化基础科学研究”的问题。

另外,AI技术里面本身还是有很多基础科学问题的,就是怎么搞这个AI技术。今年的诺贝尔物理学奖就是给了这个两个人,他们没有做过人脸识别,也没做过无人机操控,他们做的是AI底层的一些问题。诺贝尔化学奖更是一个基础问题,只是都跟AI的工具相关,所以这个问题并不成立。