独家专访百奥几何创始人,MILA终身教授唐建博士: 生成式AI大模型助力生物制药和蛋白质设计


前文介绍

北京时间2024年1月25日晚上8:30 World Science Hill独家专访百奥几何创始人兼CEO,MILA终身教授唐建博士。

World Science Hill创始人Mia王璟晗

独家专访唐建教授视频截图


本期人物



唐建博士是由AI之父Yoshua Bengio在加拿大魁北克省成立的人工智能研究所Mila的终身教授。此外,他还担任加拿大CIFAR AI讲席教授,并创建了百奥几何这家公司,该公司专注于打造生成型AI大模型应用于生物制造领域。唐博士的研究兴趣主要集中在生成型人工智能、图机器学习及其在生命科学中的应用。作为图机器学习领域的国际知名学者,他的重要论文"LINE"已被引用超过6,000次。他也是AI药物开发的领军人物,指导他的团队开发了针对小分子和生物蛋白质大分子的首个开源机器学习平台TorchDrug和TorchProtein。



01

能否简单介绍一下您和您带领的百奥几何团队最近正在做的工作?



我们目前主要专注于打造蛋白质设计的生成式AI大模型,不同于大多数人在做的以ChatGPT为代表的通用人工智能。我们做的更多是蛋白质设计这一垂直领域的生成式AI大模型,目的是生成全新的蛋白,或者说优化已有的蛋白。关于应用场景,我们主要关注两大领域,其一是生物医药中的抗体药。



抗体是一种特殊的蛋白质,我们希望用生成式AI来绕过传统的动物免疫,用 De novo design的模式设计出全新的抗体,这也是我们非常重视的一个应用方向。


其二是合成生物学领域中的酶,在合成生物学中很多反应就是通过生物的方法去合成全新分子,在合成的过程中,非常重要的一类分子就是酶,它需要用酶去做催化,那么我们关心的就是如何去提高酶的催化效率等等。



02

许多人都发表过如下的观点,第四次工业革命会出现在生命科学领域,请问在您看来如何借助AI大语言模型来助力生物制药、基因编辑以及其他生物领域的进化呢?



我觉得这一观点的成立有如下几方面的原因,其一就是在AI出现之前,我们经常就说21世纪是生物的世纪,生命科学本身在现阶段无疑是一个非常重要的学科,并且有着广泛的应用,尤其随着人口老龄化、气候变化带来的一系列健康问题,人们对健康的需求日益增长。



另外,在过去的十年间,在与AI平行的另外一个世界里,生命科学其实也在快速实现技术革命,以高通量基因合成、基因测序、基因编辑为代表的技术意味着我们可以高效地对基因进行读、写以及编辑,或者说我们可以快速创造出自然界完全不存在的一些基因或者分子。因此在生命科学领域,整个的数据量增长也非常迅速,其增速甚至已经超过了摩尔定律。



如此大量的数据也为AI技术的介入提供了可能以及大量的机会,我们可以基于这些数据用AI算法来学习,从而提取一些特征甚至发现一些全新的分子,它们可能会比自然界中的分子有着更好的功能。


不同于自然界基于达尔文自然选择理论的缓慢演化,基于生成式AI大模型对大量数据进行训练学习来进行分子设计,加上高通量的湿实验验证,这个过程肯定会极大地加速传统的自然演化进程。所以这就是为什么我们认为第四次工业革命一定会发生在生命科学领域。



03

您认为人工智能是在哪些方面对蛋白质药物发现和设计有所助力的呢?它能够解决哪些原本用传统方法无法解决或者非常低效的问题?



我觉得主要是设计与优化这两部分。设计主要指的是发现自然界中完全不存在的分子,即De novo design,我们知道无论是小分子还是蛋白,其搜索空间都是非常大的。就拿蛋白来讲,每一个位置的氨基酸都有20种可能,哪怕长度只有100,总共就有20的100次方这么大的搜索空间,因此直接用传统方法搜索无异于大海捞针。



例如传统的生物湿实验很多时候主要是依赖领域专家的经验或者专业知识来做一些针对性的随机搜索,但领域专家的知识毕竟也是有限的,无论通量有多高,其相对整个搜索空间来讲还是非常小的。因此用传统方法去设计或者优化并找到更好的分子的时候,它的成功率都是比较低的,或者说找到更好的分子的可能性都是比较小的。



如今我们有了生成式AI大模型,可以从海量的数据进行学习,这个模型所包含的知识肯定是要远大于单个领域专家的经验,因此设计出来的分子成功率更高,然后我们进一步通过高通量的湿实验进行验证筛选,得到的实验数据可以进一步反馈到我们的AI大模型进行下一轮的设计。经过多轮的AI设计+湿实验验证之后,我们就能更高效地找到功能分子。 



04

您和您的团队自主研发的几何深度学习为何能在蛋白质设计方面取得独特的优势和最好的实验结果?



在蛋白质建模这块,现在最主流的有两类方法。因为我们知道蛋白质有几种不同的表示方法,最简单就是它的一级序列 (sequence),然后二级结构 (secondary structure),当然最好的就是它的三级结构,在生物中我们经常说:序列决定结构,结构确定功能。



所以对于蛋白质而言,要想理解蛋白质的功能,最好的方式就是基于它的结构去理解,蛋白质本身在物理上就是一个三维结构,这也是为什么AlphaFold2很重要,它可以基于序列来预测蛋白质的三维结构,从而让大家得以通过结构去理解蛋白质的功能。



现在很多已有的方法其实都是基于序列,把蛋白质表示成序列,再利用大语言模型 (protein language model) 基于序列去理解蛋白质的功能,但我认为对蛋白质而言,对其最好的建模方式应该是基于它的结构,因为它的结构能直接决定功能。



那么我们该如何去利用深度学习对蛋白质的三维结构进行建模呢?这就是我们一直在研发的技术,叫作几何深度学习,用于提取蛋白质的三维几何的特征。


我们最近也取得了一个比较重要的成果,主要是关于抗体的设计。对于抗体药这一概念,首先需要理解的是抗体分子如何对人体起作用,事实上抗体主要是跟抗原发生相互作用,也就是说药物分子会跟人体内的靶点结合,从而治疗对应的疾病。因此我们需要对抗原和抗体的结合进行很好地建模,我们目前在这个方向上取得了一些重要的成果,就是抗原-抗体的复合物预测。



基于这个技术,我们进一步开发了基于结构的De novo antibody design,在此过程中我们利用生成扩散模型(diffusion model) 直接生成抗体的三维结构和序列,这其实也借鉴了我们团队之前的一个结果,即如何利用diffusion models来生成分子的三维结构,我们知道diffusion models最早主要是用来做图像的生成的,我们团队是最早将其引入分子三维结构生成的,现在我们进一步实现了抗体的三维结构生成。



05

作为一个典型的科学家创业会遇到的问题,科学创新、技术开发以及比较现实的商业盈利模式往往很难兼顾,请问您是如何权衡的呢?



这是一个比较难的问题。我认为对于创业本身而言,还是应该从商业的逻辑去思考这个问题,即本质上如何将技术与需求进行匹配,不能只是埋头不断地研发前沿技术。虽然我们不能否认技术研发的重要性,但研发必须要匹配实际的需求。可能在做学术的时候,我们关注的大多都是在技术上不断创新,不断地设计新的算法,从而提高实验效果,但其实很多时候这些算法并没有实际的需求与之匹配。



所以在创业过程中一个非常关键的点就是,你不仅仅要懂技术,还要懂用户的需求。比如我们经常说,现在AI能够赋能传统的行业,我们就必须要理解传统行业的痛点到底是什么?只有在知道这个真实的痛点之后,我们才能去着手开发相应的模型。综合而言,理解用户需求并进行针对性的研发和技术进步,在创业中是最为关键的。



06

目前 AI for Science 越来越多地受到了学生们的关注,请问您有什么想对那些致力于研究AI for Science 的低年级研究生和本科生分享的经验吗?



的确现在AI for Science受到了越来越大的关注,我的一个建议就是,AI for Science 最终其实要解决science的问题,而不能只埋头做AI,理解science及其背后的real world problem是做这个方向的基础。现在很多人做 AI for Science只是把从化学或生物学科中抽象出来一个数据集,然后套用一些AI算法不断提高,我认为这并不是正确的思路。



与之相对的另一种思路是Science for AI,就是用一些science 中的intuition能够启发我们设计出更好的AI算法,比如过去十年深度学习以及神经网络的巨大成功,其实也是受到了神经科学的一些启发,这就是我刚刚说的Science中的intuition。我再举个例子,比如扩散模型 (diffusion models),其原理是来自物理上的一些偏微分方程。




来源:World Science Hill


编辑:瓷瓷

(声明:请读者严格遵守所在地法律法规,本文不代表任何投资建议)

本文来源:元宇宙头条 文章作者:元宇宙头条
收藏
举报
元宇宙头条
累计发布内容523篇 累计总热度10万+
523篇 10万+
FTX 后院起火,Binance 釜底抽薪
FTX 后院起火,Binance 釜底抽薪
FTX 后院起火,Binance 釜底抽薪

元宇宙头条现已开放专栏入驻,详情请见入驻指南: #

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表元宇宙头条观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

评论 共0条
默认
|
点赞
说点什么吧
相关文章
您需要登录后才可以回帖 立即登录