聂再清：多模态大模型的产业应用

扫描分享

本文共字，预计阅读时间。

5月10日，2023数字经济大会在南京市成功举办。清华大学国强讲席教授、智能产业研究院（AIR）首席研究员聂再清发表了题为“多模态大模型的产业应用”的主旨演讲。

聂再清从ChatGPT的爆火谈起，探讨这种“智能涌现”是否可以运用于未来的新科学。“智能涌现”简单来说就是由量变到质变，得益于大数据的训练分析而产生飞跃式的功能及性能上的提升。

他表示，从生物制药领域来看，每个生物也是一种自然语言，或者说是分子语言。蛋白质序列像自然语言一样是有语法限制的。很多生物学家已经通过实验总结出了序列的知识，存储在知识库，或生物医药的文献里。他认为，在大模型时代，这些知识并不需要实验，而是直接通过大模型从模式中学习生物的结构和功能之间的规律。通过把人类总结的知识融入在分子结构的模型中去，这种机制能够大大提升在AI制药领域下游任务的性能。

聂再清指出，如果有一个大模型，把知识、分子、文本放在一起，不光进行如小分子药和靶点亲和力的生物医药的任务，也可以进行问答的任务，还可以跨模态的、基于分子来生成文本，这样的能力会在药物设计领域中有很大的帮助。所以生物世界用分子、文本和知识的统一来表示模型是非常好的方向。因为有大量单独分子的存在，所以需要独立于ChatGPT的模型。

聂再清等团队建立了一个名为BioMEDGPT的模型，学习了所有医药数据、分子、蛋白、细胞、知识图谱、文献的信息，此外，每一个模型会有一个单独的编码器，例如小分子有小分子的编码器，大分子有大分子的编码器，单细胞序列有单细胞的编码器等。此外，还有一个自然语言的编码器，这样不同的编码器会通过对比学习的方式把不同的向量空间拉近，之后用GPT的下游生成模型支持各个方面的下游任务。这个任务可以是生命科学蛋白质结构的预测，或者说分子对接、药物靶点亲和力的预测，也可以是跨模态的，优化或者生成分子，也可以进行生命科学领域的对话式问答。

聂再清表示，BioMEDGPT可以真正用在生物医药的产业里面，去跟实验生产方和制药方融合起来，这样，药化专家去制药就可以有药物研发的助手查文献，了解知识，同时进行下游任务的计算。这两个功能的打通会让大模型得到真正的反馈，也会建立行业真正的壁垒。

在大模型时代，BioMEDGPT不光能够赋能AI制药，也能够赋能人工制药，成为药化专家的助手，甚至成为制药领域的操作系统。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。