上海交大发布蛋白质设计模型“Venus”，建立全球最大的蛋白质序列数据集

栏目分类

热点资讯

发布日期：2025-04-18 00:57 点击次数：73

　　摘要：3月22日，上海交通大学洪亮教授团队发布最新成果，建立全球最大的蛋白质序列数据集。

　　一款功能过硬的蛋白质产品的诞生，通常需要丰富的专家经验配合数以万计的实验试错，长期以来，蛋白质设计改造的时间长、成本高、试错密集问题，一直是业界难题。

　　3月22日，上海交通大学洪亮教授团队发布最新成果，使这些问题迎刃而解。团队将AI与蛋白质设计与改造相结合，建立了全球最大的蛋白质数据集，基于该数据集训练的模型，可以精准、高效地预测、设计蛋白质的功能，把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。

　　洪亮团队建立的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Dataset)含有近90亿条蛋白质序列，包含数亿个功能标签，是全球数据规模最大、功能批注标签最多的数据集，也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。

　　该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列，覆盖从常规地表生物到极端环境微生物的蛋白质序列信息，尤其是配备的数亿功能标签(蛋白质工作的温度、酸碱度、压强等)。

　　这些数据意味着什么？洪亮表示，首先该数据集构成了巨大的“蛋白质矿藏”，使得人类有可能挖掘新的蛋白或者生物催化剂，助力我们生物医药和合成生物学的快速发展；其次，AI大模型有望通过海量数据（603138）的学习和掌握自然界蛋白质的进化模式，为AI设计优异的蛋白质产品提供了宝贵的学习资料。

　　“我们训练了Venus(启明星)系列模型，与DeepMind团队的AlphaFold预测蛋白质结构不同，这个模型学习自然界蛋白质序列的组织规则以及它与功能之间的关系，其预测蛋白质突变功能的精度位居行业榜单之首。”洪亮说。

　　与此同时，配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机，可在24小时内不间断地完成100余个蛋白质的表达、纯化与检测任务，较人力效率提高近10倍，将大大减少研发过程中的人力、物力和时间成本投入，显著提高蛋白质工程与合成生物学研究的效率。

　　据了解，经过Venus系列模型设计的多款蛋白质已经实现了落地产业化。以国内生长激素龙头金赛药业的单域抗体耐碱性改造为例。提升蛋白质的耐碱性历来是一项极具挑战性的工作，洪亮团队借助该模型结合少量湿实验闭环迭代验证，不到1年将普通单域抗体耐碱性提升4倍，每年为金赛药业节约上千万元成本。该成果已实现多个批次5000升放大生产，成为全球首款由大模型设计并规模化生产的蛋白质产品。

　　头图为洪亮教授在上海交通大学蛋白质功能预测Venus系列模型发布暨产业合作峰会上发布该成果。劳动报记者贡俊祺摄影

上一篇：没有了