日期:2025/04/02 22:05来源:未知 人气:53
5月14日,腾讯宣布其旗下混元文生图大模型全面升级,并对外开源。腾讯方面称,这也是首个中文原生的类 Sora 架构开源模型,支持中英文双语输入及理解,参数量15亿。
记者了解到,目前主流的文生图开源生态基本围绕英文建设,如Stable Diffusion 等,虽然一定程度支持中文输入,但其核心数据集仍以英文为主,对中国的语言、美食、文化、习俗都理解不够,更容易因翻译而产生语义分歧乃至生成错误。从零开始训练,从模型算法、机器学习框架到人工智能基础设施全链路自研的混元文生图大模型,更理解中文语境。
据悉,这一文生图大模型基于DiT架构,即OpenAI视频生成模型Sora同款架构。据腾讯混元文生图负责人芦清林表示,这一大模型开源的价值有两方面:一方面作为业内首个中文原生DiT架构的文生图大模型,它弥补了开源社区的空白,开发者和企业无需从头训练,即可直接用于推理,能够节约大量人力及算力;另一方面本次开源的模型版本与现网版本完全一致,有利于丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。
近段时间以来,行业对大模型的关注除了各项参数本身,有关开源与闭源路线之争也成为一大焦点。所谓开源,即开放源代码。以前的软件大多是闭源的,只有软件的编写者或者系统开发商掌握着修改源代码的权力。
“我们原来其实走的是闭源这条路线,包括去年都是把模型迭代后再开放接口。”芦清林坦言,此次宣布全面开源以前,文生图领域的开源大模型和闭源大模型差距正不断拉大。“我们希望通过模型开源将这个差距变小,大家一起做同一件事情,技术可能发展更快一些,落地应用场景也会更多,也能让我们学习到更多。”
“大模型的开源,可以吸引更多开发者参与进来,共同推动技术的发展,同时也能吸引更多合作伙伴和开发者加入自己的生态圈,共同搭建更完善的技术生态系统,促进业务发展和市场扩大。”盘古智库高级研究员江瀚表示,目前大模型的数据质量和标注问题仍是一大难题,通过开源也能吸引共同开发者共同解决一些行业性共有痛点。
来源:北京日报客户端
记者:袁璐