支持消费级显卡! 腾讯3D混元上新, 全民3D时代来了?
8月15日,腾讯混元团队推出了3D世界模型的Lite版本。相较于以往26GB的显存需求,此次通过引入动态FP8(8位浮点格式)量化技术,将显存需求直接降至17GB以下,消费级显卡也能流畅运行。
此前,腾讯混元3D世界模型的FP32版本虽能完整保留所有细节,但显存占用极高——其参数可能超过十亿个,通常需要配备大容量VRAM的GPU来提升推理速度,因此消费级显卡根本无法支持。
简单来说,FP32、FP16、FP8代表不同的「精度等级」。过去采用高精度的FP32技术时,虽能实现极高的精度还原,却会占用大量显存,还可能保留不必要的细节(例如背景的天空贴图等其实并不需要如此精雕细琢)。
而此次动态FP8量化技术的核心,在于能实时监测模型运行时的数据分布,并针对不同模块进行动态适配:大部分关键区域采用FP16精度,像上述背景贴图等非关键部分则动态调整为FP8精度。
这一技术大幅降低了显存占用,虽然在部分区域适当降低了精度,却让个人玩家也能轻松使用3D世界模型。
腾讯混元3D世界模型是行业内首个开源可编辑的世界生成模型,能根据用户提供的图片或文字信息,直接生成完整、可编辑且可交互的世界模型,可直接应用于游戏开发、特效制作、教育仿真等场景。
图源:腾讯混元3D官网
与腾讯混元模型此前的3D模型AI生成功能相比,此次推出的3D世界模型生成的内容更为丰富,涵盖环境风格、室内外场景、光线渲染等多个因素。传统3D场景开发耗时极长,仅一个主要建筑物场景就可能耗费数周甚至更久,而这种一键生成式场景所带来的效率提升,完全超出了用户的想象。
那么,面对如此复杂的场景开发,混元3D世界模型是如何快速生成360°沉浸式视觉空间的呢?
从混元世界模型1.0的模型架构来看,全景世界图像生成技术作为连接文字、图片与世界的统一代理系统,会先生成初始化世界的全景图,从而实现360°的全覆盖场景。
图源:腾讯混元3D官网混元世界模型1.0的模型架构
随后,系统会将整个3D世界解构为不同的清晰层级,例如前景与背景、海洋与地面、地面与天空等,再基于这些层级进行3D世界重建,最终形成3D世界模型。
相较于传统3D场景开发中每个细节都需精雕细琢、耗费大量时间和人力资源的情况,这种一键生成式场景不仅能节省大量时间,还能输出标准化的可漫游3DMesh资产,兼容Unity、UnrealEngine等工具。
而且,生成内容的精度已达到可直接使用的水平:前景内的注意力区域细节呈现到位,背景与前景分离度足够,未出现界限不清晰、光影模糊等问题。
但在官网体验混元3D世界模型后会发现,它无法完全还原文字中的所有要求,只能还原大致的场景需求、光影颜色以及前景区域的细节。
例如,下图对应的文本要求中提到了机械世界、机器人等元素,但这些都未在生成的场景中呈现。系统只是提炼了与构建大体世界场景相关的词汇,如赛博废土风格、天空中红色的落日等,然后分离出前景与背景——将“废弃的游乐场”解构为前景内容,红色落日作为背景天空内容,再基于这些层级重建3D世界场景,也就是说,它仅还原了场景的大致需求。
图源:腾讯混元3D官网
能明显看出混元3D世界模型目前还无法满足用户的个性化需求,不过已经能做到初步构建出前景、背景以及简单的场景细节,可以在游戏开发等工作中节省不少时间。
此外,这种依照用户要求生成的3D世界模型对普通玩家而言也极具可玩性。直接输出3DMesh资产带来了格式的统一和学习成本的降低,当AI能够完成场景解构和3D构建工作时,用户的主观能动性就成了决定生成场景的唯一变量。
腾讯此次将混元3D世界模型普及至消费级显卡,目的十分明确——吸引广大开发者与创作者涌入“腾讯混元3D”生态。该模型支持从3D模型到3D世界场景的全流程内容生成,用户由此能够创造属于自己的虚拟世界。
当前市面上,支持3D模型生成的AI大模型不在少数,如TripoAI、MeshyAI、GENIE等。但众多玩家扎堆争抢3D化赛道,导致产品功能高度同质化,也侧面反映出“将现实场景搬进虚拟世界”已成为各厂商的核心必争功能。
在这些AI工具中,硅谷初创企业VAST于2024年发布的AI3D基础模型TripoAI,凭借独特的产品结构脱颖而出。
与面向更广泛用户的腾讯混元3D不同,TripoAI的定位更偏向专业创作者:进入页面后,用户可直接通过文字或图片生成3D模型,且可调参数相对丰富——不仅支持当前主流AI3D模型均具备的纹理生成功能,还能自动拆分模型部件,让每个拆解后的部件可单独编辑;甚至支持为模型部件绑定基础动画并演示,不过演示过程中偶尔会出现部件变形问题。总体而言,TripoAI是一款功能成熟、可适配多场景的AI3D工具。
图源:TripoAI
同样在2024年推出的MeshyAI(由国内团队创建),虽然也支持通过文字、图像直接生成3D模型,但它的核心优势在于更完善的社区功能:用户可在社区内浏览其他创作者的3D模型作品,平台对模型的分类细化清晰,还标注了互动量、点赞数、是否支持3D打印等关键信息。这一设计让新手用户能直接下载现成的3D模型使用,同时也提升了社区的传播度与活跃度。
图源:MeshyAI
而由LumaAI推出的GENIE工具,除支持文本转3D模型、多格式(如OBJ、FBX等)导出以适配不同场景外,最大亮点是提供API接口——用户可通过该接口直接将视频内容转化为3D模型,形成差异化竞争力。
不难看出,上述产品均凭借自身特色在同质化竞争中突围,腾讯混元3D也不例外。尽管其3D模型生成功能与其他工具未拉开明显差距,但“高免费额度”是其核心优势:在混元AI3D官网,每位用户每天可免费生成20次模型,次数耗尽后还能通过分享好友重新获取。这种“以量换用户”的推广策略相当成功,在3D世界模型Lite版发布前,其社区模型下载量已达230万次,成为全球最受欢迎的3D开源模型平台之一。
图源:腾讯混元AI
此次腾讯推出适配消费级显卡的混元3D世界模型Lite版,无疑将吸引更多创作者加入其生态。用户规模的增长,又将进一步推动反馈迭代与应用场景拓展:以当下热门的VR眼镜为例,混元3D导出的3D世界模型文件可直接导入使用,用户只需拥有VR设备,就能随时随地沉浸在自己创建的虚拟场景中,实现生态与硬件的联动;同时,AI3D基础模型能让普通用户轻松制作高度自定义的3D模型,与3D打印机形成协同。
更重要的是,AI3D化近乎“零学习成本”的特性,正推动其快速渗透至各行业:在建筑规划、室内设计、电商展示等场景中,3D可视化内容比文字或传统图纸更易理解,工作人员无需复杂学习即可输出场景内容,大幅减少重复建模的时间;这种“虚拟模型+实体行业”的联动,既能提升用户粘性,又能通过高度自定义内容让用户产生归属感——种种趋势表明,3D模型在2025年势必走向大众化。
小雷认为,未来的AI3D模型将进一步整合专业场景模型与创作风格,通过细分领域和使用场景吸引更多垂直用户,不断拓展生态边界并渗透到各类生活化场景中。
而这,正是本次3D模型平民化浪潮的核心意义——在现实与虚拟交融的当下,让每个人都拥有构建3D虚拟世界的能力。
不过,网上始终有一种论调,认为随着3D模型的普及,3D建模师会面临失业风险。对此,小雷却并不认同。
不可否认,这类能快速生成3D模型的工具,必然会对行业产生冲击。AI模型“快速高效”的优势,确实是人类难以企及的;但正如前文所说,当前的AI3D模型尚无法实现真正的用户个性化——其生成的产物,本质上仍是基于大模型学习数据所产出的“复刻式内容”。
而这类缺乏个性的内容,终究成不了优秀的作品。无论是游戏建模还是建筑设计,真正能让人记住的,永远是那些独具匠心的设计:是3D建模师反复打磨的细节,是为适配用户需求精心考量的巧思。因此小雷认为,以当前AI3D模型的能力,想要完全取代3D建模师基本不可能;相反,作为能高效执行重复性指令的工具,它更适合成为建模师提升效率的“辅助帮手”。
其实转念一想,这种“AI辅助创作”的模式,早就在各个行业中渗透。但受限于内容同质化的问题,AI往往只能停留在“重复的基础构建”环节。
这也正是雷科技在如今AI写作工具越来越便捷普及的今天,还在坚持原创的原因,小雷始终认为,真正有深度、有温度的好文章,绝不会因为AI的存在而黯然失色。