支持消费级显卡! 腾讯3D混元上新, 全民3D时代来了?

8月15日，腾讯混元团队推出了3D世界模型的Lite版本。相较于以往26GB的显存需求，此次通过引入动态FP8（8位浮点格式）量化技术，将显存需求直接降至17GB以下，消费级显卡也能流畅运行。

此前，腾讯混元3D世界模型的FP32版本虽能完整保留所有细节，但显存占用极高——其参数可能超过十亿个，通常需要配备大容量VRAM的GPU来提升推理速度，因此消费级显卡根本无法支持。

简单来说，FP32、FP16、FP8代表不同的「精度等级」。过去采用高精度的FP32技术时，虽能实现极高的精度还原，却会占用大量显存，还可能保留不必要的细节（例如背景的天空贴图等其实并不需要如此精雕细琢）。

而此次动态FP8量化技术的核心，在于能实时监测模型运行时的数据分布，并针对不同模块进行动态适配：大部分关键区域采用FP16精度，像上述背景贴图等非关键部分则动态调整为FP8精度。

这一技术大幅降低了显存占用，虽然在部分区域适当降低了精度，却让个人玩家也能轻松使用3D世界模型。

腾讯混元3D世界模型是行业内首个开源可编辑的世界生成模型，能根据用户提供的图片或文字信息，直接生成完整、可编辑且可交互的世界模型，可直接应用于游戏开发、特效制作、教育仿真等场景。

图源：腾讯混元3D官网

与腾讯混元模型此前的3D模型AI生成功能相比，此次推出的3D世界模型生成的内容更为丰富，涵盖环境风格、室内外场景、光线渲染等多个因素。传统3D场景开发耗时极长，仅一个主要建筑物场景就可能耗费数周甚至更久，而这种一键生成式场景所带来的效率提升，完全超出了用户的想象。

那么，面对如此复杂的场景开发，混元3D世界模型是如何快速生成360°沉浸式视觉空间的呢？

从混元世界模型1.0的模型架构来看，全景世界图像生成技术作为连接文字、图片与世界的统一代理系统，会先生成初始化世界的全景图，从而实现360°的全覆盖场景。

图源：腾讯混元3D官网混元世界模型1.0的模型架构

随后，系统会将整个3D世界解构为不同的清晰层级，例如前景与背景、海洋与地面、地面与天空等，再基于这些层级进行3D世界重建，最终形成3D世界模型。

相较于传统3D场景开发中每个细节都需精雕细琢、耗费大量时间和人力资源的情况，这种一键生成式场景不仅能节省大量时间，还能输出标准化的可漫游3DMesh资产，兼容Unity、UnrealEngine等工具。

而且，生成内容的精度已达到可直接使用的水平：前景内的注意力区域细节呈现到位，背景与前景分离度足够，未出现界限不清晰、光影模糊等问题。

但在官网体验混元3D世界模型后会发现，它无法完全还原文字中的所有要求，只能还原大致的场景需求、光影颜色以及前景区域的细节。

例如，下图对应的文本要求中提到了机械世界、机器人等元素，但这些都未在生成的场景中呈现。系统只是提炼了与构建大体世界场景相关的词汇，如赛博废土风格、天空中红色的落日等，然后分离出前景与背景——将“废弃的游乐场”解构为前景内容，红色落日作为背景天空内容，再基于这些层级重建3D世界场景，也就是说，它仅还原了场景的大致需求。

图源：腾讯混元3D官网

能明显看出混元3D世界模型目前还无法满足用户的个性化需求，不过已经能做到初步构建出前景、背景以及简单的场景细节，可以在游戏开发等工作中节省不少时间。

此外，这种依照用户要求生成的3D世界模型对普通玩家而言也极具可玩性。直接输出3DMesh资产带来了格式的统一和学习成本的降低，当AI能够完成场景解构和3D构建工作时，用户的主观能动性就成了决定生成场景的唯一变量。

腾讯此次将混元3D世界模型普及至消费级显卡，目的十分明确——吸引广大开发者与创作者涌入“腾讯混元3D”生态。该模型支持从3D模型到3D世界场景的全流程内容生成，用户由此能够创造属于自己的虚拟世界。

当前市面上，支持3D模型生成的AI大模型不在少数，如TripoAI、MeshyAI、GENIE等。但众多玩家扎堆争抢3D化赛道，导致产品功能高度同质化，也侧面反映出“将现实场景搬进虚拟世界”已成为各厂商的核心必争功能。

在这些AI工具中，硅谷初创企业VAST于2024年发布的AI3D基础模型TripoAI，凭借独特的产品结构脱颖而出。

与面向更广泛用户的腾讯混元3D不同，TripoAI的定位更偏向专业创作者：进入页面后，用户可直接通过文字或图片生成3D模型，且可调参数相对丰富——不仅支持当前主流AI3D模型均具备的纹理生成功能，还能自动拆分模型部件，让每个拆解后的部件可单独编辑；甚至支持为模型部件绑定基础动画并演示，不过演示过程中偶尔会出现部件变形问题。总体而言，TripoAI是一款功能成熟、可适配多场景的AI3D工具。

图源：TripoAI

同样在2024年推出的MeshyAI（由国内团队创建），虽然也支持通过文字、图像直接生成3D模型，但它的核心优势在于更完善的社区功能：用户可在社区内浏览其他创作者的3D模型作品，平台对模型的分类细化清晰，还标注了互动量、点赞数、是否支持3D打印等关键信息。这一设计让新手用户能直接下载现成的3D模型使用，同时也提升了社区的传播度与活跃度。

图源：MeshyAI

而由LumaAI推出的GENIE工具，除支持文本转3D模型、多格式（如OBJ、FBX等）导出以适配不同场景外，最大亮点是提供API接口——用户可通过该接口直接将视频内容转化为3D模型，形成差异化竞争力。

不难看出，上述产品均凭借自身特色在同质化竞争中突围，腾讯混元3D也不例外。尽管其3D模型生成功能与其他工具未拉开明显差距，但“高免费额度”是其核心优势：在混元AI3D官网，每位用户每天可免费生成20次模型，次数耗尽后还能通过分享好友重新获取。这种“以量换用户”的推广策略相当成功，在3D世界模型Lite版发布前，其社区模型下载量已达230万次，成为全球最受欢迎的3D开源模型平台之一。

图源：腾讯混元AI

此次腾讯推出适配消费级显卡的混元3D世界模型Lite版，无疑将吸引更多创作者加入其生态。用户规模的增长，又将进一步推动反馈迭代与应用场景拓展：以当下热门的VR眼镜为例，混元3D导出的3D世界模型文件可直接导入使用，用户只需拥有VR设备，就能随时随地沉浸在自己创建的虚拟场景中，实现生态与硬件的联动；同时，AI3D基础模型能让普通用户轻松制作高度自定义的3D模型，与3D打印机形成协同。

更重要的是，AI3D化近乎“零学习成本”的特性，正推动其快速渗透至各行业：在建筑规划、室内设计、电商展示等场景中，3D可视化内容比文字或传统图纸更易理解，工作人员无需复杂学习即可输出场景内容，大幅减少重复建模的时间；这种“虚拟模型+实体行业”的联动，既能提升用户粘性，又能通过高度自定义内容让用户产生归属感——种种趋势表明，3D模型在2025年势必走向大众化。

小雷认为，未来的AI3D模型将进一步整合专业场景模型与创作风格，通过细分领域和使用场景吸引更多垂直用户，不断拓展生态边界并渗透到各类生活化场景中。

而这，正是本次3D模型平民化浪潮的核心意义——在现实与虚拟交融的当下，让每个人都拥有构建3D虚拟世界的能力。

不过，网上始终有一种论调，认为随着3D模型的普及，3D建模师会面临失业风险。对此，小雷却并不认同。

不可否认，这类能快速生成3D模型的工具，必然会对行业产生冲击。AI模型“快速高效”的优势，确实是人类难以企及的；但正如前文所说，当前的AI3D模型尚无法实现真正的用户个性化——其生成的产物，本质上仍是基于大模型学习数据所产出的“复刻式内容”。

而这类缺乏个性的内容，终究成不了优秀的作品。无论是游戏建模还是建筑设计，真正能让人记住的，永远是那些独具匠心的设计：是3D建模师反复打磨的细节，是为适配用户需求精心考量的巧思。因此小雷认为，以当前AI3D模型的能力，想要完全取代3D建模师基本不可能；相反，作为能高效执行重复性指令的工具，它更适合成为建模师提升效率的“辅助帮手”。

其实转念一想，这种“AI辅助创作”的模式，早就在各个行业中渗透。但受限于内容同质化的问题，AI往往只能停留在“重复的基础构建”环节。

这也正是雷科技在如今AI写作工具越来越便捷普及的今天，还在坚持原创的原因，小雷始终认为，真正有深度、有温度的好文章，绝不会因为AI的存在而黯然失色。