凭借其WorldGen系统,Meta正在将生成性人工智能用于3D世界,从创建静态图像转向完全交互式的资产。
创建沉浸式空间计算体验的主要瓶颈——无论是消费者游戏、工业数字双胞胎还是员工培训模拟——长期以来一直是3D建模的劳动密集型性质。制作互动环境通常需要专业艺术家团队工作数周。
根据Meta现实实验室的一份新技术报告,WorldGen能够在大约五分钟内从单个文本提示中生成可穿越和交互式的3D世界。
虽然该技术目前是研究级的,但WorldGen架构解决了阻碍生成式人工智能在专业工作流程中发挥作用的特定痛点:功能交互性、引擎兼容性和编辑控制。
生成式人工智能环境成为真正的交互式3D世界
许多现有的文本到3D模型的主要失败之处在于,它们将视觉保真度置于功能之上。高斯飞溅等方法可以创建逼真的场景,在视频中看起来令人印象深刻,但通常缺乏用户与环境交互所需的底层物理结构。缺乏碰撞数据或斜坡物理的资产对模拟或游戏几乎没有价值。
WorldGen偏离了这条道路,优先考虑“可通行性”。该系统生成一个导航网格(navmesh)——一个定义可步行表面的简化多边形网格——以及视觉几何体。这确保了像“中世纪村庄”这样的提示不仅会产生一系列房屋,还会产生一种空间连贯的布局,在这种布局中,街道上没有障碍物,可以进入开放空间。
对于企业来说,这种区别至关重要。工厂车间的数字孪生或危险环境的安全培训模拟需要有效的物理和导航数据。
Meta的方法确保输出是“游戏引擎就绪”的,这意味着资产可以直接导出到Unity或虚幻引擎等标准平台。这种兼容性允许技术团队将生成工作流集成到现有的管道中,而不需要其他方法(如辐射场)通常需要的专门渲染硬件。
WorldGen的四级生产线
Meta的研究人员将WorldGen构建为一个模块化的人工智能管道,反映了创建3D世界的传统开发工作流程。
该过程从场景规划开始。LLM充当结构工程师,解析用户的文本提示以生成逻辑布局。它决定了关键结构和地形特征的位置,产生了一个“遮挡”——一个粗略的3D草图——确保场景具有物理意义。
随后的“场景重建”阶段构建初始几何体。该系统在导航网格上调节生成,确保AI在“幻觉”细节时,不会无意中将巨石放在门口或堵塞消防通道。
第三阶段“场景分解”可能与操作灵活性最相关。该系统使用一种名为AutoPartGen的方法来识别和分离场景中的单个对象——将树与地面区分开来,或将板条箱与仓库地板区分开来。
在许多“单镜头”生成模型中,场景是一个单一的几何融合块。通过分离组件,WorldGen允许人工编辑在生成后移动、删除或修改特定资产,而不会破坏整个世界。
在最后一步中,“场景增强”会打磨资产。该系统生成高分辨率纹理并细化单个对象的几何形状,以确保在接近时保持视觉质量。
使用生成式人工智能创建3D世界的操作现实主义
实施这种技术需要对当前的基础设施进行评估。WorldGen的输出是标准纹理网格。这种选择避免了与专有渲染技术相关的供应商锁定。这意味着,构建VR培训模块的物流公司理论上可以使用该工具快速原型化布局,然后将其交给人类开发人员进行改进。
在足够的硬件上创建一个完全纹理化、可导航的场景大约需要五分钟。对于习惯于基本环境封锁的多天周转时间的工作室或部门来说,这种效率的提高确实改变了世界。
然而,该技术确实存在局限性。当前迭代依赖于生成单个参考视图,这限制了它可以生成的世界的规模。如果不将多个区域拼接在一起,它还无法原生生成跨越数公里的庞大开放世界,这可能会带来视觉不一致的风险。
该系统目前还可以独立表示每个对象,而无需重复使用,这可能会导致在非常大的场景中内存效率低下,与手工优化的资产相比,其中单个椅子模型重复50次。未来的迭代旨在解决更大的世界规模和更低的延迟问题。
将WorldGen与其他新兴技术进行比较
将这种方法与其他新兴的人工智能技术进行比较,以创建3D世界,可以提供清晰的信息。该领域的竞争对手World Labs采用了一种名为Marble的系统,该系统使用高斯斑点来实现高照片真实感。虽然视觉上引人注目,但当相机远离中心时,这些基于飞溅的场景的质量通常会降低,并且在距离视点仅3-5米的地方保真度会下降。
Meta选择输出基于网格的几何图形,将WorldGen定位为功能应用程序开发的工具,而不仅仅是视觉内容创建。它原生支持物理、碰撞和导航,这些功能对于交互式软件来说是不可协商的。因此,WorldGen可以生成跨度为50×50米的场景,始终保持几何完整性。
对于技术和创意领域的领导者来说,WorldGen等系统的到来带来了令人兴奋的新可能性。组织应该审计其当前的3D工作流程,以确定“封锁”和原型设计在哪里吸收了最多的资源。生成工具最好部署在这里以加速迭代,而不是试图立即替换最终的高质量生产。
同时,技术艺术家和关卡设计师将需要从手动放置每个顶点过渡到提示和策划AI输出。培训计划应侧重于“空间布局的快速工程”和为3D世界编辑人工智能生成的资产。最后,虽然输出是标准的,但生成过程需要大量的计算。评估内部部署与云渲染能力对于采用是必要的。
生成3D最适合作为结构布局和资产人口的力量倍增器,而不是完全取代人类的创造力。通过自动化构建世界的基础工作,企业团队可以将预算集中在驱动业务价值的交互和逻辑上。