![]()
文乐 发表者:ao fei qubit |公众号Qbitaiai大屋来了。华为联合上海交通大学、华中科技大学推出了世界模型Wordgrow,可以生成1800平方米(19x39块)的大型室内场景。单张卡30分钟可覆盖272平方米。里面的虚拟人也可以顺利导航,不会迷路。 。可以说是走到哪儿就建到哪儿。场景是怎样布置的?凭借相互关联的几何拓扑和逼真的外观,过去尝试创建像样的 3D 场景非常麻烦。例如,某些方法首先使用 2D 模型绘制图像,然后将其硬编码为 3D。改变视角后,沙发腿弯曲,墙面纹理断裂……还有几种方法最多只能打造出单间,拓展成套房时可以避免。更离谱的是没有布局逻辑——冰箱插在卧室里,床放在厨房里。今天,WorldGrow 在这里进行一些改造(bushi),使用三种主要技术来填补空白。第一步是进行精确的数据预处理,从3D-front等大数据集中提取高质量样本,使用blender进行场景切片,通过布尔交集将场景分成块,然后依靠检测工作来保证块内容密度(可见内容≥95%)。同时构建了粗、细两个数据集。粗块定义宏观布局,细块保留细节纹理。第二步依靠3D块补全机制来实现无缝拼接。生成新块时,结构生成器首先确定 3D 结构的轮廓,然后潜在生成器重建结构化变量可变特征(SLAT)以确保统一的外观和风格。此外,当模型的输入时,噪声变量、二值掩模的辅助掩模和掩模特征区域被包裹和合并,这使得模型能够基于现有块的上下文中的信息准确地生成,消除诸如断裂边缘和纹理错位之类的接缝。第三步是由粗到细的生成策略,将扩展场景变成完成缺失块的任务。首先,总体规划是通过结构的粗略模型来确定,如窗户的布局、走廊的连接等;然后对粗结构进行三线性插值上采样以匹配精细块级别的分辨率,然后调用精细结构生成器来完成工具和纹理等细节。从对比中可以看出,Worldgrow可以生成高分辨率、连续的室内场景,纹理逼真、连贯。实验数据表明t 在3D-front数据集中,MMD和CoV的几何重建指标均达到SOTA,其FID(用于评估生成质量的主要指标,越低越好)小于7.52,明显优于assyncytism和blockfusion等主流方法;即使扩展到7×7块的海量场景,边缘质量也保持稳定。在效率方面,单块A100显卡可在30分钟内生成一个10×10块(约272㎡)的室内场景,速度是同类技术的6倍。团队介绍 本文的第一作者是来自上海交通大学的李思匡和杨晨。这项研究是他们在华为实习期间完成的。陈阳现在还是华为的研究实习生。他的研究重点是计算机视觉和计算机图形学。他的导师之一是这项研究的通讯作者艾古鲁田七。田奇 华为终端BG首席科学家、中国科学院院士国际欧亚科学院院士、ACM/IEEE 院士。论文地址:https://arxiv.org/abs/2510.21682 返回搜狐查看更多