安徽应用数学中心/数字技术的数学基础与应用教育部重点实验室智能设计团队提出了一种自然语言驱动的复杂室内场景生成方法,实现了从开放式文本描述到复杂整屋三维室内场景的自动合成。该成果以“Text2Scenes: Language-Guided Synthesis of Complex Indoor Scenes”论文,发表在计算机视觉与人工智能顶级期刊《International Journal of Computer Vision》。
高质量室内场景数据在具身智能训练、虚拟现实、游戏设计、建筑设计等领域具有重要价值。现有室内场景生成方法大多依赖有限数据或预定义规则,通常只适用于矩形单房间布局,难以处理真实住宅中常见的不规则户型、门窗约束、三维物体朝向等困难情况,因此生成结果容易出现布局不合理、真实感不足和整体风格不一致等局限。
研究团队提出了Text2Scenes的自然语言驱动三维室内场景生成方法,能够根据用户文本描述自动生成与现实住宅结构和功能高度一致的复杂室内场景。该方法在保持空间关系合理性与物体放置精确性的同时,显著提升了场景的真实感、功能性和可用性,为虚拟环境构建、室内设计辅助及具身智能训练数据合成等应用提供了新的技术路径。

图 1:Text2Scenes总体框架
(一)本工作的方法流程与亮点概述如下:
n 真实户型框架检索:Text2Scenes首先从用户文本中解析房间类型、数量及功能需求,并不再依赖简单规则化房间,而是在真实住宅数据中检索匹配的户型框架以作为生成边界约束。该策略使系统自然支持缺角、异形等复杂空间,提供更接近现实的建筑边界信息,为后续布局生成打下可靠基础。
n 多智能体语言模型生成与回溯优化:在房间布局与物体关系图生成阶段,系统采用大语言模型的多智能体协同机制来构建房间内的物体语义关系,随后引入回溯优化算法细化物体摆放位置,提升布局的一致性与功能合理性。
n 三维资产检索与朝向预测:在三维内容构建环节,系统从基于3D-Future与Objaverse整合构建的高质量三维资产库中,依据物体语义描述与尺寸信息检索候选模型,并通过文本相似度与尺寸差异联合排序提高匹配精度。为解决不同三维模型正面方向不一致的问题,研究团队还设计了物体朝向预测机制,保证床、沙发、柜体等家具的朝向合理且整体一致。

图 2:户型框架检索流程

图 3:三维资产检索流程

图 4:三维资产朝向预测流程
(二)数据构建与实验评测
研究团队基于3D-Front数据集筛选得到4772个有效户型框架,共包含34954个房间,其中92.00%的房屋至少包含一个不规则房间。同时整合3D-Future与Objaverse,构建了包含54714个高质量三维模型的资产库。定量与主观评测结果显示,Text2Scenes在真实感、功能性、材质方案等指标上均优于现有代表性方法。
在人类主观评测中,在物体完整性、场景复杂度与总体偏好等维度表现出明显优势。消融实验表明,引入物体朝向机制后生成布局的合理性进一步提升;在iGibson导航任务中,采用Text2Scenes生成数据训练的模型在路径规划效率与任务完成率上也表现更好,初步验证了该方法生成数据对具身智能感知与认知能力提升的潜力。

图 5:定性实验结果
(三)应用前景与后续研究方向
自然语言驱动三维室内场景生成在虚拟环境搭建、交互式室内设计辅助及具身智能训练数据合成中具有广泛的应用前景。研究团队计划扩展户型框架来源,并探索将对话交互与草图输入相结合的场景生成方式,以提升系统的灵活性与实用性。
中国科学技术大学柳淏玮、董新桐为该工作的共同第一作者,中国科学技术大学数学科学学院副教授宋艳枝为通讯作者。本项研究获得了国家自然科学基金委重大研究计划重点支持项目、安徽省科技创新攻关重大项目、安徽应用数学中心、数字技术的数学基础与应用教育部重点实验室的大力支持。
论文链接:https://doi.org/10.1007/s11263-026-02854-8
Haowei Liu#, Xintong Dong#, Chuanyang Li, Zhouwang Yang, Yanzhi Song*. Text2Scenes: Language-Guided Synthesis of Complex Indoor Scenes. International Journal of Computer Vision, (2026) 134:268.

