尊龙中国官方网站 机器东说念主为什么需要寰球模子? 寰球顶尖机构结伴综述颤动发布


作家团队来自南洋理工大学 MARS Lab、加州大学伯克利分校、斯坦福大学、哈佛大学、普林斯顿大学、ETH Zurich、牛津大学、东京大学、Microsoft 等机构的连续者。团队永久关怀机器东说念主学习、具身智能、寰球模子、多模态基础模子与机器东说念主战术学习。
寰球模子正在成为机器东说念主学习中绕不开的议题。
畴昔几年,机器东说念主战术学习的干线之一,是从传统的任务特定战术,转向更通用的 Vision-Language-Action (VLA) 模子。通过大限制视觉讲话模子和机器东说念主轨迹数据,VLA 模子约略将视觉不雅测、讲话教导和动作输出长入起来,在跨任务、跨场景泛化上展现出后劲。
但机器东说念主戒指并不仅仅「看图回话动作」。在的确物理环境中,战术模子需要面对战争、庇荫、万古序依赖、荒唐蕴蓄和多步讨论等问题。一个只阐述现时不雅测径直输搬动作的模子,同样穷乏对改日景色变化的显式预判。
这使得寰球模子再行成为机器东说念主学习中的中枢主张:机器东说念主不仅要知说念「目下是什么」,还要能琢磨「如若践诺某个动作,寰球接下来会如何演化」。
近日,来自南洋理工大学 MARS Lab 的连续者,结伴加州大学伯克利分校、斯坦福大学、哈佛大学、普林斯顿大学、ETH Zurich、牛津大学、东京大学、Microsoft 等机构,发布综述论文《World Model for Robot Learning: A Comprehensive Survey》,系统梳理了寰球模子在机器东说念主学习中的界说、架构范式、应用场景、评测基准与改日挑战。论文共 43 页,并配套抓续更新小心的 GitHub 资源库。

论文标题:World Model for Robot Learning: A Comprehensive Survey

图 1:论文举座框架图
机器东说念主寰球模子:
要点不是生成,而是可用于决策的琢磨
在机器学习和默契科学语境中,world model 并不是一个新见识。它频繁指约略描摹环境景色如何随时分和动作发生变化的琢磨模子。
但在机器东说念主学习中,作家强调需要对这一见识作更严格的界定。机器东说念主寰球模子不应仅仅一个能生成改日画面的模子,而应是约略容貌「智能体——环境」动态演化的模子。换言之,它需要回话的是:在现时景色下,如若机器东说念主践诺某个动作,改日景色会如何更正。
这极少也区分了机器东说念主寰球模子和一般视频生成模子。后者不错生成视觉上合理的视频,但巧合具备动作一致性。举例,模子可能生成一段看似当然的物体挪动视频,却无法准确反应机器东说念主夹爪动作、战争关系和受力变化。关于机器东说念主戒指来说,这么的琢磨价值有限。
因此,论文将机器东说念主寰球模子的中枢智力抽象为三类:
第一,foresight,即在践诺前琢磨动作后果;
第二,imagination-driven planning,即通过思象 rollout 比较候选举止;
第三,data amplification,即通过合成轨迹或演示数据改善战术学习。
这也证明了为什么寰球模子与机器东说念主学习的结合正在加快。VLA 战术提供了从视觉和讲话到动作的接口,而寰球模子补充了对改日物理变化的琢磨结构。二者结合后,机器东说念主战术不再仅仅反应式映射,而是有契机引入更强的前瞻性和讨论智力。
寰球模子如何接入机器东说念主战术?
论文起先参议的是寰球模子与机器东说念主战术的结合形势。作家将现存时势按架构分辩为多类,从早期解耦式时势,到单主干聚积、MoE / MoT 架构、长入 VLA,再到 latent-space world modeling。

图 2:时分线发展图
早期门道频繁聘请「琢磨改日,开运中国官方网站再收复动作」的两阶段框架。模子先左右视频生成或改日不雅测琢磨模块,生成任务关系的改日景色;随后,一个逆能源学模子阐述现时不雅测和琢磨改日,揣度机器东说念主应践诺的动作。UniPi、VidMan、Vidar、Gen2Act 等使命不错归入这一类。
这类时势的上风在于模块显著。寰球模子认真琢磨「将会发生什么」,战术模块认真把琢磨终结振荡为动作。但问题也很彰着:两个模块之间存在接口纰缪,生成的视频或 latent 表征如若与的确动作后果不一致,就会影响后续戒指。
随后,连续开动转向更紧耦合的决策。一类时势使用单一世成主干同期建模改日视觉景色和动作序列,将视频琢磨与动作生成放进归拢个扩散或流匹配进程。UVA、UWA、VideoVLA、Cosmos Policy 等时势都体现了这一趋势。它们不再把寰球模子行动外部模块,而是试图让琢磨和戒指在归拢个模子里面共同发生。
另一类时势聘请 MoE / MoT 或多分支行家结构。视频行家、动作行家和讲话意会模块保抓一定进度的参数孤苦,但通过分享防护力、交叉防护力或层间交互完了信息和会。Motus、LingBot-VA、BagelVLA 等时势都属于这一主张。比较十足分享主干,这种联想保留了不同模态的挑升智力,同期让视频琢磨中的时序和物理先验影响动作生成。

图 3:IDM、Single-Backbone、MoT 三种形势的对比
长入 VLA 则代表了另一条门道。它们不一定显式调用外部视频寰球模子,而是通过改日图像琢磨、视觉 foresight、结构化寰球学问或 latent 动态建模,把琢磨讨论内化到 VLA 熟悉进程之中。GR-1、WorldVLA、DreamVLA、UniVLA、CoWVLA 等时势都在不同层面体现了这种趋势。
值得防护的是,论文并莫得简便判断哪一皆线还是胜出。相背,作家指出,现时机器东说念主寰球模子仍处在快速演化阶段。解耦模块、长入生成主干、行家夹杂结构和 latent 表征各有优劣,最终遵守取决于数据限制、戒指频率、任务复杂度、推理资本以及模子是否信得过捕捉到动作条目下的物理变化。
从战术模块到可交互模拟器
寰球模子的第二类遑急用途,尊龙凯时中国官网入口是作为机器东说念主学习中的模拟器。
传统机器东说念主强化学习濒临一个永久瓶颈:的确交互资本高、采样遵守低、复位用功,况且存在硬件安全风险。如若不错用学习到的寰球模子替代的确环境进行 rollout,战术就不错在捏造交互中取得熟悉信号。
论文将这一主张称为 World Model as Simulator。在这一范式中,寰球模子摄取现时不雅测、任务教导和候选动作,琢磨下一步不雅测、奖励或断绝信号。战术模子不错在这个学习到的环境中进行强化学习后熟悉,也不错在测试阶段用寰球模子评估多个候选动作。

图 4:寰球模子作为 RL 模拟器和动作考证器
这一皆线的要害价值,是把寰球模子从「扶直琢磨器」推动到「熟悉环境」。举例,部分时势尝试用寰球模子生成 imagined transitions,用于 VLA 的 RL post-training;也有时势左右琢磨 rollout 对候选动作进行排序,在践诺前判断哪一组动作更可能告捷。
不外,作为模拟器的寰球模子也濒临更高要求。用于绽放式视频生成时,模子只需在视觉上保抓合理;但用于战术熟悉时,模子荒唐会径直影响战术优化主张。一个稍许偏差的能源学琢磨,可能在多步 rollout 中被放大,导致战术学到荒唐举止。因此,永久褂讪性、动作敏锐性和奖励一致性,是这一主张绕不开的问题。
视频生成模子能否成为机器东说念主寰球模子?
连年来,大限制视频生成模子的发展,为机器东说念主寰球模子提供了新的基础要领。视频模子自然学习时序变化、通顺联结性和空间结构,因此被合计可能为机器东说念主戒指提供有价值的先验。
但论文强调,机器东说念主视频寰球模子不行径直等同于通用视频生成。关于机器东说念主学习而言,最遑急的并不是画面质料,而是动作可控性和物理一致性。
一个信得过有用的机器东说念主视频寰球模子,需要在给定讲话教导、现时不雅测和动作序列时,生成与动作后果一致的改日景色。它还需要处治物体庇荫、战争变化、器具使用、场景几何和万古序任务等问题。
论文将机器东说念主视频寰球模子的发展抽象为几个阶段:
从当先的 imagination-based generation,即生成改日视频作为战术学习的扶直;
到 action-controllable world model,即显式建模动作对改日视觉景色的影响;
再到 structure-aware world model,即引入深度、3D、对象、轨迹、场景结构等中间默示;
最终走向 foundation-scale world model,即具备更大数据限制、更强泛化智力和多任务相宜性的基础寰球模子。

图 5:机器东说念主视频寰球模子关系分类
评测措施正在发生变化
论文的另一个要点是评测。关于寰球模子,单纯评估视频显著度或生成质料还是不够。
在机器东说念主场景中,评测应关怀模子是否能改善的确任务进展。举例,它能否升迁战术告捷率?能否正确排序候选动作?能否琢磨失败轨迹?能否在万古序任务中保抓因果一致?能否匡助战术减少的确交互样本?
加拿大PC中国官网入口因此,作家合计改日的 benchmark 需要从 open-loop visual fidelity 转向 closed-loop task utility。也便是说,寰球模子的狠恶不应只由「生成得像不像」决定,而应由「是否匡助机器东说念主作念得更好」来决定。

图 6:机器东说念主与寰球模子数据集
论文整理了多个机器东说念主学习 benchmark 和数据集,包括 LIBERO、RoboTwin、CALVIN、SIMPLER 等,并对不同寰球模子战术在这些环境中的进展进行了归类比较。这些终结知道,现时最灵验的时势并不衔接在单一架构上;不同任务下,解耦式、长入式、行家夹杂式和 latent-space 时势都可能进展出竞争力。
改日挑战:动作一致性、遵守和物理 grounding
尽管寰球模子在机器东说念主学习中展现出后劲,但论文也指出,距离可靠部署仍有多项要害挑战。
起先是动作条目下的因果一致性。模子不行只阐述历史不雅测「脑补」改日,而必须准确反应动作带来的景色变化。关于闭环戒指来说,这是寰球模子是否信得过有用的基础。
其次是推理遵守。很多视频扩散模子讨论资本较高,难以心仪机器东说念主及时戒指需求。因此,越来越多时势开动探索 latent-space prediction、熟悉时使用寰球模子、测试时跳过显式视频生成等决策。
第三是物理 grounding。的确机器东说念主交互依赖摩擦、力、触觉、物体材质和战争褂讪性,仅靠视觉琢磨同样不及。未下寰球模子可能需要和会本色嗅觉、力觉、触觉和结构化几何默示。
此外,论文也提到,神经寰球模子并无须然取代传统讨论和戒指时势。相背,象征默示、对象关系、因果结构和经典戒指仍可能为万古序任务提供更褂讪的抽象层。如何把神经琢磨智力与结构化讨论结合起来,将是机器东说念主寰球模子的遑急主张。
结语
这篇综述的价值在于,它莫得把寰球模子简便视为视频生成模子在机器东说念主鸿沟的迁徙,而是从机器东说念主学习自己开拔,再行梳理了寰球模子应该承担的功能:扶直战术生成、充任学习模拟器、复旧评估与讨论、生成熟所有据,并最终处事于的确可践诺的机器东说念主举止。
对机器东说念主学习而言,寰球模子的中枢问题不是「能不行思象改日」,而是「思象出的改日能否用于戒指」。
当机器东说念主约略在举止前琢磨后果、在践诺中改造讨论、在熟悉中左右捏造交互创新战术尊龙中国官方网站,寰球模子才信得过从生成模子走向具身智能系统的中枢组件。
