机器人告别逐帧学动作！全球首个事件级具身智能世界模型发布

xiaoye · *发表于* 4 小时前

🤖 机器人告别"逐帧学动作"！全球首个事件级具身智能世界模型发布

来源：AIBase ｜ 2026-05-29

[align=null, 2, left]5月29日，自变量机器人团队正式发布了全球首个基于"事件级预测"的具身智能世界模型WALL-WM。该模型打破了传统具身大模型按时间帧机械学习动作的局限，将世界模型的预测单位彻底切换为语义事件，标志着机器人理解与执行任务的能力迈向了全新阶段。突破逐帧学习的行业痛点

[align=null, 2, left]在当前的具身智能行业中，主流的视觉-语言-动作（VLA）模型普遍采用给定当前画面和指令、预测固定长度动作块的模式。这种逐帧填空式的笨拙训练方式，往往导致机器人只能记住微小的物理挪动，而忽略了动作的最终目标。一旦面对换杯子、换桌子等场景微调，机器人极易因缺乏泛化能力而"翻车"。[align=null, 2, left]针对这一行业痛点，WALL-WM世界模型开创性地引入了"以事件为中心"的训练与执行机制。它将机器人的复杂任务根据动作边界切分为诸如伸手、抓取、移位等具有明确语义的事件关节。在实际运行中，模型不再死板地推算下一帧画面，而是先对"下一个事件会导致世界发生何种变化"进行超前预演，随后再将这种视觉变化精准翻译为机械臂的运动轨迹。硬核工程架构重构

[align=null, 2, left]为了让这一全新架构在真实物理世界中稳定落地，团队进行了一系列硬核工程重构：系统支持在同一个基座权重下灵活切换变长动作输出的"事件模式"与实时闭环控制的"统一模式"；引入视锥掩码与管状掩码机制，强迫AI建立跨视角的真实三维几何对应能力；通过全新的"阶梯式思维链解码"技术大幅降低解码延迟。[align=null, 2, left]在数据层面，团队依托百万级网络通用视频补足视觉先验，配合四级层级化标注、双聚类采样、分布式"Muon"训练系统以及部署端的FP8量化，WALL-WM在具身视频生成质量和三维空间感知等多项指标上全面领跑。目前该项目已开源。📎 原文链接：https://news.aibase.com/zh/news/28481

机器人告别逐帧学动作！全球首个事件级具身智能世界模型发布

回复

快捷导航