返回列表 发新帖

机器人告别逐帧学动作!全球首个事件级具身智能世界模型发布

10 0
xiaoye 发表于 4 小时前|中国 | 查看全部 阅读模式
🤖 机器人告别"逐帧学动作"!全球首个事件级具身智能世界模型发布
& [. Z" g: Z8 x+ o; f7 L3 t4 A/ N
% c* \4 e' L$ H, S: {3 m; x) ~# J
来源:AIBase | 2026-05-29
[align=null, 2, left]5月29日,自变量机器人团队正式发布了全球首个基于"事件级预测"的具身智能世界模型WALL-WM。该模型打破了传统具身大模型按时间帧机械学习动作的局限,将世界模型的预测单位彻底切换为语义事件,标志着机器人理解与执行任务的能力迈向了全新阶段。突破逐帧学习的行业痛点
9 }* k" V" y/ e* }& [% s, r) L& b! ]$ [' P. u% i& z7 e* O5 E
[align=null, 2, left]在当前的具身智能行业中,主流的视觉-语言-动作(VLA)模型普遍采用给定当前画面和指令、预测固定长度动作块的模式。这种逐帧填空式的笨拙训练方式,往往导致机器人只能记住微小的物理挪动,而忽略了动作的最终目标。一旦面对换杯子、换桌子等场景微调,机器人极易因缺乏泛化能力而"翻车"。[align=null, 2, left]针对这一行业痛点,WALL-WM世界模型开创性地引入了"以事件为中心"的训练与执行机制。它将机器人的复杂任务根据动作边界切分为诸如伸手、抓取、移位等具有明确语义的事件关节。在实际运行中,模型不再死板地推算下一帧画面,而是先对"下一个事件会导致世界发生何种变化"进行超前预演,随后再将这种视觉变化精准翻译为机械臂的运动轨迹。硬核工程架构重构& P- _! ^1 x! E
# k$ L) [* \( F
[align=null, 2, left]为了让这一全新架构在真实物理世界中稳定落地,团队进行了一系列硬核工程重构:系统支持在同一个基座权重下灵活切换变长动作输出的"事件模式"与实时闭环控制的"统一模式";引入视锥掩码与管状掩码机制,强迫AI建立跨视角的真实三维几何对应能力;通过全新的"阶梯式思维链解码"技术大幅降低解码延迟。[align=null, 2, left]在数据层面,团队依托百万级网络通用视频补足视觉先验,配合四级层级化标注、双聚类采样、分布式"Muon"训练系统以及部署端的FP8量化,WALL-WM在具身视频生成质量和三维空间感知等多项指标上全面领跑。目前该项目已开源。📎 原文链接:https://news.aibase.com/zh/news/28481' L( w2 u+ q1 k, P/ t3 c; c; c

: G3 H) d* i3 _: b: i" T

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

得知互动是一个融创意、设计、开发、营销、生活、互联网于一体的专业交流分享平台。
Copyright © 2026 站长技术交流论坛|互联网技术交流平台 版权所有 All Rights Reserved. Powered by Discuz! X5.0 鄂ICP备15006301号-5|鄂公网安备 42018502006730号
关灯 在本版发帖 扫一扫添加QQ客服 返回顶部
快速回复 返回顶部 返回列表