蚂蚁灵波宣布开源世界模型LingBot-World,该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均媲美Google Genie 3,旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的「数字演练场」。
针对视频生成中最常见的「长时漂移」问题,即生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象,LingBot-World通过多阶段训练以及并行化加速,实现近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支持。
交互性能上,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。模型亦具备Zero-shot泛化能力,输入一张真实照片或游戏截图,即可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集。(jl/da)
AASTOCKS新闻