螞蟻靈波宣布開源世界模型LingBot-World,該模型在視頻質量、動態程度、長時一致性、交互能力等關鍵指標上均媲美Google Genie 3,旨在為具身智能、自動駕駛及遊戲開發提供高保真、高動態、可實時操控的「數字演練場」。
針對視頻生成中最常見的「長時漂移」問題,即生成時間一長就可能出現物體變形、細節塌陷、主體消失或場景結構崩壞等現象,LingBot-World通過多階段訓練以及並行化加速,實現近10分鐘的連續穩定無損生成,為長序列、多步驟的複雜任務訓練提供支持。
交互性能上,LingBot-World可實現約16 FPS的生成吞吐,並將端到端交互延遲控制在1秒以內。模型亦具備Zero-shot泛化能力,輸入一張真實照片或遊戲截圖,即可生成可交互的視頻流,無需針對單一場景進行額外訓練或數據採集。(jl/da)
AASTOCKS新聞