3月17日|据智能纪元AGI,前DeepSeek研究员、小米MiMo大模型负责人罗福莉发表论文,与北京大学联合研发出统一的资源管理系统 ARL-Tangram。ARL-Tangram 采用统一的动作级公式和弹性调度算法,不仅满足异构资源约束,而且最大限度地缩短动作完成时间(ACT),以及实现定制化异构资源管理器。
在真实世界的智能体强化学习任务上的评估表明,ARL-Tangram可以将平均ACT提高高达4.3分。可将强化学习训练的步骤持续时间缩短至多1.5 倍,并节省高达71.2%的外部资源。这是罗福莉在小米发表的第二份突破性技术成果论文。去年10月,小米AI团队携手北京大学联合发布一篇聚焦MoE与强化学习的论文,其中已经出现罗福莉的名字,成为罗福莉在小米发表的首篇论文成果。
新闻来源 (不包括新闻图片): 格隆汇