关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2612人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刚放行中欧班列波兰又来找事 中方接下挑战书强硬反击

文雅笔墨 浏览 38490

对话倪海厦传承人,为什么说多数赛博中医会走不下去?

虎嗅APP 浏览 1816

12306又上新功能:坐火车能领取积分 积分可以当钱花

大象新闻 浏览 7317

四门四座焕新升级 第五代宏光MINIEV内饰图曝光

网易汽车 浏览 834

迈凯伦SUV要来了,搭V8混动

懂车之道 浏览 1871

杨超越最新状态曝光!身材颜值全满分!

草莓解说体育 浏览 2737

意媒:罗马正在评估引进斯特林的可行性,可能提出租借方案

懂球帝 浏览 1380

中马智库机构在吉隆坡举行交流座谈 探讨区域研究与合作

BT财经 浏览 610

美国正式退出世卫组织 还欠费2.6亿美元

都市快报橙柿互动 浏览 18957

塞维利亚总监:没有薪资空间引入拉莫斯,目前不考虑补强中卫

懂球帝 浏览 1319

罗马诺:尤文等5队有意明格萨,塞尔塔目前不想将其出售

懂球帝 浏览 1601

向太儿子向佑近照流出 威胁父母“不给钱我就去借”

鲁中晨报 浏览 6237

马克·库班抨击OpenAI情色计划:这将会适得其反

鞭牛士 浏览 2692

美无人机出现在委内瑞拉近海

北青网-北京青年报 浏览 1963

何小鹏:小鹏第二代VLA没有特供版 推送给媒体和用户的一致

快科技 浏览 430

好心载同事却出车祸遭索赔 法院:司机承担60%赔偿责任

极目新闻 浏览 7823

5分钟充满电!全球首款可量产全固态电池来了

21世纪经济报道 浏览 1698

出海、资本与政策三浪叠加 中国创新药开启“黄金时代”

中国商报 浏览 1681

格陵兰岛各政党领导人:格陵兰人不想成为美国人

界面新闻 浏览 7056

德雷森:格雷茨卡本赛季不走;我们将择机与凯恩开启续约谈判

懂球帝 浏览 1663

日本前外相:高市言论"可能开启一条通往战争的道路"

参考消息 浏览 17077
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1