关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2615人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国天眼新成果发布 揭示快速射电暴双星起源关键证据

环球网资讯 浏览 1595

AI再次降维打击人类 仅用1小时破译500年未解的"天书"

上观新闻 浏览 6838

56岁陈红颜值回春,参加路演不惧高清镜头,她满脸皱纹依旧美丽

温柔娱公子 浏览 2772

圣诞节,我想看这几部电影!

Yuki女人故事 浏览 1841

梁小龙死因被爆!去世前一天还在练咏春

阿坹武器装备科普 浏览 1550

每台六座车装的都是中年人的无可奈何

驾仕派 浏览 1701

零跑造豪车,“优衣库”依然是朱江明最坚硬的铠甲

雪豹财经社 浏览 2591

量产版明年上市 AUDI E SUV概念车亮相

车质网 浏览 2244

击败鲍里妮出线有望为何赛后不庆祝?高芙自揭答案:赢得侥幸

网球之家 浏览 2448

新款本田飞度有望26年1月上市 全新外观设计

太平洋汽车 浏览 1870

塞内加尔一度罢赛,摩洛哥足协投诉

体坛周报 浏览 1529

松弛感穿搭太适合秋冬了,减龄又好看

LinkFashion 浏览 2405

贵州省能源局局长陈华接任茅台集团董事长

网易财经 浏览 2531

刘晓庆严正否认男友及北京去世等不实传闻

晓肂爱八卦 浏览 1302

特朗普公布马杜罗被捕后照片

界面新闻 浏览 1483

新款比亚迪夏限时19.68万起售!上车天神之眼B激光版,支持城市NOA

车东西 浏览 2077

厦门大学等突破AI自学限制:让计算机为自己量身定制学习计划

科技行者 浏览 1352

爱优腾芒长剧阵地战

海克财经 浏览 1416

一个手机壳卖200,这家深圳公司靠什么掏空老外钱包?

花朵财经 浏览 1474

男子取170万元现金 在银行门口遭抢劫致重伤左眼失明

扬子晚报 浏览 16447

85后"美女经理"魏思琪接替王腾任要值 曾任职小米汽车

每日经济新闻 浏览 5853
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1