关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2906人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

是颜值派更是实力派,李斯丹妮的高能生活不设限

时尚COSMO 浏览 1363

学者:此次"正义使命"演习最大的亮点就是"开局即打"

环球网资讯 浏览 23201

申花亚冠赛季首胜!连战蔚山首尔不败,阿苏埃建功,延续5大纪录

奥拜尔 浏览 2697

27岁清华学霸,空降掌舵腾讯AI

深蓝财经 浏览 1818

宽基ETF被抢筹,市场风格走向何方?

国际金融报 浏览 1932

苹果iOS 26.2 Beta1上线:日版开放侧载

快科技 浏览 2545

柴麒敏:绿色低碳产业将释放约30万亿元新增投资

中国企业家杂志 浏览 1572

网飞开年第一爆剧来了,快去看

独立鱼 浏览 1480

戴伟浚:我肯定憋着一股劲,要在深圳新鹏城证明自己

懂球帝 浏览 1640

秋天怎么穿出时尚感?适当露肤、不死板老气,高级又有回头率

静儿时尚达人 浏览 2392

新加坡主权基金起诉蔚来,股价迎中、美、新“三国杀”!

野马财经 浏览 2634

《风林火山》亏了4.2亿,古天乐终于拿出这部藏了6年的动作大片

靠谱电影君 浏览 2699

现代IONIQ3即将全球首发 400V架构 定位小型SUV

汽车公告板 浏览 1466

安琪酵母投15亿元补产能缺口

北京商报 浏览 2277

中国买家为希腊黄金签证花25万欧买房 如今2万欧卖出

红星新闻 浏览 7050

29岁女孩感谢蔡磊:使用其团队研发药物后病情没再发展

鲁中晨报 浏览 17029

仅自己可见:腾讯QQ群聊消息官宣支持元宝AI总结功能

IT之家 浏览 2079

曾毓群赴穗,小鹏与宁德双方能否“破冰复合”?

百姓评车 浏览 1817

上海集成电路产业版图再落一子,长电科技今天在沪投产

上观新闻 浏览 643

澳大利亚女足近3次亚洲杯半决赛保持不败,共6次参赛4次晋级

懂球帝 浏览 471

菲亚特Punto Racer:九十年代意式小钢炮的遗珠

老爷车 浏览 2840
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1