关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2906人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

官方：巴黎前锋杜埃右大腿肌肉拉伤，将伤缺数周

懂球帝浏览 2524

阿里正在开发开发最新AI编程工具「秒悟Meoo」

三言科技浏览 467

49岁舒淇终于承认不孕，备孕9年无果一度抑郁

小娱乐悠悠浏览 2290

精彩推荐

是颜值派更是实力派，李斯丹妮的高能生活不设限

时尚COSMO 浏览 1363

学者：此次＂正义使命＂演习最大的亮点就是＂开局即打＂

环球网资讯浏览 23201

申花亚冠赛季首胜！连战蔚山首尔不败，阿苏埃建功，延续5大纪录

奥拜尔浏览 2697

27岁清华学霸，空降掌舵腾讯AI

深蓝财经浏览 1818

宽基ETF被抢筹，市场风格走向何方？

国际金融报浏览 1932

苹果iOS 26.2 Beta1上线：日版开放侧载

快科技浏览 2545

柴麒敏：绿色低碳产业将释放约30万亿元新增投资

中国企业家杂志浏览 1572

网飞开年第一爆剧来了，快去看

独立鱼浏览 1480

戴伟浚：我肯定憋着一股劲，要在深圳新鹏城证明自己

懂球帝浏览 1640

秋天怎么穿出时尚感？适当露肤、不死板老气，高级又有回头率

静儿时尚达人浏览 2392

新加坡主权基金起诉蔚来，股价迎中、美、新“三国杀”！

野马财经浏览 2634

《风林火山》亏了4.2亿，古天乐终于拿出这部藏了6年的动作大片

靠谱电影君浏览 2699

现代IONIQ3即将全球首发 400V架构定位小型SUV

汽车公告板浏览 1466

安琪酵母投15亿元补产能缺口

北京商报浏览 2277

中国买家为希腊黄金签证花25万欧买房如今2万欧卖出

红星新闻浏览 7050

29岁女孩感谢蔡磊:使用其团队研发药物后病情没再发展

鲁中晨报浏览 17029

仅自己可见：腾讯QQ群聊消息官宣支持元宝AI总结功能

IT之家浏览 2079

曾毓群赴穗，小鹏与宁德双方能否“破冰复合”？

百姓评车浏览 1817

上海集成电路产业版图再落一子，长电科技今天在沪投产

上观新闻浏览 643

澳大利亚女足近3次亚洲杯半决赛保持不败，共6次参赛4次晋级

懂球帝浏览 471

菲亚特Punto Racer:九十年代意式小钢炮的遗珠

老爷车浏览 2840

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1