关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2901人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

独家 | 好想来、良品铺子转型综合超市，筹划做“万市大集”

商业观察家浏览 2827

凌晨3点皇马出战！赢球=8连杀+反超巴萨登顶姆巴佩冲60球

叶青足球世界浏览 2690

内塔尼亚胡强势点名联大离场国家 3个地区被重点提及

文汇报浏览 4296

精彩推荐

被扫地出门的贵公子，真是活该

Yuki女人故事浏览 2244

区情｜玩转杨数浦，京东自提服务打造数商融合消费新体验！

上观新闻浏览 1769

小米澎湃OS 3上线2026年元旦限定水印，三种版式自由选择

IT之家浏览 1633

一家4口爬山妻子坠亡警方排除他杀可能:属于高空坠亡

极目新闻浏览 40652

格列兹曼：媒体曾报道梅西对我不满，但比赛中他主动让点给我

懂球帝浏览 2731

北京“远航天梦”航天科技体验中心项目正式落成

环球网资讯浏览 1569

极氪8X实车现身，大过宝马X5+5/6座可选，配1401马力+双腔空悬？

燕赵女司机浏览 1584

京东卖车翻车：汽车电商为何屡战屡败？

天天汽车浏览 2187

马英九首度＂自嘲＂回应赖清德：我还要救援几次

台海网浏览 17055

早有预兆！浙江老板遭刑事强制，一个多月前已有小道消息

壹只灰鸽子浏览 2641

丹麦国防部称格陵兰岛军事演习将持续到年底

上观新闻浏览 1501

18.99万起，智享大六座旗舰SUV风云T11上市，又要卖爆？

电车通浏览 2261

芬兰将举行多场联合军演俄芬关系再度紧张

国际在线浏览 2431

美被指向以色列通报对伊朗行动准备进展

每日经济新闻浏览 1375

乌武装部队前总司令扎卢日内提议:在乌克兰部署核武器

环球时报国际浏览 16477

【观察】图多尔下课了，但尤文的混乱何时结束？

体坛周报浏览 2539

价格没变升级5G网？2026款宝马X1上市，销量稳了？

大李说车浏览 1380

将于广州车展亮相零跑A10路试谍照曝光

车质网浏览 2459

雅达利复刻“前竞争对手”Mattel Intellivision Sprint 游戏机

IT之家浏览 2652

比亚迪双旗舰谍照来了！大汉/大唐，更大、更强

车市红点浏览 1849

2026款五菱扬光预售：限时一口价6.98万起，动力续航加量不加价

IT之家浏览 943

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1