关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2901人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

被扫地出门的贵公子,真是活该

Yuki女人故事 浏览 2244

区情|玩转杨数浦,京东自提服务打造数商融合消费新体验!

上观新闻 浏览 1769

小米澎湃OS 3上线2026年元旦限定水印,三种版式自由选择

IT之家 浏览 1633

一家4口爬山妻子坠亡 警方排除他杀可能:属于高空坠亡

极目新闻 浏览 40652

格列兹曼:媒体曾报道梅西对我不满,但比赛中他主动让点给我

懂球帝 浏览 2731

北京“远航天梦”航天科技体验中心项目正式落成

环球网资讯 浏览 1569

极氪8X实车现身,大过宝马X5+5/6座可选,配1401马力+双腔空悬?

燕赵女司机 浏览 1584

京东卖车翻车:汽车电商为何屡战屡败?

天天汽车 浏览 2187

马英九首度"自嘲"回应赖清德:我还要救援几次

台海网 浏览 17055

早有预兆!浙江老板遭刑事强制,一个多月前已有小道消息

壹只灰鸽子 浏览 2641

丹麦国防部称格陵兰岛军事演习将持续到年底

上观新闻 浏览 1501

18.99万起,智享大六座旗舰SUV风云T11上市,又要卖爆?

电车通 浏览 2261

芬兰将举行多场联合军演 俄芬关系再度紧张

国际在线 浏览 2431

美被指向以色列通报对伊朗行动准备进展

每日经济新闻 浏览 1375

乌武装部队前总司令扎卢日内提议:在乌克兰部署核武器

环球时报国际 浏览 16477

【观察】图多尔下课了,但尤文的混乱何时结束?

体坛周报 浏览 2539

价格没变升级5G网?2026款宝马X1上市,销量稳了?

大李说车 浏览 1380

将于广州车展亮相 零跑A10路试谍照曝光

车质网 浏览 2459

雅达利复刻“前竞争对手”Mattel Intellivision Sprint 游戏机

IT之家 浏览 2652

比亚迪双旗舰谍照来了!大汉/大唐,更大、更强

车市红点 浏览 1849

2026款五菱扬光预售:限时一口价6.98万起,动力续航加量不加价

IT之家 浏览 943
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1