关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2696人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

76人新赛季不败金身被破,全胜球队仅剩马刺、雷霆和公牛

懂球帝 浏览 2487

这一抹瑞红,在2025年终

时尚COSMO 浏览 1363

涉安世半导体 商务部发声:同意荷经济部派员来华磋商

财联社 浏览 9420

配全新双联屏 红旗HS6 PHEV将11月15日预售

车质网 浏览 2441

10余年持续攻关,为长大隧道配一个智能“消防员”|2024上海市科学技术奖

上观新闻 浏览 1582

孙东旭卸任东方甄选珠海公司职务

雷达财经 浏览 1810

明天会更一部灵异类电影,那就找几张鬼里鬼气的壁纸,大家收图

电影最TOP 浏览 2197

美国举起关税大棒持续施压 伊朗要给“难忘教训”

环球网资讯 浏览 1602

精读季报丨好气!姜诚管理规模掉到115亿元,相较巅峰缩水1/4

一地基毛 浏览 1414

女子产后抑郁自缢骨灰被丈夫私自下葬 父母苦寻四年

新民晚报 浏览 6897

林依晨二胎喜讯背后:被造谣7年生吃青蛙的十年婚变史

Yuki女人故事 浏览 4248

老年痴呆父亲掏出所有钱哽咽求女儿:能带我找妈妈吗

潇湘晨报 浏览 12117

哈格里夫斯:希望拉什福德能回曼联,俱乐部完全可以用得上他

懂球帝 浏览 1643

特朗普发登岛图片 上面写着"格陵兰岛2026年成美领土"

鲁中晨报 浏览 11238

除了阔腿裤,这条裤子今年最流行!

LinkFashion 浏览 438

贝壳豪掷23亿美元回购,董事长彭永东“花公司钱为自己股票护盘”

财经众议院 浏览 2347

真情侣就是好嗑,短剧界有多少“因戏生情”的cp?

仙女事件簿 浏览 2578

可惜了,这世界第一美少年

独立鱼 浏览 2628

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

扬子晚报 浏览 3496

突发!特斯拉美国要求禁用中国产零部件;离谱!曝多益网络创始人有300个孩子,公司回应;苹果CEO库克被曝或于明年卸任丨雷峰早报

雷峰网 浏览 2358

外观大幅调整 疑似红旗H5纯电版谍照曝光

车质网 浏览 2073
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1