关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2480人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

REDMI K90 Pro Max 可与 iPhone / 小米 17 Pro Max 通用钢化膜

IT之家 浏览 2606

日本经济长期疲软,日元购买力跌至53年来最低

环球网资讯 浏览 944

巴基斯坦夜袭阿富汗边境地区 打死至少70名武装人员

新华社 浏览 2771

被京东狠狠拿捏了!春节砸13亿给一线员工发红包

雷科技 浏览 1369

韩庚晒卢靖姗官宣生子!一家四口同框照好幸福

一只番茄鱼 浏览 2618

银行大动作!这类大额存单利率,跌破1%

中国基金报 浏览 1664

戴尔推入门游戏显示器SE2426HG、SE2726HG:FHD 240Hz Fast IPS

IT之家 浏览 1996

E句话|工作室宣布向涵之单身?

仙女事件簿 浏览 1401

净利润暴增503倍!310亿“零食大王”,冲刺港股IPO

侃见财经 浏览 2768

内讧了,郭昊文&赵柏清刚开场就激情对喷,随后双双被DNP

懂球帝 浏览 477

买黄金,要大变了!

深蓝财经 浏览 2449

瓜帅:B席是曼城成功的原因之一;我永远感激京多安和萨内

懂球帝 浏览 1405

号称“租手机赚钱”,知名平台突然爆雷!有员工抵押房产上班两月,套牢130多万元,投资者:我66台iPhone没了

每日经济新闻 浏览 2322

横琴人寿去年净亏3.27亿,保险业务收入同比下滑23%

密探财经 浏览 1309

媒体:高市早苗当选首相 对华采取挑衅措施的可能提升

界面新闻 浏览 7401

秋天穿衣真的一点都不难!从这些穿搭中收获灵感,舒适又耐看

静儿时尚达人 浏览 2343

泰国使用F-16战斗机对多个地点进行空袭 柬埔寨谴责

新京报 浏览 1872

日企天空推出UMPC新品TENKU Pocket 8,搭载N305处理器

IT之家 浏览 957

巴黎客战布雷斯特:阿什拉夫、巴尔科拉首发, 登贝莱替补

懂球帝 浏览 2707

魅族 22 手机推送 Flyme 12.3.1.3A 稳定版更新

IT之家 浏览 2430

坚持10年做这件小事,我收获了太多

黎贝卡的异想世界 浏览 2568
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1