关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2559人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

于晓光做梦没想到,李在明访华秋瓷炫竟火出圈

草莓解说体育 浏览 1569

大哥承诺每月给1万养家费 小弟把事扛了入狱发现被耍

方圆 浏览 7777

这一次,54岁的杨钰莹早已经上了另一条大道

青史楼兰 浏览 2389

美国政府进入史上"停摆"最长时间 特朗普表态

红星新闻 浏览 15163

美政府寻求查封数十艘与委内瑞拉有关联的油轮

国际在线 浏览 1569

伯利再挖布莱顿,邮报:前布莱顿技术总监威尔加盟斯特拉斯堡

懂球帝 浏览 2526

广西国资9.42亿入局,黑芝麻这回能“胡”一把?

野马财经 浏览 2002

媒体披露:U23国足主帅禁止球员在驻地点外卖

环球网资讯 浏览 18861

韩国市场:中国产电动车占比飙升至 34%!

郑谊 浏览 932

星际彗星 3I / ATLAS 亮度异常激增,科学家困惑不解

IT之家 浏览 2437

伊媒发布小学被炸瞬间 战斧导弹从天而降

潇湘晨报 浏览 542

张朝阳:AI让人人成为“知道分子”,但我们仍需思考丨2025世界互联网大会

红星资本局 浏览 2362

限量555台 蔚来新ET5T暗影套装限定车型售31.6万

网易汽车 浏览 2710

任泽平发声回应但斌“认错”:理性讨论比对错更重要

财视传播 浏览 1593

芒果这部剧,让人读懂“太平”二字的千钧重

娱乐圈笔娱君 浏览 1412

李行亮陪女儿录单曲!歌声美妙,俩大门牙……

柠檬有娱乐 浏览 2004

网友称小区1楼4户业主联合私挖地下室 官方回应

潇湘晨报 浏览 6623

苏永康被曝出轨!劣迹太多网友呼吁封杀?

萌神木木 浏览 2319

滴滴自动驾驶不甘落后

虎嗅APP 浏览 2757

女子家门口遇害案被告家属首发声:女儿带刀是为"防身"

南方都市报 浏览 18299

原来他们是爷俩,冷漠父子藏实力!低调逆袭

章眽八卦 浏览 2633
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1