关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2483人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

帕多瓦诺:我为图多尔感到遗憾;让我选新帅绝对是曼奇尼

懂球帝 浏览 2457

卡拉格:如果枪手本赛季夺冠,拉亚一定是最关键的因素之一

懂球帝 浏览 425

美媒破大防:越南假想美国入侵 却不忌惮中国

澎湃新闻 浏览 3439

22个州经济正在萎缩,消费者信心持续下跌,多家机构警告美国经济衰退

环球网资讯 浏览 2759

29分钟打卡29+13!坎宁安完压布伦森被赞MVP 尼克斯陷4连败泥沼

颜小白的篮球梦 浏览 1677

秦雯回应太傲慢!绝症编剧维权艰难,网友痛批《繁花》剧组残忍

萌神木木 浏览 3329

7名中国游客溺亡于贝加尔湖 31岁幸存者被救细节披露

界面新闻 浏览 26064

曼谷偶遇文咏珊,产子三个多月瘦得过分

八怪娱 浏览 1593

国乒多人离队 总教练秦志戬回应

乒乓世界 浏览 11218

《侍神令》亏了6.1亿,沉寂4年,陈坤新片又来了,票房仅3.7万

靠谱电影君 浏览 2593

台湾省金钟奖成了“照妖镜”,小S拿奖后,破防人算是照明白了

娱乐圈笔娱君 浏览 2678

涉结束俄乌冲突 美媒披露"12点方案"

环球网资讯 浏览 11219

《寂静的朋友》全亚洲登陆,梁朝伟出演大尺度镜头,很可能被删减

最爱酷影视 浏览 2755

《骄阳似我》热度24000,这才是现偶剧该有的样子

娱乐圈笔娱君 浏览 1892

特朗普突然改口:暂时不想见普京 浪费时间

北京日报客户端-长安街知事 浏览 1987

前TVB男星回应拒演电影《寻秦记》传闻

TVB剧评社 浏览 1550

大S逝世一周年!S妈现身雕像揭幕,生前最后时光曝光,自曝没遗憾

萌神木木 浏览 1323

商竣程香港250赛再爆大冷排名狂飙95位,郑钦文官宣退出2026澳网

网球之家 浏览 1647

Cariad不再是“灵魂”担当,大众请外援能否赌赢未来?

禾颜阅车 浏览 2813

拒绝悬浮!6部扎心又治愈的“都市家庭剧”

木木汐影视剪辑 浏览 1649

时隔十年上证指数重返3900点 四季度A股“开门红”

商业观察杂志社 浏览 2891
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1