关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者1309人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子旅游途中接到物业电话:你家发大水 把楼都淹了

鲁中晨报 浏览 2715

冬季穿衣没想象中那么难,看看这些穿搭就有灵感,保暖又好看

静儿时尚达人 浏览 2196

石破茂:拥核绝不会给日本带来正面影响

环球网资讯 浏览 1814

时隔一年重要大会在东南沿海大省举办 出现新变化

政知新媒体 浏览 8640

尚界H5成20万元内唯一超五星安全认证车型 余承东:这个有点厉害

快科技 浏览 617

银价已见顶

路财主 浏览 1363

官方确认:歼10CE在空战中击落多架战机

北京青年报 浏览 1601

雷军跨年直播拆车,15台手机撬动300亿市值?

BT财经 浏览 1684

又一部国产剧,靠「擦边」火出圈了

独立鱼 浏览 1342

首日大涨,成都一家“AI小巨人”敲钟了

深蓝财经 浏览 1825

内塔尼亚胡遭遇“全球孤立” 联大发言多国代表离席

环球网资讯 浏览 3284

23岁美国女孩寻中国亲生父母 志愿者找到当年的孤儿院

封面新闻 浏览 11930

与宾利添越是"亲兄弟" 大众途锐3.0TSI锐臻版上市

隔壁说车老王 浏览 1463

“罗小黑”热度不减 中文在线尚未跑通IP

北京商报 浏览 2210

一场意外的形象崩塌却让他更红了!

伊周潮流 浏览 2609

大兵压境时忽启谈判 特朗普“葫芦里卖的什么药”

看看新闻Knews 浏览 1399

俄称已控制红军城和沃尔昌斯克

国际在线 浏览 2141

女生晒春运"出国回家"攻略:连飞俄两地再坐船回黑龙江

上游新闻 浏览 21091

拟购半导体资产 英唐智控继续转型

北京商报 浏览 2460

经济观察报:深圳4-4卓尔涉5000万的假球,没赢是李铁不想输

懂球帝 浏览 2674

不止镜头、手柄,OPPO 推出“行业首款”哈苏专业磁吸闪补光环灯

IT之家 浏览 2647
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1