关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2536人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

机器人,又杀出了第一股

投资家 浏览 2072

口碑王|| 从2020穿到现在,越穿越爱的这件单品回来了

黎贝卡的异想世界 浏览 736

iPhone Air国行版要来了!联通eSIM预约通道正式开放

三言科技 浏览 2398

他靠演反派爆火却对同事女儿一见钟情

张发林 浏览 3391

学生想从公交前门下遭拒 轻声骂了句被司机追下车打伤

大风新闻 浏览 4970

AI成核心方向 银行启动博士后招聘

北京商报 浏览 2213

靠老婆出圈,成名后过河拆桥,这4位实在绝情!

丹妮观 浏览 2766

台湾教授苑举正痛心疾首:赖清德称"终战"是愚不可及

大象新闻 浏览 8031

不造车,京东谋何局?

盖世汽车 浏览 2551

三次联排后,央视春晚越看越悬:分会场像宣传片主会场全是老套路

肆季娱乐 浏览 1328

委内瑞拉外长:伊朗提出"全方位"合作 共同应对美威胁

界面新闻 浏览 1897

复旦大学:人工智能在太空中的大考验——能否胜任星际调度师?

科技行者 浏览 1379

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者 浏览 2479

纪录片《重返狼群》一夜间翻红 "狼王"格林目前无下落

新民周刊 浏览 18768

跨时代的武侠视觉巨制,今晚迎来告别放映!

幕味儿 浏览 1961

中恒电气:两款旗舰产品发布,重新定义AI数据中心供电技术标准

览富财经网 浏览 2483

外套里面穿什么?这4款内搭时髦又显瘦!

Yuki女人故事 浏览 4012

年味拉满,好笑戳心,春节档还得看他们!

吐槽电影院 浏览 911

媒体:特朗普会晤前后与普京通话 不知乌总统是否满意

新民晚报 浏览 23010

首负日本!巴西遭36年之耻 安帅气炸直接离场+判头号罪人“死刑”

风过乡 浏览 2793

顶流男星陷“禁演”罗生门?

仙女事件簿 浏览 708
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1