关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012418人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

房产中介兼职送外卖:除了干中介 自己什么都不会

经济观察报 浏览 8421

两部门:不得变相强制网络交易平台内经营者承担退款不退货等售后责任

YOUNG财经 浏览 1628

今年冬天流行的“露袜”穿法,时髦又减龄!

LinkFashion 浏览 1898

能否延续?热刺连续11个赛季晋级足总杯第四轮

懂球帝 浏览 1637

梅婷首公开女儿闺房,这才是真正的富养

草莓解说体育 浏览 628

比亚迪明星高管赵长江确认离职,已在比亚迪工作16年

红星资本局 浏览 2558

费迪南德:穆帅处理维尼修斯事件确有不当,但他绝非种族主义者

懂球帝 浏览 851

求求你,别再用电动车“挡风被”了!

大象新闻 浏览 2140

L4级自动驾驶到来之际,奔驰还要继续领先

汽车公社 浏览 1891

郭晶晶也没想到 霍启刚香港火灾后 实现口碑暴增

桑葚爱动画 浏览 2139

奥沙利文:75三杰各自欣赏会相互问候,希望年轻人能超越我们

懂球帝 浏览 2781

曼联连续5场英超不败,为阿莫林治下最长不败纪录

懂球帝 浏览 2467

常冰玉晋级苏格兰公开赛八强

体坛周报 浏览 1952

票房从57.7亿跌到1.28亿,我感慨:这块金字招牌算是砸了

靠谱电影君 浏览 2160

伊姐周六热推:电视剧《余生有涯》;电视剧《猎豹》......

伊周潮流 浏览 2810

41岁张靓颖的现状,给所有中年女性提了个醒

科学发掘 浏览 2156

陈道明被王家卫说他是阴阳同体的极品

包饺子ai剪辑 浏览 2459

北京外援动态!马帝昂或已打完最后一场,正与麦基谈判,状态拉满

篮球资讯达人 浏览 1677

立起来的高铁:“海上巨人”启航风电新征程

人民网 浏览 2337

普通人秋天应该怎么穿衣?颜色选对、衣服穿对,简单又大方

静儿时尚达人 浏览 2379

汪小菲罕见亲晒儿子正脸照,眉眼像极了大S,凸牙问题还没改善

萌神木木 浏览 2734
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1