关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者1384人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马斯切拉诺:我对穆勒的记忆并不美好;希望运气在我们这边

懂球帝 浏览 1991

拒绝对涉案做出反省 内塔尼亚胡请求特赦遭强烈抗议

环球网资讯 浏览 2153

阿里云计算如何让大语言模型吃得更聪明

科技行者 浏览 1508

知名女演员突发声明!剧方道歉:已开除涉事人员

乡野小珥 浏览 1411

乌克兰总统期待见特朗普谈“安全保障期限”

环球网资讯 浏览 1592

卢浮宫抢劫案两嫌疑人均30多岁 一人试图登机离境被抓

极目新闻 浏览 7555

红色不流行了?今年最火的穿搭居然是它

LinkFashion 浏览 1917

球迷态度:CBA第一阶段结束,你对你的主队表现满意吗?

懂球帝 浏览 1353

问界新M5 Ultra全新一轮OTA升级 ADS 4全面上车

网易汽车 浏览 3228

尼日利亚主帅:民主刚果在点球大战时使用巫师做法,胜之不武

懂球帝 浏览 2319

悦龙科技闯关北交所:研发人员大量流失,大客户秒变孙公司惹隐忧

叩叩财讯 浏览 2013

为了万亿美元薪酬!马斯克取消FSD买断制,但不适合中国国情?

电车通 浏览 1536

长安银行“踩油门”

北京商报 浏览 1520

撑起500亿票房,国产片几大关键词:高质量动画大片、多维度抗战作品、话题性艺术佳作

环球网资讯 浏览 1951

美联储年内“三连降”,2026年利率走向何方?

中新经纬 浏览 2046

被美围绕的一周:上课、逛家、看展

黎贝卡的异想世界 浏览 2688

国安部门破获一起直播泄露军事秘密案

上观新闻 浏览 3211

热刺欧战主场近22场17胜5平保持不败,其中12次零封净胜球+47

懂球帝 浏览 2413

媒体:日本挖到"稀土"想刺探中方反应 中方回一句单句

新民周刊 浏览 3752

乌国家科学院人口研究所:乌人口规模或将下降三成

红星新闻 浏览 1978

涨工资,落地!

国是直通车 浏览 2171
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1