爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

华硕灵耀14...

历时8小时，...

王天辰十年蛰...

节哀，诺丁汉...

台积电被特朗...

真正的独立女...

外媒发布本田全新一代2027款思域预想图，比以往更高级！

特朗普：已开始从委石油资源中赚钱

《水龙吟》《天地剑心》一弃一追

OpenAI：人类打字速度将成通用人工智能发展瓶颈

强脑科技：预计未来3-5年多款脑机接口产品获得医疗器械注册证

内塔尼亚胡：以色列将不得不做出＂痛苦且重大＂让步

比尔·盖茨被指感染性病并隐瞒前妻首次回应

“一身白”越来越流行，冬天这样穿太高级了！

中国留学生目击拦截导弹空中爆炸：不时传来哭声

邹市明两亿家产被败光，冉莹颖深夜哭诉？

50+女人秋冬穿衣避坑指南：衣不紧身、不花哨，这样穿更高级

追觅办演唱会当年会撒贝宁主持李克勤、张信哲等献唱

《双轨》空降逻辑混乱，赛车泰拳伪骨科叠加，虞书欣演技难撑人设

vivo S50外观揭晓！全新告白配色：田曦薇同款

私募代持“罗生门”：15万“友情投”被净值击穿

杨振宁在京逝世死因披露与妻子翁帆最后合影流出

全球股市遭遇“黑天鹅”，A股会跌出“黄金坑”吗？

2-1绝杀！亚洲杯神剧情：4分钟从出局到出线，中国队第一变为第二

13.18亿大单！国网信通公告：子公司重大经营合同中标

中佛罗里达大学破解仿真优化难题：让计算机在噪声中找到最优解

何美延玩游戏都会生气，连Anson都对她应激了

火箭惨败雷霆！3首发全铁+2替补狂铁，切特压制申京，乌度卡遭批

日本知名女星结婚：酷似高圆圆曾和林志玲老公交往

于和伟点评余皑磊的表现，只字不提演技二字，却真知灼见