爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

制裁重启伊...

U20世界杯...

美国11月密...

“男人的衣柜...

储朝晖：应对...

刘亦菲慷慨捐...

沈建光：从国庆长假看消费前景

AI大佬Karpathy焦虑了：作为程序员，我从未感到如此落后

今年春天的裙子，裙摆越大越好看！

新卡罗拉锐放/腾势N8L/星耀6 三天10款新车密集上市

五到十二：财务管理不善如何将狼队置于危险境地

汽车图谱⑳｜新能源车迎最强“金九” 新势力头部月销达4万量级

张雪峰还是不服？

迪马济奥：尤文已与前主帅图多尔解约

看完《逐玉》我承认我还是喜欢长剧

力鸿一号未来技术成熟后，可提供亚轨道太空旅游服务

大咖对话：从L2到L4，如何破解高阶智驾落地难题

利智和李连杰合影，一个合不拢嘴，一个一脸苦相

2-4遭海牛逆转，国安追平队史中超主场单场丢球纪录

萨顿力挺凯恩：英格兰从未有过几个比他更好的球员

转战舞池，前意大利网球名将弗格尼尼斩获《与星共舞》冠军

拥抱AI 沃尔玛跻身“万亿美元俱乐部”

小米YU7交付量突破4万台推出高端定制服务

骗取生育保险基金，主犯获刑十年！国家医保局曝光典型案例

南京爆冷无缘苏超决赛，苏州发布9个感叹号！网友：像是在放鞭炮

俄外交部：扎波罗热核电站归属俄罗斯不容置疑

威少：梦想打橄榄球的我从未想过能有如今成就，希望我能激励到其他人

地球出现特大地磁暴

机票“锁座”变相收费 10家航司被约谈

S家洗白失败！韩国综艺锤了小S忽视姐姐病情，推卸责任甩锅给大S