数据枯竭正成为AI发展的新瓶颈!CMU团队提出革命性方案SRT:让LLM实现无需人类标注的自我进化!SRT初期就能迭代提升数学与推理能力,甚至性能逼近传统强化学习的效果,揭示了其颠覆性潜力。
通往AGI最大的绊脚石,便是互联网数据不够用了! DeepSeek-R1、OpenAI的o系推理模型出世,不再单纯依赖人类标注「标准答案」,而是通过RL实现破局。 但问题来了——当前,LLM依然需要人类设计「正确信号」来指导训练。 如果问题复杂到人类都不知道答案,这些AI就只能抓瞎了。 为此,CMU联手独立研究员推出一套「自奖励训练」(SRT)的全新方法,堪称AI「自我修行」的秘籍!
论文地址:https://arxiv.org/pdf/2505.21444
|
|
点击朱笔,直抒胸臆