K8凯发 不更新参数就能强化学习!OpenAI翁家翌建议新范式:方案只需AI手搓一个.py 文献

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
莫得教训梯度的AI,冲突了Atari游戏满分记载。
OpenAI中枢揣摸员翁家翌建议了一个强化学习新范式——
启发式学习(Heuristic Learning, HL)。

全程无神经汇注教训、无梯度更新,全程靠GPT-5.4初始的Codex自主迭代,硬是在经典游戏Breakout上打到了864分表面满分。

与传统深度强化学习优化神经汇注参数不同,HL不依赖可微权重存储战术,而是将方案逻辑迁徙到翻脸门径空间,以代码裁剪替代梯度下落,通过显式的标记规则扫尾现象-看成映射。
在游戏、机器东说念主仿真多项任务里,该轮换性能以至越过老牌强化学习算法PPO。
以门径代码为载体
传统深度强化学习(DRL)耐久默许智能体的方案中枢必须依托神经汇注中束。
比如在游戏里,当不雅测到游戏小球位于左侧时,神经汇注通过复杂映射胜利输出「向左出动」的看成;
但整个这个词方案历程是隐式黑箱的,没东说念主能明晰拆解里面逻辑,只可依赖梯度下落算法盲目迭代拟合。
也正因这种底层架构,深度强化学习耐久难以升迁三大中枢瓶颈。
一是不幸性渐忘。神经汇注以参数存储习胜利段,新任务的梯度迭代会胜利遮掩旧有权重,无法扫尾多任务抓续学习。
二是方案黑箱、不可讲授。智能体每一次看成遴荐齐瞒哄在海量汇注权重与矩阵运算中,无法回顾方案依据,也弗成东说念主工侵扰、拆解逻辑。
三是样本效果低下。依赖海量环境交互数据完成教训迭代,管理周期长、算力消费遍及,合座研发与落地老本高。
HL的念念路很胜利,既然参数更新是问题的根源,那干脆不要参数。
它把智能体的方案战术从神经汇注的权重调度为可读的门径代码,把学习从梯度优化酿成代码裁剪。
在HL的框架里,2026世界杯赛事竞猜中国官网AI救援的不再是单一战术文献,而是一套好意思满的智能化软件系统:
显式的现象检测器(“球在左上方,速率向右”)、显式的规则逻辑(“如若球将落在左侧,则向左出动”)、还有测试用例、回来查抄、失败记录、版块历史。
每次迭代,Codex会注目系统推崇,阅读失败摄像,分析日记,然后作念出结构性调整。

这种范式的环节的上风是:常识是显式的。
旧智商不会被遮掩,而是封装成模块和测试,随时可调用、可考证、可传承。
就像翁家翌说的:
HL把抓续学习从“何如更新参数”酿成了”何如救援一个抓续汲取反映的软件系统”。
虽然,HL并不是全齐摈弃梯度工夫,它里面某些组件(如模子预计搁置MPC)仍然会用梯度作念局部搜索。
但环节在于这类梯度运算不必于神经汇注教训与参数更新,K8凯发官方网站仅劳动于及时看成方案。

况兼这种架构设想让HL原生自带可讲授、抗渐忘、高效果的特色。
Atari满分,机器东说念主搁置SOTA
不仅仅拿到Breakout的864分,翁家翌完成了好意思满的Atari 57大鸿沟测试(Atari 57是行业公认的强化学习基准测试集,包含57款不同类型的经典游戏,遮掩翻脸看成空间的万般方案场景)。
每款游戏诞生两种不雅测方式,各骄贵迭三轮实践,最终身成342条落寞的智能编码迭代轨迹。
赶走泄漏,在长入环境交互步数的前提下,启发式学习HL的合座中位推崇,如故和PPO等主流深度强化学习算法抓平。
在Breakout、Asterix、Jamesbond等多款经典游戏中,得益以至超越东说念主类玩家基准水平。
比较游戏翻脸方案,MuJoCo机器东说念主一语气搁置任务难度更高。
以四足机器东说念主Ant为例,需要协同调控8个要道,在高维一语气看成空间中督察动态均衡。
启发式学习HL从基础节拍步态规则起步,逐渐迭代加入姿态反映、触地信号感知、短程模子预计等逻辑,最终概述评分突破6000 分,性能全齐对标专科深度强化学习模子。

在HalfCheetah猎豹仿真任务中,HL更是跑出了11836的平均高分,展现出在复杂一语气搁置场景的极强适配智商。

不外翁家翌也莫得遁藏HL的范畴。
他直言:
在我现时明白范围内,我想不出有个agent能搓出一个纯Python code、不必神经汇注去处治 ImageNet。
从原始像素中完成缠绵识别、特征抽象,依旧是深度神经汇注不可替代的刚毅。
而启发式学习HL的中枢价值,联结体当今战术抓续迭代层面,当环境动态变化、需要耐久自适应调整行动逻辑时,显性化的代码规则系统更适配抓续学习需求。
是以,当下环节的命题在于何如把神经汇注与HL有契机通,一并攻克在线学习与抓续学习两浩劫题。
翁家翌指出最具落地出路的念念路是,依托HL及时处理在线环境数据流,快速千里淀可复用的在线行动警戒;
再将这些显性警戒整理、内化,调度为可教训、可回来、可筛选的高质料数据集,反过来对神经汇注作念周期性迭代更新。
参考诱骗:
[1]https://x.com/Trinkle23897/status/2052596837547495549
[2]https://trinkle23897.github.io/learning-beyond-gradients
一键三连「点赞」「转发」「贯注心」
接待在指摘区留住你的见解!
— 完 —
5月20日,咱们将在北京金茂万丽旅馆举办一年一度的中国AIGC产业峰会。
首波嘉宾威望已公布!昆仑万维方汉、智谱吴玮杰、EverMind邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund张璐、香港大学黄超、MarsWave冯雷齐来了,🔍了解服气
请你和咱们沿途,不再仅仅商量AI的改日,而是当今就用起来。👉 报名参会

一键温雅 👇 点亮星标
科技前沿进展逐日见K8凯发
开云官方app下载