K8凯发不更新参数就能强化学习！OpenAI翁家翌建议新范式：方案只需AI手搓一个.py 文献

发布日期：2026-05-11 08:15 来源：未知作者：admin 浏览次数：

闻乐发自凹非寺

量子位 | 公众号 QbitAI

莫得教训梯度的AI，冲突了Atari游戏满分记载。

OpenAI中枢揣摸员翁家翌建议了一个强化学习新范式——

启发式学习（Heuristic Learning， HL）。

全程无神经汇注教训、无梯度更新，全程靠GPT-5.4初始的Codex自主迭代，硬是在经典游戏Breakout上打到了864分表面满分。

与传统深度强化学习优化神经汇注参数不同，HL不依赖可微权重存储战术，而是将方案逻辑迁徙到翻脸门径空间，以代码裁剪替代梯度下落，通过显式的标记规则扫尾现象-看成映射。

在游戏、机器东说念主仿真多项任务里，该轮换性能以至越过老牌强化学习算法PPO。

以门径代码为载体

传统深度强化学习（DRL）耐久默许智能体的方案中枢必须依托神经汇注中束。

比如在游戏里，当不雅测到游戏小球位于左侧时，神经汇注通过复杂映射胜利输出「向左出动」的看成；

但整个这个词方案历程是隐式黑箱的，没东说念主能明晰拆解里面逻辑，只可依赖梯度下落算法盲目迭代拟合。

也正因这种底层架构，深度强化学习耐久难以升迁三大中枢瓶颈。

一是不幸性渐忘。神经汇注以参数存储习胜利段，新任务的梯度迭代会胜利遮掩旧有权重，无法扫尾多任务抓续学习。

二是方案黑箱、不可讲授。智能体每一次看成遴荐齐瞒哄在海量汇注权重与矩阵运算中，无法回顾方案依据，也弗成东说念主工侵扰、拆解逻辑。

三是样本效果低下。依赖海量环境交互数据完成教训迭代，管理周期长、算力消费遍及，合座研发与落地老本高。

HL的念念路很胜利，既然参数更新是问题的根源，那干脆不要参数。

它把智能体的方案战术从神经汇注的权重调度为可读的门径代码，把学习从梯度优化酿成代码裁剪。

在HL的框架里，2026世界杯赛事竞猜中国官网AI救援的不再是单一战术文献，而是一套好意思满的智能化软件系统：

显式的现象检测器（“球在左上方，速率向右”）、显式的规则逻辑（“如若球将落在左侧，则向左出动”）、还有测试用例、回来查抄、失败记录、版块历史。

每次迭代，Codex会注目系统推崇，阅读失败摄像，分析日记，然后作念出结构性调整。

这种范式的环节的上风是：常识是显式的。

旧智商不会被遮掩，而是封装成模块和测试，随时可调用、可考证、可传承。

就像翁家翌说的：

HL把抓续学习从“何如更新参数”酿成了”何如救援一个抓续汲取反映的软件系统”。

虽然，HL并不是全齐摈弃梯度工夫，它里面某些组件（如模子预计搁置MPC）仍然会用梯度作念局部搜索。

但环节在于这类梯度运算不必于神经汇注教训与参数更新，K8凯发官方网站仅劳动于及时看成方案。

况兼这种架构设想让HL原生自带可讲授、抗渐忘、高效果的特色。

Atari满分，机器东说念主搁置SOTA

不仅仅拿到Breakout的864分，翁家翌完成了好意思满的Atari 57大鸿沟测试（Atari 57是行业公认的强化学习基准测试集，包含57款不同类型的经典游戏，遮掩翻脸看成空间的万般方案场景）。

每款游戏诞生两种不雅测方式，各骄贵迭三轮实践，最终身成342条落寞的智能编码迭代轨迹。

赶走泄漏，在长入环境交互步数的前提下，启发式学习HL的合座中位推崇，如故和PPO等主流深度强化学习算法抓平。

在Breakout、Asterix、Jamesbond等多款经典游戏中，得益以至超越东说念主类玩家基准水平。

比较游戏翻脸方案，MuJoCo机器东说念主一语气搁置任务难度更高。

以四足机器东说念主Ant为例，需要协同调控8个要道，在高维一语气看成空间中督察动态均衡。

启发式学习HL从基础节拍步态规则起步，逐渐迭代加入姿态反映、触地信号感知、短程模子预计等逻辑，最终概述评分突破6000 分，性能全齐对标专科深度强化学习模子。

在HalfCheetah猎豹仿真任务中，HL更是跑出了11836的平均高分，展现出在复杂一语气搁置场景的极强适配智商。

不外翁家翌也莫得遁藏HL的范畴。

他直言：

在我现时明白范围内，我想不出有个agent能搓出一个纯Python code、不必神经汇注去处治 ImageNet。

从原始像素中完成缠绵识别、特征抽象，依旧是深度神经汇注不可替代的刚毅。

而启发式学习HL的中枢价值，联结体当今战术抓续迭代层面，当环境动态变化、需要耐久自适应调整行动逻辑时，显性化的代码规则系统更适配抓续学习需求。

是以，当下环节的命题在于何如把神经汇注与HL有契机通，一并攻克在线学习与抓续学习两浩劫题。

翁家翌指出最具落地出路的念念路是，依托HL及时处理在线环境数据流，快速千里淀可复用的在线行动警戒；

再将这些显性警戒整理、内化，调度为可教训、可回来、可筛选的高质料数据集，反过来对神经汇注作念周期性迭代更新。

参考诱骗：

[1]https://x.com/Trinkle23897/status/2052596837547495549

[2]https://trinkle23897.github.io/learning-beyond-gradients

一键三连「点赞」「转发」「贯注心」

接待在指摘区留住你的见解！

— 完 —

5月20日，咱们将在北京金茂万丽旅馆举办一年一度的中国AIGC产业峰会。

首波嘉宾威望已公布！昆仑万维方汉、智谱吴玮杰、EverMind邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund张璐、香港大学黄超、MarsWave冯雷齐来了，🔍了解服气

请你和咱们沿途，不再仅仅商量AI的改日，而是当今就用起来。👉 报名参会

一键温雅 👇 点亮星标

科技前沿进展逐日见K8凯发

开云官方app下载

上一篇：上一篇：K8凯发官方网站中超精彩对决：国安三度提升，云南强势追平，以3

下一篇：下一篇：K8凯发世体：弗洛伦蒂诺与切费林共同不雅看皇马U19夺冠，两东谈主歧视融洽

K8凯发中国官方网站

K8龙虎斗

K8凯发不更新参数就能强化学习！OpenAI翁家翌建议新范式：方案只需AI手搓一个.py 文献

K8龙虎斗

K8凯发 不更新参数就能强化学习！OpenAI翁家翌建议新范式：方案只需AI手搓一个.py 文献

K8凯发不更新参数就能强化学习！OpenAI翁家翌建议新范式：方案只需AI手搓一个.py 文献