持续学习并非持续中期训练

许多人已经意识到一个事实:纯粹通过扩大语言模型规模来实现通用人工智能很可能不会成功。许多人已将持续学习视为语言模型与通用智能体之间的关键区别。如果你曾使用过Claude Code,你会深刻体会到上下文长度如何严重限制了语言模型的通用效用,要是我们能拥有某种不会耗尽上下文的东西,我们或许就都能彻底失业了。

一个诱人(且合理)的解决尝试是持续中期训练。例如,Anthropic可以收集成功的Claude Code执行轨迹,并将其反馈到下一个模型的监督微调阶段,然后按月发布新模型。这或许能让它们成为非常强大的编程助手,但无法赋予其完全自动化工作的能力。为何?因为这套流程仅仅是在持续改进语言模型的世界模型,这与其世界状态是截然不同的。它的世界状态仅存在于其位置嵌入的KV缓存之中。

人类同时拥有不断演进的世界模型世界状态。我们高效地将经验压缩,在一生中持续改进我们的基础世界模型,同时仍能按重要性加权、依序检索不同精度的记忆。

这个将经验压缩到无限时间跨度上的世界模型(或用强化学习术语来说,价值函数)的问题,才是真正需要解决的。持续中期训练不过是一块创可贴。

✦ 本文的构思、研究、撰写和编辑均未使用大语言模型。