持续学习并非持续中期训练

2026年1月7日

许多人已经意识到一个事实：纯粹通过扩大语言模型规模来实现通用人工智能很可能不会成功。许多人已将持续学习视为语言模型与通用智能体之间的关键区别。如果你曾使用过Claude Code，你会深刻体会到上下文长度如何严重限制了语言模型的通用效用，要是我们能拥有某种不会耗尽上下文的东西，我们或许就都能彻底失业了。

一个诱人（且合理）的解决尝试是持续中期训练。例如，Anthropic可以收集成功的Claude Code执行轨迹，并将其反馈到下一个模型的监督微调阶段，然后按月发布新模型。这或许能让它们成为非常强大的编程助手，但无法赋予其完全自动化工作的能力。为何？因为这套流程仅仅是在持续改进语言模型的世界模型，这与其世界状态是截然不同的。它的世界状态仅存在于其位置嵌入的KV缓存之中。

人类同时拥有不断演进的世界模型和世界状态。我们高效地将经验压缩，在一生中持续改进我们的基础世界模型，同时仍能按重要性加权、依序检索不同精度的记忆。

这个将经验压缩到无限时间跨度上的世界模型（或用强化学习术语来说，价值函数）的问题，才是真正需要解决的。持续中期训练不过是一块创可贴。

✦ 本文的构思、研究、撰写和编辑均未使用大语言模型。