Beaucoup ont compris que l’AGI par simple augmentation d’échelle des LLM n’arrivera probablement pas. Et beaucoup ont identifié l’apprentissage continu comme la différence clé entre les LLM et un agent généralement intelligent. Si vous avez déjà utilisé Claude Code, vous êtes douloureusement conscient de la façon dont la limite de contexte limite l’utilité générale des LLM, et si seulement nous avions quelque chose qui ne manquerait pas de contexte, nous pourrions enfin tous être au chômage.
Une tentative tentante (et sensée) pour résoudre ceci est le pré-entraînement continu. Par exemple, ce serait Anthropic collectant les traces réussies de Claude Code et les réintégrant dans l’étape SFT pour son prochain modèle, qu’il publierait mensuellement. Cela pourrait en faire des agents de codage très puissants, mais ne leur donnera pas la capacité d’automatiser complètement les emplois. Pourquoi ? Parce que cette procédure ne fait qu’améliorer continuellement le modèle du monde du LLM, qui est distinct de son état du monde. Son état du monde n’existe que dans son cache KV intégré en position.
Les humains ont à la fois un modèle du monde et un état du monde en évolution perpétuelle. Nous compressons efficacement nos expériences pour améliorer notre modèle du monde de base tout au long de notre vie, tout en pouvant récupérer nos souvenirs dans l’ordre, avec une résolution pondérée par leur importance.
Ce problème de compression de l’expérience en un modèle du monde (ou une fonction de Valeur dans le langage de l’Apprentissage par Renforcement) sur un horizon infini est ce qui doit être résolu. Le pré-entraînement continu n’est qu’un pansement.