KAIROS、ULTRAPLAN……Claude代码泄露事件揭示了什么

KAIROS, ULTRAPLAN… Ce que révèle le leak de Claude Code

Silicon.fr by Clément Bohic 2026-04-02 13:34 Original
摘要
Anthropic公司开发的AI编程助手Claude Code源代码因npm部署配置失误遭泄露,暴露了包括"隐身模式"、多智能体协作架构KAIROS、远程处理系统ULTRAPLAN等未公开功能。此次事件导致GitHub上出现大量衍生项目,尽管Anthropic已发起DMCA删除请求,但基于架构重写的开源版本仍在扩散。
Anthropic 代码助手 Claude Code 源代码遭泄露,揭示多项隐藏功能与内部架构

3月31日,Anthropic 发布了其代码助手 Claude Code 的新版本(2.1.88)。不到半小时后,安全研究人员在 npm 目录中发现了一个名为 `cli.js.map` 的源映射文件。该文件本用于调试,能关联编译代码与源代码。由于 Anthropic 在去年12月收购的 Bun 运行环境默认会在生产环境中生成源映射,而团队未在 `.npmignore` 文件中正确配置例外,导致该文件被公开。

Claude Code 负责人承认:“我们的部署流程包含一些手动步骤,其中一步未能正确执行。”

更严重的是,该映射文件指向了一个公开的 Cloudflare R2 存储桶中的压缩包,其中包含了完整的 Claude Code 源代码——总计超过50万行代码,涉及约2000个文件。泄露内容涵盖系统提示词、智能体编排逻辑、身份验证实现、工具管理、速率限制机制,以及数十个未公开的命令、标志和环境变量。

核心泄露内容与隐藏功能

1. “潜伏”模式

代码中暴露了一个约百行代码实现的“Undercover”模式,专供 Anthropic 员工使用。该模式会强制 Claude 在公开代码库贡献中自动隐藏所有内部信息,包括项目名称、内部工具名、Slack 频道、未发布模型版本号,甚至避免提及“Claude Code”本身或任何暗示 AI 参与贡献的表述。此模式无法手动关闭,只要系统无法确认处于私有仓库中便会自动激活。

2. 智能体协作架构 “Coordinator”

Claude Code 具备“Coordinator”模式,可将研究、实施和测试任务分配给多个子智能体。这些子智能体通过 XML 消息进行通信,并共享一个知识文件夹。

3. 记忆巩固机制 “KAIROS”

模仿人类睡眠时的大脑记忆巩固过程,该机制仅在距离上次巩固超过24小时且至少启动过5次 Claude Code 会话时触发。KAIROS 将其委托给一个子智能体执行,使 Claude Code 能像系统服务一样在后台持续监控项目,定期决定是否采取行动,并避免任何可能阻塞用户工作流超过15秒的操作。

4. 远程处理功能 “ULTRAPLAN”

对于复杂任务,Claude Code 可通过 ULTRAPLAN 功能将其发送至远程的 Opus 模型环境进行处理,处理时间最长可达30分钟。

5. 三层记忆架构

泄露的代码揭示了其精心设计的记忆系统:

* 顶层:一个永久存在于上下文窗口中的指针索引。

* 中层:按需检索的“主题文件”。

* 底层:完整的转录内容,但从不完全加载,仅支持类似 `grep` 的搜索操作。

其他内部细节与防护机制

* 用户挫折管理:并非通过高级情感分析算法,而是依赖正则表达式进行模式匹配。

* “极简”模式:可禁用自动记忆、推理和后台任务。

* 紧急开关:包括用于语音模式、或在 HIPAA 合规场景下禁用百万令牌扩展窗口的开关。

* 内部代号:揭示了“Chicago”(计算机使用组件)、“Capybara”(又名 Mythos,据信是定位高于 Opus 的模型)等内部项目名称。

* 反蒸馏保护:系统会在 API 请求中插入虚假的工具定义,以干扰其他模型的训练。

* 思维链保护:API 每次调用仅返回摘要,保护完整推理过程。

* 遥测数据:使用 OpenTelemetry、GrowthBook、Sentry 和 Statsig 四个通道,所有请求均使用硬编码的盐值进行标记。

事件后续与社区反应

Anthropic 迅速向 GitHub 提交了 DMCA 删除请求,最初针对主镜像仓库 `nirholas/claude-code` 及其所有分支,导致超过8000个仓库被禁用,其中包含一些误伤的开源项目分支。次日,Anthropic 修正了请求范围,聚焦于主镜像和约一百个分支。

值得注意的是,一个名为 `claw-code` 的仓库未被追责。该仓库在几小时内获得了超过10万星标,因其使用 Python 重新实现了 Claude Code 的架构,但未直接使用其源代码。此外,社区还出现了 Rust 语言实现版本、可替换 API 连接器以支持其他模型的“Open Claude”衍生版本,以及移除了遥测和安全限制并启用所有实验功能的分支版本。

此次泄露事件罕见地曝光了领先 AI 公司代码助手的内部设计哲学、未公开功能与防护策略,在开发者社区引发了广泛分析与讨论。

Summary
Anthropic accidentally leaked the source code for its Claude Code AI coding assistant via an exposed source map file in its npm package, revealing over 500,000 lines of code. The leak exposed hidden features like an "Undercover" mode for employees, a "Coordinator" agent system called KAIROS, and the ULTRAPLAN system for complex tasks. Despite DMCA takedowns, the leak sparked numerous open-source reimplementations, while revealing internal details about the tool's architecture and security measures.

Anthropic's Claude Code Source Leil Exposes Internal Features and Architecture

On March 31, 2026, a significant leak of the Claude Code CLI source code occurred shortly after Anthropic released version 2.1.88. A security researcher discovered a `cli.js.map` source map file in the npm registry, which was inadvertently published due to an oversight in the deployment process. Anthropic's director for Claude Code acknowledged the error, stating their deployment includes manual steps and one was not executed correctly.

The source map file pointed to a publicly accessible Cloudflare R2 bucket containing a ZIP archive of the full source code—over 500,000 lines across approximately 2,000 files. The leak revealed numerous undocumented commands, flags, environment variables, and core system components, including system prompts, agent orchestration logic, authentication implementation, and tool and rate limit management.

Key Internal Features and Modes Uncovered:

* "Undercover" Mode: A non-disablable feature, automatically activated when the system cannot confirm it is in a private repository. Designed for Anthropic employees, it instructs Claude to exclude internal references—such as project names, Slack channels, unpublished model version numbers, and even the term "Claude Code"—from public repository contributions to obscure AI involvement.

* "Coordinator" Mode & KAIROS: This architecture divides coding tasks (research, implementation, testing) among sub-agents that communicate via XML messages and access a shared knowledge folder. The "KAIROS" component implements a "dreaming" or memory consolidation feature, inspired by human sleep cycles. It activates only after 24 hours and at least 5 Claude Code sessions since the last consolidation. In this mode, Claude Code runs as a background system service, continuously monitoring the project and avoiding any action that would block a user's workflow for more than 15 seconds.

* ULTRAPLAN: A feature that offloads complex tasks to a remote Opus environment for processing, with jobs capable of lasting up to 30 minutes.

* Structured Memory Architecture: The system uses a three-layer memory design: a perpetually present index of pointers in the context window; on-demand "topic files"; and transcriptions that are never fully loaded, only searched via "grep."

* Internal Code Names: The source code references internal project names like "Chicago" for the Computer Use component and "Capybara," which appears to be an alias for "Mythos"—a model suspected to be positioned above Opus, which was itself leaked the previous week.

* User Experience & Safety Controls: Includes a "minimalist" mode to disable automatic memory, reasoning, and background tasks. Kill switches exist for features like voice mode and the 1-million-token extended context window (e.g., for HIPAA compliance). User frustration is managed via regex pattern matching rather than advanced sentiment analysis.

* Protections and Telemetry: The code reveals anti-distillation techniques, such as seeding API requests with fake tool definitions to compromise the training of other models, and a mechanism that returns only thought chain summaries via the API. Telemetry uses four channels: OpenTelemetry, GrowthBook, Sentry, and Statsig, with all requests tagged using a hard-coded salt.

Aftermath and Community Forks:

Anthropic swiftly filed a DMCA takedown request with GitHub, initially targeting the main leaked code mirror (`nirholas/claude-code`) and all its forks, resulting in over 8,000 disabled repositories—including collateral damage to forks of unrelated open-source projects. The company refined its request the next day, focusing on the main mirror and about 100 forks.

Notably, the DMCA action did not target projects like `claw-code`, which rapidly gained over 100,000 stars by reimplementing Claude Code's architecture in Python without using the actual source code. Other derivatives include a Rust implementation, `Open Claude` (which replaces API bindings with an adapter for other models), and forks that strip out telemetry and safety guards while enabling all experimental features.

Résumé
Le code source de Claude Code, l'outil de développement d'Anthropic, a fuité via un fichier source map publié par erreur sur npm, révélant des centaines de milliers de lignes de code. Cette fuite expose des fonctionnalités internes comme un mode "clandestin" pour les contributions publiques, une architecture mémoire sophistiquée et des mécanismes comme KAIROS pour la consolidation en arrière-plan. Anthropic a déposé une requête DMCA pour retirer les copies du code, mais des réimplémentations open source alternatives ont déjà émergé.

Rêveur, clandestin, psychologue à base de regex… Claude Code est un peu tout cela. La preuve avec… le code source de son CLI, qui a fuité.

Mardi 31 mars, Anthropic a publié une nouvelle version de l’outil (2.1.88). Moins d’une demi-heure plus tard, un chercheur en sécurité a détecté, dans l’arborescence npm, un fichier cli.js.map.

Ce fichier est un source map. Il fait le pont entre le code source et le code compilé pour faciliter le débogage.

Pour Claude Code, Anthropic a choisi le runtime Bun, dont il a fait l’acquisition en décembre dernier. Cet environnement crée automatiquement des source maps, y compris en production. Il faut donc penser à créer une exception, par exemple au niveau du fichier .npmignore. Dans le cas présent, cela n’a pas été fait.

« Notre processus de déploiement comprend quelques étapes manuelles, dont une qui ne s’est pas faite correctement », a reconnu le directeur de Claude Code.

Au-delà des éléments qu’il exposait, le fichier pointait vers un zip dans un bucket Cloudflare R2 en accès public… et qui contenait le code source. Au total, plus d’un demi-million de lignes sur quelque 2000 fichiers. Au menu, prompts système, logique d’orchestration des agents, implémentation de l’authentification, gestion des outils et des limites de débit, etc. Ainsi que des dizaines de commandes, de drapeaux et de variables d’environnement non documentés.

Claude code source code has been leaked via a map file in their npm registry!

Code: https://t.co/jBiMoOzt8G pic.twitter.com/rYo5hbvEj8

— Chaofan Shou (@Fried_rice) March 31, 2026

Un mode « clandestin » pour les contributions publiques

Parmi les fonctionnalités cachées tient, en une centaine de lignes, un mode « Undercover ».

Réservé aux employés d’Anthropic, ce mode « clandestin » impose à Claude de ne jamais inclure certains éléments internes dans ses contributions sur des dépôts publics. Entre autres, noms de projets, d’outils et de canaux Slack, ainsi que numéros de version de modèles non publiés. L’expression « Claude Code » est également bannie… tout comme, plus globalement, toute mention qui pourrait laisser penser qu’une IA a contribué.

Le mode Undercover apparaît non désactivable. Il s’enclenche automatiquement dès lors que le système ne peut pas confirmer qu’il est dans un dépôt privé.

KAIROS ou le démon Claude Code

Claude Code a aussi un mode « Coordinator ». Il divise le travail de recherche, d’implémentation et de test entre des sous-agents qui communiquent par messages XML et ont accès à un dossier de connaissances partagé.

Le côté « rêveur » consiste, sur le modèle du cerveau humain lors des phases de sommeil, en une consolidation de la mémoire. Il ne s’enclenche que si, depuis la consolidation précédente, au moins 24 heures se sont écoulées et au moins 5 sessions Claude Code ont été lancées.

KAIROS met ce mécanisme en œuvre en le déléguant à un sous-agent. Dans ce mode, Claude Code s’exécute en arrière-plan, tel un service système, pour surveiller le projet en continu. Régulièrement, il décide d’agir ou non, en s’abstenant de toute action qui bloquerait un workflow utilisateur plus de 15 secondes.

Autre fonctionnalité que révèle le code source : ULTRAPLAN. Avec elle, Claude Code envoie les tâches complexes à un environnement Opus distant, pour un traitement pouvant durer jusqu’à 30 minutes.

La mémoire de Claude Code s’architecture en trois couches. La seule perpétuellement présente dans la fenêtre de contexte est un index de pointeurs. Les transcriptions ne sont jamais chargées complètement (on n’y fait que du « grep »). Entre les deux, il y a des topic files, récupérés à la demande.

Based on everything explored in the source code, here’s the full technical recipe behind Claude Code’s memory architecture:

[shared by claude code]

Claude Code’s memory system is actually insanely well-designed. It isn’t like “store everything” but constrained, structured and… pic.twitter.com/PlGRvuvkts

— himanshu (@himanshustwts) March 31, 2026

Chicago, Capybara… Des noms de code en pagaille

Pour gérer la frustration des utilisateurs, pas d’algorithmes avancés d’analyse de sentiment : juste du pattern matching, à l’appui de regex.

Dans le même esprit, Claude Code dispose d’un mode « minimaliste » permettant de désactiver notamment la mémoire automatique, le raisonnement et les tâches en arrière-plan. Il a aussi des kill switchs. Par exemple pour le mode vocal. Ou pour désactiver la fenêtre étendue (1 million de tokens) dans un contexte de conformité HIPAA.

Le code source révèle quelques noms internes. Parmi eux, « Chicago », attribué à la brique Computer Use. Ou Capybara. Alias Mythos, semble-t-il. C’est en tout cas sous ce nom que ce modèle vraisemblablement positionné au-dessus d’Opus avait fuité la semaine dernière. Une erreur sur le site web donnait accès à des milliers de fichiers non publiés, dont un billet de blog sur Mythos/Capybara.

L’analyse du code source révèle aussi diverses protections. Dont un contre la distillation. Le système intègre de fausses définitions d’outils dans les requêtes API pour compromettre l’entraînement d’autres modèles. Anthropic a aussi intégré un mécanisme qui protège la chaîne de pensée (l’API ne retourne, à chaque appel, que des résumés).

Sur le volet télémétrie, Claude Code exploite 4 canaux : OpenTelemetry, GrowthBook, Sentry et Statsig. Il tatoue toutes les requêtes avec un sel codé en dur.

La mécanique des forks enclenchée malgré les requêtes DMCA

Anthropic n’a pas tardé à déposer une requête DMCA auprès de GitHub. Elle visait le miroir principal du code leaké (nirholas/claude-code) et tous ses forks. Résultat : plus de 8000 dépôts désactivés… dont des victimes collatérales qui avaient forké des éléments du projet open source.

Anthropic a corrigé le tir le lendemain, recentrant sa demande sur le miroir principal et sur une centaine de forks. Il n’a pas ciblé claw-code, qui a pourtant accumulé plus de 100 000 étoiles en quelques heures. Et pour cause : le projet réimplémente l’architecture de Claude Code (en Python) sans en reprendre le code source. Il en existe également une implémentation en Rust.

Dans un autre genre, il y a le dérivé Open Claude qui remplace les liaisons API par un adapteur gérant d’autres modèles. Ou ce fork qui enlève la télémétrie et les garde-fous tout en activant l’ensemble des fonctionnalités expérimentales.

Illustration générée par IA

The post KAIROS, ULTRAPLAN… Ce que révèle le leak de Claude Code appeared first on Silicon.fr.

AI Insight
Core Point

Anthropic accidentally leaked Claude Code's source code via an npm source map, exposing internal features like "Undercover" mode and advanced agent architectures.

Key Players

Anthropic — AI company, developer of Claude models and Claude Code, based in the US.

Bun — JavaScript runtime, acquired by Anthropic, based globally.

Industry Impact
  • Computing/AI: High — Reveals proprietary AI agent design and security practices of a leading model company.
Tracking

Monitor — The leak exposes competitive AI implementation details but is a contained security incident.

Related Companies
negative
Anthropic
startup
negative
neutral
GitHub
mature
neutral
negative
negative
negative
neutral
neutral
neutral
neutral
neutral
negative
negative
negative
Categories
人工智能 软件 网络安全
AI Processing
2026-04-02 15:17
deepseek / deepseek-chat