代理式人工智能正在改变工作方法：Doctolib 正在其开发人员中展开试验。

L’IA agentique change les méthodes de travail : Doctolib l’expérimente auprès de ses développeurs

Silicon.fr by Clément Bohic 2026-06-12 11:17 Original

摘要
Doctolib 在 2026 年 5 月进行了一项为期一周的 AI 代理实验，三名高级工程师通过同步协作、知识图谱和 Gemini/Claude 辅助，将原需六周的开发工作压缩至三周完成，最终 10 项任务上线。该实验将交付速度提升了一倍，但也暴露出自动化不足、成本较高以及知识图谱难以维护等挑战。Doctolib 计划下阶段扩展至一个月和双交付流，强化持续更新与代理集成。

Doctolib在2026年5月18日那一周完成了一项为期五天的“智能体式AI”实验，目标是用全新的同步协作模式替代传统的异步开发流程，三名资深参与者（高级工程师、Staff工程师、工程经理）全程在虚拟会议室中共享屏幕，共同完成从技术方案到生产部署的全过程。

实验前，Doctolib已将代码仓库、文档和Issue历史构建成一个知识图谱——每个业务域被转化为局部图谱，再融合为“图谱的图谱”。开发全程禁止人工记录会议笔记，团队只能依赖Gemini的实时转录，并在讨论时始终保持Claude会话与知识图谱联动。

第一天全部用于技术方案定型，规则是尽量减少会议。每个话题讨论30-45分钟，至少一人同时操作Claude，利用图谱和讨论摘要完成范围界定；必要时可邀请外部专家进行10分钟问答。一天之内，4个方案获得确认——而在传统异步流程中，通常需要每两周才能完成一个方案。

第二天转入任务拆解与规约编写。首先由人工花半小时将每个方案拆分为13个宏观任务，原则是避免微任务、最大化功能独立且不回避依赖。随后提炼出可复用的“技能”（知识或流程形式）。接下来采用人机混合方式撰写任务定义：人类和Claude各自起草，再行调和，效果最佳。通过Google Docs审阅后，定义被送至OpenSpec自动生成方案、设计文档、技术规范和实现任务清单，最终12个通过审核并合并，剩余一个需额外循环顺延至第三天。

第三、四天聚焦实现。每位开发者每项任务打开全新的Claude会话，关联知识图谱与相应技能后执行apply。监督方式因人而异——逐步操作或最终PR评审均可接受，Slack看板同步流水线进度。第四天结束时，12个实现在开发环境中通过验证。

第五天进行团队评审与staging部署。按依赖顺序逐项审查PR，任务负责人逐文件解释变更并现场演示，获批后Claude依据原始规范做最终核验。由于是周五，未上生产；次周一最终10项任务上线，其余3项未完全交付。

效率与偏差：选定的Backlog常规需6周完成，3名开发者1周的实际投入被折算为3周工作量，Doctolib宣称“加速比达2倍”。但实验有意剥离了外部依赖，且团队资历深厚，无需升级决策。正面发现包括：23个PR平均开启不到28小时，同步模式未形成评审瓶颈，且让一名长达9个月未接触代码库的成员快速重新掌握，学习节奏远超传统Sprint。

新涌现的挑战：整个流程“没有一件事是自动发生的”——从摘要到方案、任务到规格说明，每一步都依赖人工触发，团队大量时间耗费在重复相同编排提示词且上下文不变。成本方面，消耗171.9万tokens，账单1008美元，且未做模型瘦身（使用默认模型），定制图谱成本300美元且不可重用。规模化风险在于开发工作流可能被锁定在智能体基础设施上。团队同步也是难题：实验中决策权集中，PM随叫随到，但要在多条交付流并行使用相同资源时复刻该模式绝非易事。上下文切换造成的心理负担显著——7个主题同期推进，若仅聚焦1-2个重大主题，速度与人员感受都可能更佳。维护性问题同样暴露：一周结束时图谱已部分过时，技能因代码基线变化被迫中途重写，且缺乏共享规则文件和变更传播流程。

下一次迭代设想：Doctolib计划将实验窗口扩展至一个月，投入完整团队与两条并行交付流；将晨会改为日末总结，每个流每周聚焦两个重大主题，以减少上下文切换并提前发现交叉点；周计划从周二启动，以便周末前部署。在智能体体验层，将按仓库持续更新图谱，编码团队最佳实践形成技能，并借助沙箱远程智能体自动完成流水线过渡，同时引入模型选择机制。

Summary
Doctolib ran an experiment where three senior developers used AI agents (Gemini, Claude) and a GraphRAG knowledge graph to complete a 6-week backlog in just 3 person-weeks, ultimately deploying 10 of 13 tasks to production. The synchronous, AI-assisted workflow highlighted a 2x acceleration in delivery but also surfaced challenges like $1,008 in token costs, lack of pipeline automation, and knowledge graph obsolescence. The trial demonstrates how agentic AI can reshape software development methods, with Doctolib planning a month-long iteration to address scalability and maintenance issues.

Doctolib recently conducted a one-week experiment to see how agentic AI could reshape developer workflows – moving from asynchronous processes to a synchronous, AI-collaborative model. Three senior staff (a senior engineer, a staff engineer, and an engineering manager) worked together in a virtual room with screens shared continuously, aiming to clear a backlog originally estimated at six weeks of work. The result was a claimed 2× acceleration, with 10 of 13 planned tasks reaching production.

Preparation began with building a knowledge graph from code repositories, documentation, and issue backlogs. Each domain became a local graph, unified into a “graph of graphs.” The first day focused on technical scoping, deliberately limiting meetings. Manual note-taking was forbidden; instead, the team relied on Gemini transcriptions. During each 30–45 minute discussion, at least one person had an active Claude session with the knowledge graph open. Claude used the graph and conversation summaries to produce scope documents. Four scopes were validated by day’s end, compared to the usual cadence of one every two weeks in the classic async process.

On day two, each scope was manually broken into macro-tasks – a deliberate half-hour human step to retain subject mastery. Rules favoured functional isolation and avoided micro-tasks. Convergent patterns were codified as reusable skills (knowledge or workflows). The 13 resulting macro-tasks were defined using a hybrid approach: a human and Claude wrote definitions separately, then reconciled them. After approval in Google Docs, each definition was fed into OpenSpec, which generated a proposal, design document, technical specs, and implementation task list. By day’s end, 12 of 13 were merged (the last required extra cycles spilling into day three).

Days three and four were for implementation. Each task opened a fresh Claude session connected to the knowledge graph and relevant skills, then applied changes. Both step-by-step supervision and final PR review strategies worked, depending on personal style. A Slack canvas synchronized the pipeline. By day four, 12 implementations were validated in the development environment.

Day five brought peer review and staging deployment. PRs were examined one by one in dependency order; the owner explained changes file by file and gave a local demo. After team approval, Claude did a final check against the original specification. Production deployment waited until Monday, when 10 of 13 tasks went live – no Friday releases.

The experiment claimed a “2× acceleration factor”: three developers in one week delivered what normally takes three weeks. Doctolib acknowledged biases: external dependencies were pre-removed, and the seniority of the team meant decisions didn’t need escalation. Positively, reviews weren’t a bottleneck – 23 PRs stayed open an average of under 28 hours. Synchronous work also accelerated learning; one team member hadn’t touched the codebase in nine months and picked it up faster than in traditional sprints.

Yet the trial surfaced new challenges. “Nothing happened automatically,” the team noted; every transition from summary to scope to spec required a human trigger. The setup lacked integration and proactivity, leading to repetitive orchestrating prompts with the same context. Token consumption hit 1.719 million, costing $1,008, and the $300 knowledge graph isn’t reusable. Doctolib didn’t rightsize models, and there’s a broader risk of locking development workflows into agentic infrastructures.

Scalability remains open: maintaining team synchronization when multiple delivery streams compete for the same resources is difficult. Mental load from context switching was high (seven subjects covered); focusing on one or two major themes might improve both velocity and well-being. Maintenance was already an issue by week’s end – the knowledge graph was partly obsolete, and skills based on a prior codebase version had to be rewritten mid-experiment. No shared rules file or change propagation process existed.

For the next iteration, Doctolib plans a one-month window with a full team and two parallel delivery streams. Daily stand-ups would shift to end-of-day, and each stream would concentrate on two major themes per week to reduce context switching and detect overlaps earlier. Weeks would start on Tuesday to allow end-of-week deployments. On the agent side, per-repository graphs will be continuously updated, skills will encode team best practices, and pipeline transitions will be automated via a sandboxed remote agent with model selection integrated.

Résumé
Doctolib a expérimenté une collaboration synchrone entre trois développeurs et des agents IA (Claude, Gemini), s’appuyant sur un graphe de connaissances pour accélérer de 2x la réalisation d’un backlog, avec 10 tâches sur 13 déployées en production. L’entreprise a constaté un gain de vélocité significatif mais aussi des défis d’automatisation, de coûts (plus de 1300 $) et de maintenance, et prévoit un essai d’un mois pour industrialiser l’IA agentique dans ses flux de livraison.

Le plus difficile quand on travaille à l’échelle avec l’IA, c’est de concevoir des processus humains pour garder le contrôle sur ce qu’elle produit.

Doctolib conclut ainsi son compte rendu d’une expérience menée la semaine du 18 mai 2026. L’idée générale : plutôt que de calquer des agents sur les méthodes de travail des développeurs, adapter ces méthodes, sur un mode de collaboration synchrone. Trois personnes (senior engineer, staff engineer, engineering manager) y ont participé, réunies dans une salle virtuelle. Leurs écrans étaient partagés en continu.

GraphRAG et Gemini pour le cadrage technique

En amont de l’expérience, Doctolib avait construit un graphe de connaissances à partir de dépôts de code, de documentation et de backlogs d’issues. Chaque domaine avait été transformé en un graphe local, l’ensemble étant combiné en un graphe de graphes.

Le cadrage technique a occupé la première journée. L’objectif était d’organiser le moins de réunions possible. La prise de notes manuelle était interdite : on devait faire confiance aux retranscriptions de Gemini. Pendant chaque discussion (30 à 45 minutes par sujet selon la complexité), au moins une personne avait une session Claude active, avec le graphe de connaissances ouvert. Si besoin, on pouvait inviter une personne externe pour 10 minutes de Q&A. Claude utilisait le graphe et le résumé des discussions pour effectuer le scoping.

À la fin de la journée, 4 cadrages étaient validés. À comparer à la cadence d’un toutes les 2 semaines dans le processus asynchrone classique.

Une approche hybride pour l’écriture des définitions

Le deuxième jour, chaque cadrage a été divisé en macro-tâches. Un travail d’une demi-heure réalisé par l’humain – choix volontaire pour s’assurer de la maîtrise du sujet. Principales règles : éviter les micro-tâches, maximiser l’isolation fonctionnelle et ne pas rejeter les dépendances.

Une fois ce mapping effectué, les principaux patterns convergents ont été codifiés en skills réutilisables. Soit sous forme de connaissances, soit sous forme de workflows.

L’étape suivante a consisté à se répartir les 13 macro-tâches pour en rédiger les définitions. L’approche hybride (écriture par un humain et par Claude, puis réconciliation) a produit les résultats les plus intéressants.

Une fois validées (collaboration Google Docs), les définitions passaient à la moulinette OpenSpec. Il en résultait une proposition, un document de conception, des spécifications techniques et une liste de tâches d’implémentation. Autant d’artefacts à réviser puis à fusionner. À la fin de la journée, 12 sur 13 l’étaient effectivement (le dernier a exigé une boucle qui a débordé sur J3).

10 tâches sur 13 finalement passées en prod

Les troisième et quatrième jours furent dédiés à l’implémentation. Chacun ouvrait une nouvelle session Claude par tâche, associait le graphe de connaissances et les skills pertinentes, puis exécutait l’apply. Entre la supervision action par action et la revue finale du PR, les deux stratégies ont fonctionné, expliqué Doctolib. Le choix était une question de style personnel…

Un canevas Slack a permis de synchroniser le travail au long du pipeline. À la fin du quatrième jour, 12 implémentations sur 13 étaient validées dans l’environnement de développement.

Revue par les pairs et déploiement en staging étaient au menu du 5e jour. Sujet par sujet, dans l’ordre des dépendances, chaque PR a été examiné. L’owner expliquait les changements fichier par fichier et exécute une démo locale. Après approbation de l’équipe, Claude réalisait une dernière vérification à partir de la spécification originale.

Pas de déploiement en prod… car c’était vendredi. Le lundi suivant 10 des 13 tâches ont finalement passé ce cap.

3 semaines de travail au lieu de 6

Le backlog retenu équivalait à 6 semaines de travail. Doctolib revendique donc un « facteur d’accélération de 2x » (3 développeurs pendant 1 semaine = 3 semaines de travail). L’expérience n’a pas été exempte de biais, admet-il. Il avait, entre autres, écarté au préalable les dépendances externes. L’équipe disposait par ailleurs d’assez de séniorité pour prendre des décisions sans escalade.

Parmi les enseignements positifs, le fait que les revues n’ont pas constitué un goulet d’étranglement. Les 23 PR générés sont, en moyenne, restés ouverts un peu moins de 28 heures. Le travail synchrone a aidé. Il a aussi favorisé la maîtrise au sein de l’équipe – dont un membre n’avait plus touché à la codebase de l’entreprise depuis 9 mois. L’apprentissage, affirme Doctolib, s’est fait à une cadence que les sprints traditionnels ne permettent pas.

Automatisation, coût, maintenance… D’autres types de défis

L’expérience a effacé certains obstacles mais en a engendré d’autres. Par exemple, « rien ne s’est passé automatiquement », pour reprendre les mots de Doctolib. Chaque transition (du résumé au cadrage, de la tâche à la spec, etc.) dépendait d’une action humaine. Constat : « Notre setup manquait partout d’intégration et de proactivité. […] On a perdu un temps important à répéter les mêmes prompts d’orchestration avec le même contexte ».

Demeure aussi la question des coûts. L’expérience a consommé 1,719 millions de tokens, pour une facture de 1008 $. Doctolib reconnaît ne pas avoir pratiqué le rightsizing (il a utilisé les modèles par défaut). Son graphe de connaissances, qui lui a coûté 300 $, n’est pas réutilisable. Une réflexion apparaît d’autant plus prioritaire qu’il existe, à l’échelle, un risque de verrouillage des workflows de développement dans des infrastructures agentiques.

Le passage à l’échelle présente un autre défi : maintenir la synchronisation d’équipe. Ici, l’autorité décisionnelle était concentrée, le product manager était joignable et des collaborateurs externes pouvaient être invités. Répliquer cela sur de multiples flux de delivery exploitant simultanément les mêmes ressources est une autre paire de manches.

Doctolib évoque aussi la charge mentale liée au changement de contexte. L’expérience a couvert 7 sujets. Un backlog centré sur un ou deux thèmes majeurs aurait probablement accru la vélocité… et le bien-être.

La maintenance pose également problème. À la fin de la semaine, le graphe de connaissances était déjà partiellement obsolète. Dans le même esprit, les skills, fondées sur une version précédente de la codebase, ont dû être réécrites au milieu de l’expérience. Il n’y avait par ailleurs pas de fichier de règles partagé et pas de processus de propagation des changements.

Des pistes pour une prochaine expérience

Pour la prochaine itération, Doctolib envisage une fenêtre d’un mois, avec une équipe complète et deux flux de delivery parallèles. Il pense repositionner la réunion du matin en fin de journée et focaliser chaque flux sur deux thèmes majeurs par semaine. Autant pour limiter le changement de contexte que pour détecter les chevauchements plus en amont. La semaine commencerait le mardi, permettant le déploiement en fin de semaine plutôt que le lundi suivant.

Sur la partie agent experience, Doctolib prévoit un graphe par repo, mis à jour en continu. Il compte produire des skills encodant les bonnes pratiques de ses équipes. Et automatiser les transitions de pipeline à l’appui d’un agent distant en sandbox. Tout en intégrant une sélection des modèles.

Illustration générée par IA

The post L’IA agentique change les méthodes de travail : Doctolib l’expérimente auprès de ses développeurs appeared first on Silicon.fr.

AI Insight

中文 EN

Core Point

Doctolib’s experiment with agentic AI in a synchronous developer workflow yielded a claimed 2x productivity gain, demonstrating how reengineering human-AI collaboration can drastically reduce delivery times while surfacing significant integration, cost, and scaling challenges.

Key Players

Doctolib — Healthcare appointment booking platform, France.

Industry Impact

ICT: High — Agentic workflows could accelerate software delivery lifecycles, reshaping competitive dynamics in digital services.
Computing/AI: High — The experiment provides real-world validation of LLM-based agents in development, highlighting immediate tooling and orchestration gaps.

Tracking

Strongly track — Doctolib’s iterative approach and planned scaling could set benchmarks for enterprise AI-augmented development, influencing tooling, cost models, and best practices.

Related Companies

No companies linked yet

AI Processing

2026-06-12 14:02

deepseek / deepseek-v4-pro