Arcep公布其关于大语言模型能源足迹的“实地数据”

L’Arcep expose ses « chiffres de terrain » sur l’empreinte énergétique des LLM

Silicon.fr by Clément Bohic 2026-06-16 08:47 Original
摘要
法国电信监管机构Arcep援引NVIDIA的研究指出,小型语言模型(SLM)比大模型更高效;其下属数字监管专业中心PEReN在Jean Zay超算上测试23个模型发现,8位量化可节电39%,混合专家架构(MoE)能耗比密集模型低45%,但推理模式平均多耗92%且图像分析使能耗翻倍,而能耗与回答质量无相关性。研究强调量化、硬件创新等可大幅降低生成式AI推理的能源足迹,为模型选型提供了实证参考。

法国电子通信与邮政监管局(Arcep)在一份关于生成式AI环境挑战的报告中,援引了法国数字监管专家中心(PEReN)的一项实地测量研究。该研究专注于大语言模型(LLM)在推理阶段的电力消耗,其背景之一是NVIDIA在2025年发表的一篇文献综述,该综述力挺参数低于100亿的小语言模型(SLM),称其“足够强大”“本质上更适配”且“必然更经济”。

PEReN的这项研究首先基于两篇科学论文(Handa et al., 2025;Cheng et al., 2025)及一项行业调查,梳理出公众使用生成式AI的五类典型场景:代码生成;创意与创新;日常通用与教育;专业决策与分析;文档生成、摘要与写作辅助。随后,该中心选取了与这五类场景匹配、且在科学文献中流行且便于通过英国AI安全研究所开发的Python库Inspect实施的六个基准测试:SimpleQA(事实类短问答)、ZeroBench(图像推理)、PIQA(物理常识推理)、HealthBench(健康问答)、HumanEval(代码生成)和WritingBench(写作能力,含创意写作与广告营销子类)。文档生成场景因Inspect中缺乏相应基准而未被测试。

实验在法国Jean Zay超算上进行,使用内置的CEEMS库测量能耗,每个任务调用1至4块NVIDIA H100 GPU(所在节点配备Xeon Gold 6248处理器),推理引擎采用vLLM。CEEMS仅测量节点层级功耗,未计入冷却和互联网络能耗,为一局限;研究亦仅限开源权重模型(以便在已知基础设施上运行),并排除了许可证“过于严苛”的模型(如DeepSeek系列)。所选模型均为生成式,尽管非生成式模型在某些任务上可能以更低功耗达到相当效果。CPU功耗虽可达总功耗三分之一,但因在相同实验迭代中波动较大未被单独计入,不过PEReN指出其大致与GPU功耗成正比。由于算力时间有限,绝大多数模型在每个基准上仅进行了一次功耗与质量测量;推理温度参数设为0(最大确定性)和0.7两档,其中用于裁判模型的Qwen3-Next-80B-A2B-Instruct温度固定为0.2。

模型筛选基于OpenLLM Leaderboard和LMArena,最终选出23款2025年6月至9月间发布的模型,参数规模从30亿到1230亿不等,涵盖密集模型、混合专家(MoE)模型、量化模型及专用模型。文本通用测试(除ZeroBench全部基准)使用了Llama-3.1-70B-Instruct、Qwen2.5系列、Gemma-3-27b-it、Ministral-8B-Instruct-2410、GLM-4.5-Air等;多模态测试(ZeroBench、SimpleQA、PIQA)加入了Pixtral-Large-Instruct、Mistral-Small-3.2-24B、Qwen2.5-VL等视觉语言模型;代码生成(HumanEval)另含Qwen3-Coder-30B-A3B与Codestral-22B;医疗问答(HealthBench)则纳入Llama3-Med42-70B。各模型均部署在正好能容纳其权重的数量最少的GPU上,并发请求通过Aspect库的max-connections参数控制在10、100和1000三个档位。

实验结果首先揭示,参数数量是影响功耗的首要因素,但其他特性也有显著作用。8比特量化可带来39±18%的功耗节省。架构层面,同等总参数下MoE模型比密集模型功耗低45±12%;若仅计激活参数,则密集模型更优。推理链(reasoning)的额外能耗极不均衡,平均比非推理模式高92%,但在SimpleQA上仅增41%,在HumanEval上却激增849%。综合这些因素,有时“大”模型的实际功耗甚至超过某些“小”模型。研究还发现,无论温度取何值,均未观察到系统性的性能差异,因此核心结果均基于温度0呈现。

专用模型表现显示,垂直化仅在任务与训练目标高度契合时才有价值。例如,文档自述为“智能体编码模型”的Qwen3-Coder-30B-A3B在并无智能体交互的HumanEval上性能反而不及通用模型;医学特化的Llama3-Med42-70B虽优于其基础版,但多数通才模型提供了更优的能效比。多模态模型在纯文本任务上功耗与同尺寸文本模型相当,但在涉及图像分析时功耗基本翻倍,Mistral与Gemma系列模型均印证了这一规律。推理模型因为生成更多token而总体功耗更高,虽在某些任务(如QwQ-32B在代码与创意写作)上大幅提升质量,但针对不同问题的能耗可能高出常规模型数倍。

PEReN未发现模型功耗与回答质量之间存在相关性,由此得出结论:限制环境足迹并不必然以性能损失为代价。研究还特别提及硬件创新的巨大潜力——尽管行业内因实施难度大而尚未普及,但相关技术“有望使功耗降低高达千分之一”。

Summary
The French telecom regulator Arcep, using field measurements from the PEReN digital expertise center, found that small language models (SLMs) like NVIDIA’s Nemotron-H often match larger models in performance-per-watt, with architecture (MoE cuts consumption 45%) and quantization (8-bit saves 39%) significantly reducing energy use, while reasoning tasks can hike usage by over 800%. The study, benchmarking 23 models from Meta, Mistral, Alibaba’s Qwen, and others, reveals no correlation between energy and output quality, reinforcing that moving to SLMs for agentic systems can slash environmental impact without compromising results.

French telecom regulator Arcep has released a report on the environmental challenges of generative AI, drawing heavily on a study by the Pôle d’expertise de la régulation numérique (PEReN). The research provides real-world measurements of the electricity consumption and performance of 23 large language models (LLMs) during inference, offering a granular view of the energy footprint across model sizes, architectures, and tasks.

The PEReN team first identified five usage typologies from scientific literature and a professional survey, cross-referencing them with questions from the model comparator Compar:IA: code; inventiveness and creativity; generic daily and educational use; decision-making and specialized professional analysis; and document production, summarisation, and writing assistance. The “document production” category was not tested due to a lack of suitable benchmarks in the Inspect evaluation library. For the remaining categories, six benchmarks were chosen: SimpleQA (factual questions), ZeroBench (visual reasoning), PIQA (physical reasoning), HealthBench (medical questions), HumanEval (code generation), and WritingBench (creative and marketing writing).

All experiments ran on the Jean Zay supercomputer using vLLM as the inference engine, on nodes equipped with 1 to 4 H100 GPUs and Xeon Gold 6248 CPUs. Consumption was measured at the node level via the CEEMS library — excluding CPU draw (which varied across iterations but was roughly proportional to GPU use) and the overheads of cooling or interconnects. Only open-weight models with permissive licences were tested; DeepSeek models were omitted due to restrictive terms. The team set the maximum number of parallel connections (max-connections) to 10, 100, and 1000, and reported results primarily for a temperature setting of 0 (deterministic output), as no systematic performance benefit was observed at other settings.

The 23 models, ranging from 3 to 123 billion parameters and published between June and September 2025, included dense and mixture-of-experts (MoE) architectures, quantised variants, multimodal models, reasoning-tuned models, and domain-specific models. Key findings include:

  • Quantisation impact: 8-bit quantisation reduced electricity consumption by 39 ± 18% on average compared to full-precision versions.
  • Architecture impact: At equal total parameter count, MoE models consumed 45 ± 12% less than dense models. However, when only activated parameters are considered, dense models were more efficient.
  • Reasoning overhead: Enabling reasoning (chain-of-thought) increased consumption by an average of 92%, but this varied dramatically — from +41% on SimpleQA to +849% on HumanEval — as it generates significantly more output tokens.
  • Multimodal penalty: Multimodal models showed similar consumption to text-only models on purely textual tasks, but processing images roughly doubled energy use.
  • Specialisation limits: Domain-specific models only delivered a clear efficiency advantage on tasks extremely close to their training data. For instance, the medical Llama-3-70B variant outperformed the base model on HealthBench, but many generalist models achieved a better performance-per-watt ratio.
  • No energy-performance correlation: The study found no link between electricity consumption and answer quality. Therefore, reducing energy use does not inherently mean sacrificing output quality.
  • Hardware potential: The report notes that underutilised hardware innovations could cut consumption by up to a factor of 1000.

The PEReN results underscore that model size alone does not dictate energy consumption. Quantisation, architecture choices, reasoning mode, and task type all play decisive roles. Combined with the absence of a fixed performance trade-off, the data supports a strategic pivot towards smaller, more efficient models — an approach Nvidia recently championed in a literature review advocating small language models (SLMs, under 10 billion parameters) as “sufficiently powerful” and “inherently better suited” for many uses. The findings give regulators and industry practitioners a quantitative basis for assessing the real-world environmental cost of deploying generative AI.

Résumé
Le PEReN a évalué la consommation électrique de 23 modèles d'IA générative sur le supercalculateur Jean Zay, montrant que la quantification 8 bits et l’architecture MoE réduisent sensiblement l’empreinte, tandis que les modèles de raisonnement la doublent en moyenne. L’Arcep s’appuie sur ces mesures pour souligner qu’il est possible de limiter l’impact énergétique sans compromettre la qualité des réponses, ce qui oriente les arbitrages technologiques entre modèles denses, experts et spécialisés.

Pour les systèmes agentiques, NVIDIA préfère les SLM aux LLM.

Nous nous en étions fait l’écho à l’été 2025. L’entreprise venait de publier, à partir d’une revue de la littérature scientifique, un article aux airs d’éloge. Elle y présentait les SLM (moins de 10 milliards de paramètres) comme « suffisamment puissants », « intrinsèquement mieux adaptés » et « nécessairement plus économiques ». Ses principales références étaient des évaluations sur les modèles Phi-2, Phi-3 Small, SmolLM2 et ses propres Nemotron-H.

L’Arcep fait mention de cet article dans un rapport sur les défis environnementaux de l’IA générative. Elle cite aussi, entre autres sources, une étude du PEReN (Pôle d’expertise de la régulation numérique).

Ce service créé en 2020 est placé sous l’autorité des ministres chargés de l’économie, de la culture et du numérique. Parmi ses missions figure l’évaluation d’outils. C’est le champ de l’étude en question. Elle a consisté à mesurer la consommation électrique de la génération de texte à l’inférence.

Inspect, CEEMS, Compar:IA : les outils d’expérimentation

Le PEReN a d’abord exploité deux publications scientifiques* et un sondage professionnel pour dégager des typologies d’usage de l’IA générative par le grand public. Il les a confrontées aux catégories de questions que posent les usagers du comparateur de modèles Compar:IA. En ont résulté 5 thématiques :

Code

Inventivité, créativité

Usage générique quotidien, éducatif

Prise de décision, analyse spécialisée, professionnel

Production de documents, résumé, aide à la rédaction

Le PEReN a ensuite sélectionné 6 jeux d’évaluation, pour leur adéquation avec ces thématiques, leur popularité dans la littérature scientifique… et leur facilité d’implémentation avec Inspect, bibliothèque Python qu’on doit à l’AI Safety Institute (Institut britannique pour la sécurité de l’IA).

Tâche visée

Nombre d’exemples

Méthode d’évaluation

SimpleQA

(verified)

Questions courtes portant sur des faits connus

1000

LLM-as-a-judge

ZeroBench

Capacités de raisonnement sur des images

434 (200 + 134)

Comparaison

PIQA

Raisonnement sur le monde physique

1838

Comparaison

HealthBench

Questions de santé

5000

LLM-as-a-judge

HumanEval

Génération de code

164

Comparaison

WritingBench

Capacité rédactionnelle

128 (sous-catégories Creative Writing et Advertising & Marketing)

LLM-as-a-judge

Le cas d’usage « production de documents » n’a pas été testé… par manque de benchmark de ce type dans Inspect.

Les expérimentations se sont déroulées sur le supercalculateur Jean Zay, à l’aide de la bibliothèque intégrée CEEMS. Chacune a mobilisé entre 1 et 4 GPU H100, sur des nœuds en Xeon Gold 6248. Le PEReN a choisi vLLM comme moteur d’inférence.

CEEMS mesure uniquement la consommation au niveau des nœuds. Il ne prend pas en compte le coût du refroidissement ou des interconnexions. Ce fut l’une des limites de l’expérience. La nécessité d’avoir des modèles à poids ouverts (pour réaliser les inférences sur une infra connue) en a été une autre. Le PEReN a aussi rejeté les modèles aux licences « trop contraignantes » (il évoque ceux de DeepSeek).

Conso CPU, parallélisme, déterminisme… Les partis pris du PEReN

Le périmètre s’est limité à des modèles génératifs, quand bien même des non génératifs auraient pu produire des résultats corrects sur certains usages, avec une consommation électrique inférieure.

Quoique représentant jusqu’à un tiers de la consommation totale, la consommation CPU n’a pas été prise en compte, car elle variait beaucoup entre itérations d’une même expérience. Elle est toutefois quasiment proportionnelle à la consommation GPU, note le PEReN.

Le temps de calcul étant limité, la « très grande majorité » des modèles n’ont eu droit qu’à une mesure de consommation et de qualité par benchmark. Pour le paramètre de température, le PEReN s’en est tenu à deux valeurs : 0 (déterminisme maximal) et 0,7. Il a fixé à 0,2 celle de Qwen3-Next-80B-A2B-Instruct lorsque utilisé comme LLM-as-a-judge (pour évaluer la performance sur certains benchmarks).

Les contraintes de temps de calcul ont conduit à ne sélectionner que les meilleurs modèles pour chaque distribution de propriétés (architecture, modalités, compression…). L’OpenLLM Leaderboard et LMArena ont été utilisés à cet effet. Au bout, une liste de 23 modèles, de 3 à 123 milliards de paramètres, publiés entre juin et septembre 2025.

Benchmark

Modèles denses

MoE

Quantisés

Autre spécificité

Tous hors ZeroBench

(modèles textuels communs)

Llama-3.1-70B-Instruct

Qwen2.5-32B-Instruct

Gemma-3-27b-it

Qwen2.5-7B-Instruct

Ministral-8B-Instruct-2410

GLM-4.5-Air

Qwen3-Next-80B-A3B-instruct

Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507-FP8

(raisonnement + quantisé)

QwQ-32B-AWQ

(distillé)

DeepSeek-R1-Distill-Qwen-32B(raisonnement)

Qwen3-30B-A3B-Thinking-2507, QwQ-32B

ZeroBench + SimpleQA + PIQA

(modèles multimodaux)

Pixtral-Large-Instruct-2411

Mistral-Small-3.2-24B-Instruct-2506

Qwen2.5-VL-7B-Instruct

GLM-4.5V

Qwen3-VL-30B-A3B-Instruct-2507

Qwen3-VL-30B-A3B-Instruct-2507-FP8

HumanEval

Mistral-Small-3.2-24B-Instruct-2506

(spécialisé)

Qwen3-Coder-30B-A3B-Instruct, Codestral-22B-v0.1

HealthBench

(spécialisé)

Llama3-Med42-70B

Chaque modèle a tourné sur le nombre minimum de GPU sur lesquels il pouvait loger en mémoire. Le paramètre max-connections de la bibliothèque Aspect, destiné à paralléliser les requêtes, a été réglé sur trois valeurs (10, 100 et 1000).

L’impact de l’architecture MoE, de la quantification et du raisonnement

Aucun benchmark ou modèle ne montre de cas où une température donnée engendrerait systématiquement une meilleure performance. Le PEReN a donc choisi de ne présenter les résultats que pour la valeur 0.

Premier constat : si le nombre de paramètres du modèle est le premier facteur explicatif de la consommation électrique, d’autres éléments ont un impact significatif. La quantification 8 bits, par exemple, entraîne un gain de 39±18 %. L’architecture joue aussi. À nombre de paramètres égal, les modèles MoE (mélange d’experts) consomment moins que les modèles denses (45±12 %). Si on s’en tient au nombre de paramètres activés, en revanche, les modèles denses ont l’avantage. Selon les modèles et les jeux de données, le raisonnement a un effet très variable. En moyenne, il accroît la consommation de 92 %. Cela va toutefois de + 41 % sur SimpleQA à + 849 % sur HumanEval.

Toutes ces caractéristiques prises en compte, il arrive que des « grands » modèles consomment plus que des « petits »…

Modèles « spécialisés » : savoir à quoi s’attendre

Le PEReN n’a testé que trois modèles spécialisés, sur deux domaines (programmation informatique et connaissances médicales). Il en conclut toutefois que la spécialisation ne vaut vraiment que sur des tâches très proches de celles sur lesquelles on a entraîné le LLM. Pas sur des tâches « relevant seulement d’un domaine similaire ». Il donne l’exemple de Qwen3-Code-30B-A3B. Sa documentation le présente comme un modèle de codage agentique. Sa performance est effectivement plus faible sur HumanEval, qui implique bien des tâches de code mais pas de dimension agentique. De même, la version « médicale » de Llama-3-70B réussit mieux que la version de base, mais de nombreux modèles généralistes fournissent un meilleur rapport performance/consommation.

Une consommation doublée par l’analyse d’images

Optimisé ou non en FP8, Qwen-30B-A3B illustre que sur les tâches évaluées, les modèles multimodaux ont une consommation similaire à celle des modèles textuels. Les modèles de Mistral, ainsi que Gemma, en témoignent globalement aussi. Leur consommation est en revanche systématiquement plus élevée sur des tâches impliquant de l’analyse d’images (de l’ordre du double par rapport à des tâches purement textuelles).

Les modèles dits de raisonnement consomment globalement plus que des modèles classiques de taille équivalente. C’est dû au fait qu’ils génèrent davantage de tokens. Certes cette propriété peut accroître nettement la performance (QwQ-32B sur le code et l’écriture créative, par exemple). Mais en fonction des questions, la surconsommation d’énergie peut être très élevée (plusieurs centaines de %).

Le PEReN ne repère pas de corrélation entre la consommation électrique et la qualité des réponses. Limiter l’empreinte n’implique donc pas toujours des compromis de performance, conclut-il. Et de faire remarquer le poids des innovations au niveau du hardware. Quoique peu diffusées dans l’industrie car difficiles à mettre en œuvre, elles peuvent permettre « une réduction de consommation allant jusqu’à un facteur 1000 ».

* Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations (Handa et al., 2025)

REALM: A Dataset of Real-World LLM Use Cases (Cheng et al., 2025)

Illustration © Adrian Gros – Shutterstock

The post L’Arcep expose ses « chiffres de terrain » sur l’empreinte énergétique des LLM appeared first on Silicon.fr.

AI Insight
Core Point

法国电信监管机构Arcep发布基于PEReN实测数据的报告,揭示大语言模型推理能耗受架构、量化、推理模式显著影响,且与性能无必然关联,为AI能效监管和优化提供实证依据。

Key Players
  • Arcep — 法国电子通信与邮政监管局,负责数字领域环境挑战研究。
  • PEReN — 法国经济、文化及数字事务部下属数字监管专业中心,承担AI工具能效评估。
  • NVIDIA — 芯片巨头,此前发文推崇SLM(小语言模型)更经济,报告引用其观点。
  • Jean Zay — 法国国家超算中心,用于模型推理能耗测量的H100 GPU集群。
Industry Impact
  • ICT: 高 — 直接影响数据中心运营成本和能效合规,推动运营商选择高效模型。
  • Computing/AI: 高 — 揭示量化、MoE架构的节能潜力,引导模型设计与选择偏向低碳方案。
  • Energy: 中 — 虽非直接能源产业,但大规模AI推理能耗攀升将加剧电网压力,引发政策关注。
Tracking

Strongly track — 报告首次以监管部门视角公布实测能耗数据,可能催化AI能效标准和环境标签立法,影响模型部署策略。

Related Companies

No companies linked yet

Categories
人工智能 云计算 能源
AI Processing
2026-06-16 14:11
deepseek / deepseek-v4-pro