Kubernetes：CPU利用率8%，GPU利用率5%……云资源浪费逐年加剧

Kubernetes : CPU à 8%, GPU à 5%… le gaspillage cloud s’aggrave d’année en année

Silicon.fr by Philippe Leroy 2026-04-23 15:42 Original

摘要
CAST AI发布的2026年Kubernetes优化报告显示，Kubernetes集群的CPU和内存利用率持续下降，分别降至8%和20%，而GPU利用率仅为5%。过度配置问题加剧，CPU和内存过度配置率分别达到69%和79%，导致企业为未使用的资源支付高昂费用。报告强调，自动化优化是解决这一结构性浪费的关键，例如通过GPU共享和区域选择可节省高达70%的成本。

CAST AI 发布第三年度《Kubernetes 优化报告》，基于对 AWS、GCP 和 Azure 上数万个生产集群的直接测量数据（优化前），揭示云资源浪费持续恶化。2026 年报告新增 GPU 使用率指标。

核心数据：CPU 使用率降至 8%，内存降至 20%

报告显示，Kubernetes 集群的 CPU 平均使用率从去年的 10% 进一步下滑至 8%，内存使用率从 23% 降至 20%。与预期中技术成熟后效率提升相反，资源利用率不升反降。根本原因在于过度预配（overprovisioning）：CPU 过度预配率从 40% 飙升至 69%，内存则达到 79%。企业实际在为应用从未请求的资源付费。

过度预配已成结构性顽疾

DevOps 团队为防范因内存不足导致的 OOM 驱逐或性能下降，习惯在资源请求中添加大量安全余量。这种“填充”对成本管理团队不可见，且部署后从未被重新审视。Helm Chart 对所有服务采用保守估算，集群自动扩缩器将这些膨胀的请求视为真实负载，相应预配节点，浪费由此固化。

反直觉的是，过度容量并未保障稳定性。CAST AI 分析的一个集群，尽管资源填充慷慨，每个测量周期仍平均发生 40-50 次 OOM 终止。在部署自动调整（rightsizing）并将预配 CPU 减半后，OOM 终止几乎降至零。

另一发现：集群规模与利用率无关。无论大小集群，约 70% 的 CPU 和内存被浪费。云供应商间存在细微差异：AWS 集群浪费略低（约 66%），Azure 最高（约 72%），GCP 居中。即便最佳结果（66% 浪费）仍属极高。

GPU：利用率仅 5%，成本结构截然不同

2026 年报告首次纳入 GPU，情况更为严峻。在 23,000 个集群中，GPU 平均利用率仅 5%，约为预配容量的 1/20。GPU 的经济性完全不同于 CPU：空闲 CPU 核心每小时成本仅几美分，而空闲 GPU 每小时成本高达数美元。自 2006 年 EC2 推出以来，GPU 价格首次上涨——AWS 在 2026 年 1 月将 H200 容量块价格上调 15%，打破了长达二十年的降价趋势。

报告还指出企业的“保留行为”：因担心未来无法获取 GPU 容量，企业紧握已获得的资源不放，加剧了通胀循环。2025 年 GPU 实例的 Spot 采用率几乎为零（低于 2%），部分原因是供应不足。不过，2026 年初入门级硬件（如 T4 实例）在部分美国区域已出现改善，30 分钟窗口内存活率超过 90%。但区域差异巨大：AWS eu-west-3 区域 24 小时存活概率高于 0.9，而 eu-central-1 和 us-east-1 在同一窗口内低于 0.2，即一天内中断风险高达 80%。若能在适当时机选择最优区域，仅 Spot 价格差异即可达 2-5 倍，手动实时监控几乎不可能。

GPU 共享：理论可行，实践缺位

报告以 ALLEN Digital 为例展示 GPU 共享的潜力。该公司在 SageMaker 上运行 7 个模型（3 个开源、4 个定制），GPU 实例持续运行但负载间歇。迁移至 Kubernetes 并启用 GPU 时间切片、50/50 按需/Spot 混合策略及节点装箱后，时间切片立即节省 20% 成本，共享实例整合再省 30-40%，加上 CPU 和内存调整，总成本较 SageMaker 降低超 70%。

报告数据集中一个拥有 136 块 H200 的集群实现了 49% 的 GPU 利用率，而全样本平均仅 5%。10 倍的差距几乎完全源于方法而非硬件。

架构趋势：ARM 采用加速

自 2024 年第二季度起，ARM 处理器采用速度是 x86 的 3.5 倍，目前占 CPU 总量的 9%。

自动化是唯一出路？

CAST AI 诊断明确：报告揭示的低效问题并非新现象，而是逐年累积。Kubernetes 采用率上升，效率却成比例下降，企业支付与消耗之间的鸿沟持续扩大。这一趋势不会自行纠正。成功缩小差距的团队并未等待自发改善，而是将效率视为与可用性同等重要的持续运营属性，而非一次性项目。

Summary
CAST AI's 2026 State of Kubernetes Optimization Report reveals worsening cloud resource waste, with average CPU utilization dropping to 8% (from 10%) and memory utilization to 20% (from 23%), while GPU utilization averages just 5%. The report, based on tens of thousands of production clusters across AWS, GCP, and Azure, identifies structural overprovisioning as the root cause, with CPU overprovisioning surging from 40% to 69% and memory overprovisioning reaching 79%. The findings highlight that inefficiencies are worsening despite Kubernetes maturity, with GPU waste being particularly costly due to rising prices, and CAST AI advocates for continuous automated optimization rather than one-off fixes.

CAST AI has released its third annual State of Kubernetes Optimization Report, now covering GPU usage for the first time, based on direct measurements from tens of thousands of production clusters across AWS, GCP, and Azure before any optimization.

The findings are stark: average CPU utilization has dropped to 8%, down from 10% the previous year, while memory utilization fell from 23% to 20%. Contrary to expectations of improved efficiency as Kubernetes matures, resource usage is actually declining year over year.

The core issue is overprovisioning. CPU overprovisioning surged from 40% to 69% in one year, and memory overprovisioning reached 79%. Companies are paying for resources their applications never request.

Structural overprovisioning

DevOps teams routinely add generous safety margins to resource requests to prevent slowdowns or out-of-memory (OOM) evictions. This padding, invisible to cost management teams, is never revisited after deployment. Helm charts apply conservative estimates across all services, and cluster autoscalers treat these inflated requests as real load, provisioning nodes accordingly. Waste becomes structural.

Counterintuitively, this overcapacity does not guarantee stability. One cluster analyzed by CAST AI averaged 40 to 50 OOM kills per measurement interval despite generous resource padding. After deploying automated rightsizing that halved provisioned CPUs, OOM kills dropped to nearly zero.

Cluster size has no bearing on utilization rates. Both small and large clusters waste approximately 70% of their allocated CPU and memory. Cloud provider nuances exist: AWS clusters waste slightly less (around 66%), Azure clusters more (around 72%), with GCP in between. Even the best result remains very high.

GPU waste: a different scale

The 2026 report's inclusion of GPU usage reveals an even more alarming picture. Average GPU utilization across 23,000 clusters is just 5%, meaning about 20 times more capacity is allocated than used.

The economics differ fundamentally from CPU. An idle CPU core costs cents per hour; an idle GPU costs dollars. For the first time since EC2 launched in 2006, GPU prices are rising. AWS increased H200 Capacity Block prices by 15% in January 2026, breaking a two-decade downward trend.

The report identifies a hoarding behavior: companies cling to GPU capacity for fear of losing access, fueling an inflationary loop. Spot instance adoption for GPU workloads was nearly nonexistent in 2025, with less than 2% of GPUs running on Spot, partly due to limited availability.

Since early 2026, entry-level hardware like T4 instances in some US regions has shown survival rates above 90% over 30-minute windows. But regional disparities are significant: for AWS, eu-west-3 maintains a survival probability above 0.9 over 24 hours, while eu-central-1 and us-east-1 fall below 0.2 in the same window—an 80% interruption risk in a single day. By selecting the most favorable region at a given time, teams could achieve 2x to 5x cost differences on Spot pricing alone, but manual real-time monitoring is impractical.

GPU sharing: known but ignored

The report illustrates GPU sharing potential with a case study. ALLEN Digital ran seven models on SageMaker (three open-source, four custom) using continuously running GPU instances serving intermittent load. By migrating to Kubernetes with GPU time-slicing, a 50/50 on-demand/Spot mix, and node bin-packing, the company achieved 20% savings immediately from time-slicing, 30-40% additional savings by consolidating models on shared instances, and over 70% total savings compared to SageMaker after CPU and memory rightsizing.

One cluster in the dataset (136 H200s achieving 49% GPU utilization) shows the ceiling is not theoretical. The fleet average is 5%. The 10x gap is almost entirely a matter of method, not hardware.

Beyond GPUs, the report notes a broader architectural trend: since Q2 2024, ARM processor adoption has grown at 3.5 times the rate of x86. ARM now represents 9% of total CPU capacity.

Automation as the only viable response

CAST AI's diagnosis is blunt: the inefficiencies described are not new. They accumulate year after year. The trend is consistent—Kubernetes adoption grows, efficiency declines proportionally, and the gap between what organizations pay and what they consume keeps widening. This trajectory does not self-correct.

The authors conclude unequivocally: teams that have narrowed this gap did not wait for spontaneous improvement. They treated efficiency as a continuous operational property, like availability, rather than a one-off project.

Résumé
Le rapport 2026 de CAST AI révèle une aggravation du gaspillage dans les clusters Kubernetes : l'utilisation CPU chute à 8% (contre 10% en 2025) et celle de la mémoire à 20%, tandis que le surprovisionnement CPU bondit de 40% à 69%. L'utilisation des GPU, mesurée pour la première fois, n'atteint que 5% en moyenne, avec un coût bien plus élevé que le CPU, et les entreprises pratiquent une rétention des capacités par peur de pénurie, alimentant une boucle inflationniste. CAST AI conclut que ces inefficacités structurelles ne se corrigent pas spontanément et que seule une automatisation continue du rightsizing peut réduire l'écart entre ressources payées et consommées.

Pour la troisième année consécutive, CAST AI publie son State of Kubernetes Optimization Report, qui mesure l’utilisation réelle des ressources CPU, mémoire et, nouveauté 2026, GPU dans les clusters Kubernetes.

Les données sont issues de mesures directes réalisées sur des dizaines de milliers de clusters de production tournant sur AWS, GCP et Azure ; avant toute optimisation.

Le verdict est sans appel : l’utilisation CPU est tombée à 8%, contre 10% l’année précédente. Celle de la mémoire est passée de 23% à 20%. Contrairement à ce que l’on pourrait attendre d’une technologie arrivant à maturité, les taux d’utilisation ne progressent pas mais ils régressent.

Au cœur du problème : le surprovisioning. Le taux de surprovisioning CPU a bondi de 40% à 69% en un an. Côté mémoire, il atteint 79%. Les entreprises paient donc pour des ressources que leurs applications ne demandent même pas.

Un surprovisioning devenu structurel

Le mécanisme est bien connu des équipes DevOps : pour éviter les ralentissements ou les crashs par manque de mémoire (OOM evictions), les développeurs ajoutent des marges de sécurité généreuses à leurs requêtes de ressources.

Ce padding, invisible pour les équipes en charge des coûts, n’est jamais réexaminé après le déploiement. Les charts Helm appliquent des estimations conservatrices à l’ensemble des services, et les autoscalers de cluster répondent à ces demandes gonflées comme s’il s’agissait d’une charge réelle, en provisionnant des nœuds en conséquence. Le gaspillage devient structurel.

Ce qui est contre-intuitif, c’est que cette surcapacité ne garantit pas la stabilité. Un cluster analysé par CAST AI affichait en moyenne 40 à 50 OOM kills par intervalle de mesure, malgré un padding généreux des ressources. Après déploiement d’un rightsizing automatisé, qui a également réduit les CPU provisionnés de moitié, les OOM kills sont tombés à presque zéro.

Autre constat surprenant de l’édition 2026 : la taille des clusters n’a aucune influence sur le taux d’utilisation. Les petits comme les grands clusters gaspillent environ 70% de leur CPU et mémoire alloués.

Il existe toutefois des nuances selon les fournisseurs cloud : les clusters AWS tendent à gaspiller légèrement moins (environ 66%), ceux sur Azure davantage (environ 72%), GCP se situant entre les deux. Mais même le meilleur résultat ( 66% de gaspillage) reste très élevé.

Les GPU : un problème d’une autre dimension

L’ajout des GPU dans le périmètre du rapport 2026 révèle une situation encore plus alarmante. L’utilisation moyenne des GPU s’établit à 5% sur les 23 000 clusters analysés, soit environ 20 fois moins que la capacité allouée.

Or l’économie des GPU est fondamentalement différente de celle du CPU. Un cœur CPU inactif coûte quelques centimes par heure. Un GPU inactif, lui, coûte des dollars. Et pour la première fois depuis le lancement d’EC2 en 2006, les prix des GPU augmentent. AWS a relevé les prix de ses Capacity Blocks H200 de 15% en janvier 2026, rompant une tendance de deux décennies à la baisse.

Le rapport pointe également un comportement de rétention : les entreprises s’accrochent aux capacités GPU de peur de ne plus pouvoir en obtenir, alimentant une boucle inflationniste. L’adoption des instances Spot pour les charges GPU était quasiment inexistante en 2025, avec moins de 2% des GPU fonctionnant en Spot, partiellement faute de disponibilité.

La situation évolue toutefois depuis début 2026 pour le matériel d’entrée de gamme : les instances T4 dans certaines régions américaines affichent désormais des taux de survie supérieurs à 90% sur une fenêtre de 30 minutes. Mais les disparités régionales sont considérables : pour AWS, eu-west-3 maintient une probabilité de survie supérieure à 0,9 sur 24 heures, tandis que eu-central-1 et us-east-1 tombent sous 0,2 dans la même fenêtre ; soit un risque d’interruption de 80% en une journée.

En sélectionnant la région la plus favorable à un moment donné, les équipes pourraient obtenir des différences de coût de 2 à 5 fois sur le seul prix Spot. Impossible à monitorer manuellement en temps réel.

Le partage GPU : théoriquement connu, pratiquement ignoré

Le rapport illustre le potentiel du GPU sharing avec un cas concret. ALLEN Digital exploitait 7 modèles sur SageMaker ( 3 Open Source et 4 Custom ) avec des instances GPU fonctionnant en continu mais servant une charge intermittente.

En migrant vers Kubernetes avec du GPU time-slicing activé, un mix 50/50 on-demand/Spot et du bin-packing de nœuds, l’entreprise a réalisé 20% d’économies immédiatement grâce au time-slicing, 30 à 40% supplémentaires en consolidant les modèles sur des instances partagées, et plus de 70% d’économies totales par rapport à SageMaker après rightsizing CPU et mémoire.

Un cluster dans le jeu de données du rapport ( 136 H200 maintenant 49% d’utilisation GPU) montre que le plafond n’est pas théorique. La moyenne du parc est à 5%. L’écart est de 10x, et il est presque entièrement une question de méthode, non de matériel.

Au-delà des GPU, le rapport note une tendance de fond sur l’architecture des processeurs. Depuis le deuxième trimestre 2024, l’adoption des processeurs ARM progresse à 3,5 fois le rythme des processeurs x86. Les processeurs ARM représentent désormais 9% du parc CPU total.

L’automatisation, seule réponse viable ?

Face à ces chiffres, CASTAI formule un diagnostic net : les inefficacités décrites dans le rapport ne sont pas nouvelles. Elles s’accumulent d’année en année. La tendance est constante : l’adoption de Kubernetes progresse, l’efficacité décline proportionnellement, et l’écart entre ce que les organisations paient et ce qu’elles consomment ne cesse de s’élargir. Cette trajectoire ne se corrige pas d’elle-même.

La conclusion des auteurs est sans équivoque : les équipes qui ont réduit cet écart n’ont pas attendu une amélioration spontanée. Elles ont traité l’efficacité comme une propriété opérationnelle continue, au même titre que la disponibilité, plutôt que comme un projet ponctuel.

The post Kubernetes : CPU à 8%, GPU à 5%… le gaspillage cloud s’aggrave d’année en année appeared first on Silicon.fr.

AI Insight

中文 EN

Core Point

CAST AI's 2026 report shows Kubernetes resource waste worsening: CPU utilization dropped to 8% (from 10%) and GPU to 5%, driven by structural overprovisioning that automation alone can fix.

Key Players

CAST AI — Kubernetes cost optimization platform, based in US/EU.

Industry Impact

ICT: High — Cloud waste is structural and worsening; GPU underutilization (5%) is a major cost issue.
Computing/AI: High — GPU retention behavior and low Spot adoption inflate AI infrastructure costs.

Tracking

Strongly track — Cloud waste trends directly impact enterprise cloud budgets and AI infrastructure efficiency.

Related Companies

Silicon.fr

mature

neutral

AWS

mature

negative

Google Cloud Platform

mature

negative

Azure

mature

negative

Microsoft Azure

mature

negative

Kubernetes

negative

Helm

neutral

GCP

neutral

CAST AI

positive

Amazon EC2

negative

Capacity Blocks H200

negative

ALLEN Digital

positive

SageMaker

negative

AI Processing

2026-04-23 15:46

deepseek / deepseek-chat