戴尔从成本可控的角度看待本地化AI

Dell prend l’IA locale sous l’angle de la maîtrise des coûts

Silicon.fr by Clément Bohic 2026-05-19 16:14 Original
摘要
戴尔在 Deskside Agentic AI 下正式扩展其 AI Factory,把“本地与边缘”的代理式AI部署到 Pro Max、Pro Precision 与 PowerEdge,并强调与 NVIDIA 生态(Nemotron 模型、运行时 OpenShell)配套。其委托 Signal65(分析师 Patrick Moorhead 所在机构)对三类代理工作负载做了两年、持续运行的成本模拟,结论称相对云端 API 成本最高可降低 87%,并给出按工作负载与硬件配置的回本周期(约 2–17 个月)。该研究主张代理式AI的云端成本可能快速膨胀,而本地化可显著改善企业在多代理并发场景下的可预测性与总体拥有成本。

Dell 以“降本”为切入点,正式扩展其本地与边缘侧的 AI Factory,并将新方案命名为 Deskside Agentic AI。这套方案主要面向 Pro Max、Pro Precision 和 PowerEdge 系列系统,继续依托 NVIDIA 生态,使用 Nemotron 模型与 OpenShell runtime。Dell 的核心论点很直接:传统 AI 往往是“一个 prompt 对应一个回答”,成本相对可控;但进入 agentic AI(代理式 AI) 后,调用链更长、交互更多,费用可能迅速膨胀,因此企业更需要把推理能力放到本地或近端,以获得可预测的成本结构。

Dell 引用了一项由美国咨询机构 Signal65 进行的模拟研究来支撑其“最高可比云 API 省 87%”的说法。Signal65 由分析师 Patrick Moorhead 等人创立。研究对比了 云端 APIDell AI Factory 本地部署 在三类 agentic workload 上的成本:知识工作(travail de la connaissance)销售软件开发。其中,知识工作包括低复杂度任务,如问答、邮件撰写、会议摘要、文档编辑,以及中等复杂度任务,如数据分析、研究辅助、博客写作;销售场景则是低复杂度与高复杂度任务各占一半,但报告未进一步细分;软件开发则覆盖中等复杂度任务,如文档编写、模式搜索、方案比较,以及高复杂度任务,如函数生成、API 集成、代码审查、单元测试等。

这项模拟基于连续运行场景:每年 260 天、持续 2 年。在硬件利用率方面,销售和知识工作按 60% 计算,软件开发按 80% 计算。所选 agent 分别基于两类模型:知识工作使用 Nemotron-3-Nano-30B-A4B,软件开发使用 Nemotron-3-Super-120B-A12B,销售场景则两者各占 50%。三类 workload 的日均 token 消耗分别为:知识工作 1330 万 tokens,销售 1630 万 tokens,软件开发 2130 万 tokens

在云端成本模型中,Signal65 采用的是截至 2026 年 5 月 1 日 的市场平均 API 价格,并假定缓存命中时的 token 价格为正常输入 token 价格的 10%,同时统一施加 40% 折扣。对应的平均价格为:知识工作输入 0.3666 美元/百万 tokens、缓存输入 0.03666 美元、输出 1.7753 美元;销售输入 2.1545 美元、缓存输入 0.21545 美元、输出 11 美元;软件开发输入 5.54 美元、缓存输入 0.554 美元、输出 28.97 美元

本地部署部分则基于 Dell 与 NVIDIA 提供的价格和性能数据建模。研究以 每个 agent 10 tokens/秒 的性能门槛来配置系统。桌面级设备只计入电力成本(基准未披露),服务器则还要加上 电力、机房托管、软件和基础设施管理 等费用。纳入比较的配置包括:

  • Dell Pro Max with GB10:约 6000 美元,在 Nemotron-3-Nano-30B-A4B 下可达 32 tokens/秒,在 Super-120B-A12B 下为 5 tokens/秒
  • Dell Pro Max T2 with RTX PRO 6000 BW:约 2 万美元,分别可达 30087.5 tokens/秒
  • Dell Pro Max with GB300 Ultra:约 13.5 万美元,分别可达 1150280 tokens/秒
  • Dell PowerEdge XE7740 with 多块 RTX PRO 6000 BW:约 110 万美元,在 Nano 模型下可达 71,188 tokens/秒,Super 模型未测试;
  • Dell PowerEdge XE7745 with 多块 H200 NVL:约 120 万美元,Super 模型下可达 24,053 tokens/秒,Nano 模型未测试。

Dell US 官网的公开价格与研究中采用的数字大体一致。例如,GB10 版本的 Pro Max,在 128GB LPDDR5X RAM、1TB SSD、无 ProSupport 的配置下售价为 5492 美元(不含税);而搭载 RTX PRO 6000 BW 96GBPro Max T2,若配 128GB DDR5 ECC、Core Ultra 5 235、256GB 存储,价格略高于 2 万美元

在这些假设下,Dell 给出的投资回本周期为:

  • Pro Max GB106 到 17 个月
  • Pro Max GB300 Ultra3 到 11 个月
  • Pro Max T2 RTX PRO 60002 到 7 个月
  • PowerEdge XE7745 H200 NVL2 个月

不过,Dell 在 Deskside AI 的正式介绍中并未重点推服务器,而是主打本地 AI,尤其强调 GB300 Ultra 配置的结果。所谓“成本降低 87%”的宣传点,正来自这一配置在 软件开发 场景下的对比:本地方案约 13.8 万美元,而云 API 方案约 106 万美元。同一配置下,销售 场景可节省 86%知识工作 场景则为 56%

按 workload 分开看,成本优势差异明显:

  • 知识工作:GB10 仅省 28%,可支持约 8 个 agent;T2 RTX PRO 6000 BW 省 71%,约 75 个 agent;GB300 Ultra 省 56%,约 300 个 agent;PowerEdge XE7740 省幅最高可达 94%,约 1.8 万个 agent
  • 销售:GB10 省 76%,约 4 个 agent;T2 RTX PRO 6000 省 91%,最多约 40 个 agent;GB300 Ultra 省 86%,约 150 个 agent
  • 软件开发:T2 RTX PRO 6000 省 93%,约 20 个 agent;GB300 Ultra 省 87%,约 60 个 agent;PowerEdge XE7745 H220 NVL 省幅可达 98%,可支持 5000 多个 agent

整体来看,Dell 这次并不是单纯推销“本地 AI”概念,而是把 agentic AI 的成本可控性 作为主轴,试图证明:随着代理式工作流变复杂,企业若继续完全依赖云端 API,费用会快速上升;而通过 桌面端高性能工作站边缘/本地服务器,可以在性能、规模与预算之间找到更可预测的平衡。

Summary
Dell expands its “Deskside Agentic AI” under the Dell AI Factory brand, extending local and edge deployment for agentic AI on Pro Max, Pro Precision, and PowerEdge systems using NVIDIA’s Nemotron models and OpenShell runtime. Citing a Signal65 study led by analyst Patrick Moorhead, Dell claims up to 87% lower costs versus cloud API pricing across three agent workloads (knowledge work, sales, and software development), with payback projected from ~2 to 17 months depending on hardware. The business impact is a push to make agentic AI financially predictable by moving inference on-prem, addressing cost growth that Dell says can quickly escalate with cloud-based agent workflows.

Dell is framing local and edge AI around a single message: cost control. Under the new Deskside Agentic AI banner, the company is extending its AI Factory approach to on-premises and edge deployments, mainly on Pro Max, Pro Precision and PowerEdge systems, while staying within the NVIDIA ecosystem — notably with Nemotron models and the OpenShell runtime.

The pitch is that agentic AI changes the economics of inference. With “traditional” AI, where one prompt typically produces one answer, costs are relatively predictable. With agentic workflows, however, usage can escalate quickly, making the choice between cloud APIs and local infrastructure far more consequential.

Dell’s headline claim — up to 87% lower costs than cloud APIs — comes from a study it commissioned from Signal65, the US research firm associated with analyst Patrick Moorhead. The study compares cloud API usage with Dell AI Factory deployments across three agentic workloads: knowledge work, sales, and software development.

The workloads were defined as follows. The knowledge work scenario includes low-complexity tasks such as Q&A, email drafting, meeting summaries and document editing, plus medium-complexity tasks like data analysis, research assistance and blog writing. The sales workload is split evenly between low- and high-complexity tasks, though Signal65 does not detail the latter. The software development workload combines medium-complexity tasks such as documentation, pattern search and approach comparison with high-complexity tasks including function generation, API integration, code review and unit testing.

The simulation assumes continuous operation for 260 days per year over two years. Hardware utilization is set at 60% for sales and knowledge work, and 80% for software development. The agents are based on two Nemotron models: Nemotron-3-Nano-30B-A4B for knowledge work, Nemotron-3-Super-120B-A12B for software development, and a 50/50 mix of the two for sales.

On the usage side, the workloads consume an average of 13.3 million tokens per day for knowledge work, 16.3 million for sales and 21.3 million for software development.

For cloud APIs, Signal65 used market-average pricing as of 1 May 2026 for models “aligned with complexity requirements,” without further detail. Cached tokens were priced at 10% of normal input-token cost, and a uniform 40% discount was applied. The resulting average cloud costs per million tokens were $0.3666 in input / $1.7753 in output for knowledge work, $2.1545 / $11 for sales, and $5.54 / $28.97 for software development.

For on-premises deployments, the model is based on pricing and performance data supplied by Dell and NVIDIA. Each platform was sized to meet a threshold of 10 tokens per second per agent. For desktop systems, energy costs were added; for servers, Dell also included colocation, software and infrastructure management costs.

The configurations ranged from relatively affordable desktops to high-end servers: Pro Max with GB10 at about $6,000, Pro Max T2 with RTX PRO 6000 BW at about $20,000, Pro Max with GB300 Ultra at about $135,000, PowerEdge XE7740 with multiple RTX PRO 6000 BW at about $1.1 million, and PowerEdge XE7745 with multiple H200 NVL at about $1.2 million. At 100% utilization, the GB10 system was rated at 32 tokens/sec for Nemotron-3-Nano-30B-A4B and 5 tokens/sec for Nemotron-3-Super-120B-A12B; the RTX PRO 6000 BW Pro Max T2 at 300 and 87.5 respectively; the GB300 Ultra at 1,150 and 280; the XE7740 at 71,188 for the Nano model; and the XE7745 at 24,053 for the Super model.

Dell says the public prices on its US site broadly match the study’s assumptions. For example, a Pro Max GB10 with maximum RAM (128 GB LPDDR5X), minimum storage (1 TB) and no ProSupport costs $5,492 before tax. A Pro Max T2 with RTX PRO 6000 BW 96 GB, maximum RAM (128 GB DDR5 ECC), the least powerful CPU (Core Ultra 5 235) and the smallest SSD (256 GB) comes to a little over $20,000.

Under those assumptions, break-even is reached in 6 to 17 months with the Pro Max GB10, 3 to 11 months with the Pro Max GB300 Ultra, 2 to 7 months with the Pro Max T2 RTX PRO 6000, and just 2 months with the PowerEdge XE7745 in H200 NVL.

Dell is not emphasizing the PowerEdge servers in its Deskside AI presentation. Instead, it is focusing on local AI and especially the GB300 Ultra configuration, where the study’s most prominent figure — 87% lower costs — comes from the software development workload: $138,000 on Dell hardware versus $1.06 million via cloud APIs. The savings are 86% for sales and 56% for knowledge work.

The workload-by-workload results show how the economics vary by platform. For knowledge work, cost reductions reach 28% on the GB10 system for 8 agents, 71% on the Pro Max T2 for around 75 agents, 56% on the GB300 Ultra for about 300 agents, and 94% on the PowerEdge XE7740 for roughly 18,000 agents. For sales, the GB10 delivers 76% savings for 4 agents, the Pro Max T2 91% for up to 40 agents, and the GB300 Ultra 86% for around 150 agents. For software development, the Pro Max T2 reaches 93% savings for about 20 agents, the GB300 Ultra 87% for around 60 agents, and the PowerEdge XE7745 98% for more than 5,000 agents.

Résumé
Dell lance officiellement « Deskside Agentic AI » et étend son AI Factory en local et en périphérie, sur des PC Pro Max/Pro Precision et des serveurs PowerEdge, avec un écosystème NVIDIA (Nemotron, runtime OpenShell). S’appuyant sur une étude commandée à Signal65 (Patrick Moorhead), l’entreprise affirme jusqu’à 87 % de baisse de coûts vs des API cloud sur trois workloads agentiques (travail de la connaissance, ventes, développement logiciel), avec une rentabilisation annoncée de 2 à 17 mois selon les configurations. L’impact visé est de contenir l’explosion des dépenses typique de l’IA agentique, en dimensionnant des déploiements on-prem à partir de seuils de performance et de modèles Nemotron.

Jusqu’à 87 % de dépenses en moins par rapport aux API cloud : Dell a choisi son angle d’attaque pour Deskside Agentic AI.

Sous cette marque, il étend officiellement son AI Factory en local et en périphérie, essentiellement sur des systèmes Pro Max, Pro Precision et PowerEdge. Toujours avec l’écosystème NVIDIA, des modèles Nemotron au runtime OpenShell.

La logique économique est au cœur de son argumentaire. Le postulat est simple : autant avec l’IA « traditionnelle » (« un prompt = une réponse »), les coûts sont relativement prévisibles, autant avec l’IA agentique, ils peuvent enfler rapidement.

Une simulation de coûts sur trois workloads agentiques

Les 87 % annoncés proviennent d’une étude que Dell a commandée à Signal65, cabinet américain à l’origine duquel on trouve notamment l’analyste Patrick Moorhead.

L’étude compare les options API cloud et Dell AI Factory sur trois profils de workloads : « travail de la connaissance », ventes et développement logiciel. Le premier comprend des tâches d’une complexité jugée faible (questions-réponses, écriture d’e-mails, résumé de réunions, édition de documents…) et moyenne (analyse de données, assistance à la recherche, écriture d’articles de blog…). Le deuxième est à moitié-moitié entre des tâches de complexité faible et élevée, que Signal65 ne détaille pas. Quant au troisième, il combine tâches de difficulté moyenne (écriture de documentation, recherche de patterns, comparaison d’approches…) et élevée (génération de fonctions, intégration d’API, revue de code, tests unitaires…).

La simulation se fonde sur un fonctionnement en continu, 260 jours par an sur une période de 2 ans. Elle implique un taux d’utilisation hardware de 60 % pour ventes et « travail de la connaissance » ; de 80 % pour le développement logiciel.

Les agents sélectionnés étaient fondés sur deux types de modèles :

Nemotron-3-Nano-30B-A4B pour le « travail de la connaissance »

Nemotron-3-Super-120B-A12B pour le développement logiciel

L’un et l’autre, à 50/50, pour la vente

Le workload « travail de la connaissance » consomme en moyenne 13,3 millions de tokens par jour. Contre 16,3 millions pour le workload vente et 21,3 millions pour le workload développement logiciel.

Les prix retenus pour les configurations cloud…

Les coûts des API cloud représentent la moyenne du marché au 1er mai 2026 pour « des modèles alignés sur les exigences de complexité ». Signal65 n’en dit pas plus à ce propos. Il précise toutefois avoir fixé le prix des accès au cache à 10 % du prix normal des tokens en entrée. Et appliqué une remise uniforme de 40 %.

Agent

Coût moyen en entrée

(par million de tokens)

Coût moyen avec récupération en cache

(par million de tokens)

Taux d’accès au cache

Coût moyen en sortie

(par million de tokens)

Remise cloud

Assistance au « travail de la connaissance »

0,3666 $

0,03666 $

40 %

1,7753 $

40 %

Assistance à la vente

2,1545 $

0,21545 $

50 %

11 $

40 %

Assistance au développement logiciel

5,54$

0,554 $

65 %

28,97 $

40 %

… et ceux pour les configurations sur site

Les solutions on-prem ont été modélisées à partir de données de prix et de performance fournies par Dell et NVIDIA. Pour chaque plate-forme, on a dimensionné les workloads sur la base d’un seuil de performance de 10 tokens/seconde/agent. Aux prix des équipements de bureau, il fallu ajouter les coûts de l’énergie (base non spécifiée). Aux serveurs également, ainsi que les coûts de colocation, de logiciel et de gestion d’infrastructure.

Solution

Prix

Nombre maximal de tokens produits par seconde (Nemotron-3-Nano-

30B-A4B, 10 tokens/seconde/agent,

100 % d’utilisation)

Nombre maximal de tokens par seconde

(Nemotron-3-Super-120B-

A12B, 10 tokens/seconde/agent,

100% d’utilisation)

Dell Pro Max avec GB10

~ 6 k$

32

5

Dell Pro Max T2

avec RTX

PRO 6000 BW

~ 20 k$

300

87,5

Dell Pro Max avec GB300

Ultra

~ 135 k$

1150

280

Dell PowerEdge

XE7740 avec (plusieurs) RTX PRO

6000 BW

~ 1,1 M$

71 188

Non testé

Dell PowerEdge

XE7745 avec

(plusieurs) H200 NVL

~ 1,2 M$

Non testé

24 053

Jusqu’à 17 mois pour rentabiliser

Les quelques prix publics sur le site Dell US correspondent plus ou moins à ceux retenus dans le cadre de cette étude. Il en coûte par exemple 5492 $ HT pour un Pro Max en GB10 avec le maximum de RAM (128 Go LPDDR5X), le minimum de disque (1 To) et sans ProSupport. Un Pro Max T2 en RTX PRO 6000 BW 96 Go configuré avec le maximum de RAM (128 Go DDR5 ECC), le processeur le moins puissant (Core Ultra 5 235) et la plus petite capacité disque (256 Go) revient à un peu plus de 20 000 $.

Dans les conditions sus-exposées, on atteint l’équilibre sous :

6 à 17 mois avec le Pro Max GB10

3 à 11 mois avec le Pro Max GB300 Ultra

2 à 7 mois avec le Pro Max T2 RTX PRO 6000

2 mois avec le PowerEdge XE7745 en H200 NVL

Dell ne met pas en avant les serveurs PowerEdge dans sa présentation de Deskside AI. Il met l’accent sur l’IA locale, en reprenant avant tout les résultats pour la config en GB300 Ultra. C’est là que se trouvent les fameux 87 % de coûts en moins. Ils concernent le workload de développement logiciel (138 k$ vs 1,06 M$ sur les API cloud). On tombe à 86 % pour les ventes et à 56 % pour le « travail de la connaissance ».

Les résultats par workload

(travail de la connaissance)

Différence de coût maximale

Nombre d’agents

Pro Max avec GB10

28 %

8

Pro Max T2 avec RTX PRO 6000 BW

71 %

~ 75

Pro Max avec GB300 Ultra

56 %

~ 300

PowerEdge XE7740 avec RTX PRO 6000 BW

94 %

~ 18k

(ventes)

Différence de coût maximale

Nombre d’agents

Pro Max avec GB10

76 %

4

Pro Max T2 avec RTX PRO 6000

91 %

Jusqu’à 40

Pro Max avec GB300 Ultra

86 %

~ 150

(développement logiciel)

Différence de coût maximale

Nombre d’agents

Pro Max T2 avec RTX PRO 6000

93 %

~ 20

Pro Max avec GB300 Ultra

87 %

~ 60

PowerEdge XE7745 avec H220 NVL

98 %

Plus de 5k

Illlustration © Dell

The post Dell prend l’IA locale sous l’angle de la maîtrise des coûts appeared first on Silicon.fr.

AI Insight
Core Point

戴尔以“本地/边缘代理式AI(Deskside Agentic AI)”为卖点,主张相对云API在特定代理工作负载下可降本最高约87%,核心在于把持续运行的token成本从云端转移到自有算力并控制缓存与利用率。

Key Players

Dell — 提供本地化代理式AI“AI Factory/Deskside Agentic AI”,美国德州(总部);与NVIDIA生态做端侧/边缘部署与成本测算。

NVIDIA — 提供Nemotron模型与运行时OpenShell等生态支持,硅谷(总部)。

Signal65 — 美国咨询机构,受戴尔委托完成成本研究并给出对比方法;Patrick Moorhead相关分析背景。

Industry Impact
  • Computing/AI: High — 推动“本地代理AI”成本模型与部署方案,强调持续运行与缓存策略对TCO的决定性影响。
  • ICT: Medium — 影响企业AI采购从云API向私有算力/边缘平台迁移的决策框架。
  • Energy: Medium — 本地推理需计入电力与机房/托管成本,可能改变企业能耗与预算结构。
Tracking

[Strongly track / Monitor] — 戴尔给出量化降本(87%)与具体硬件/利用率假设,若被市场验证将加速企业从云API转向本地代理AI。

Related Companies
neutral
Nvidia
mature
positive
Dell
mature
positive
positive
Categories
人工智能 软件 云计算
AI Processing
2026-05-19 16:28
openai / gpt-5.4-nano