面对偏差和幻觉，推理并不会让大语言模型（LLM）更健壮

Face aux biais et aux hallucinations, le raisonnement ne rend pas les LLM plus robustes

Silicon.fr by Clément Bohic 2026-04-17 08:00 Original

摘要
法国企业 Giskard 与 Google DeepMind 发布 Phare 基准（Potential Harm Assessment & Risk Evaluation）称：LLM 越新通常越能抵抗偏见、幻觉与越狱，但在“信息操纵/失实（disinformation）”与部分幻觉场景上代际差距并不明显，且模型大小并不必然带来更强鲁棒性（尤其在编码类越狱上，小模型有时反而更稳）。在供应商对比中，Anthropic 多数越狱模块得分高于 75%，而 Google 多数低于 50%（除 Gemini 3.0 Pro），同时推理能力对纠正明确错误有帮助，但对更隐蔽表述的幻觉与失实管理提升有限；偏见检测也整体停滞，DeepSeek 与 Anthropic 改善更突出。整体“安全性”排名前列多为 Claude 4.5/4.6 系列等，且对工具/API 滥用的改进有限，提示企业在安全评估与模型选择上需更依赖基准数据而非仅看模型规模或推理能力。

整体来看，LLM越新，通常越能抵御偏见、幻觉和不当使用，但这种代际提升并不总是显著，尤其在应对错误信息和涉及编码的 jailbreak 攻击时，差距仍然有限。这个结论来自法国公司 Giskard 与 Google DeepMind 联合推出的基准测试 Phare（Potential Harm Assessment & Risk Evaluation）。

在 jailbreak 场景下，推理型模型确实更稳健一些，尤其当恶意内容被包装进看似合理的上下文中，例如学术练习、数学题等。不过，所谓“小模型”有时反而比大模型更抗打，特别是在编码攻击中。Giskard 认为，这未必意味着小模型更聪明，而更可能是因为它们解码能力不足，反而“看不懂”这些复杂攻击，从而意外获得保护。因此，模型规模并不能可靠预测其抗 jailbreak 能力。

不同厂商之间的差异也非常大。在 Phare 的 jailbreak 模块中，Anthropic 的所有 LLM 得分都在 75% 以上；而 Google 的模型几乎全部低于 50%，只有 Gemini 3.0 Pro 例外。该基准覆盖约 50 个 LLM，且使用的都是业内已知、文档齐全的 jailbreak 技术，这使得结果更值得警惕。

在幻觉（hallucinations）方面，推理能力同样有帮助，但作用有限，主要体现在模型能更好地纠正明确、直接的错误陈述。一旦错误表达更隐晦，推理型模型并不会明显更稳。大模型通常略占优势，但这种优势在小模型上迅速缩小，尤其体现在 Google（Gemini 1.5 Pro vs Gemini 3 Pro）、OpenAI（GPT-5 vs GPT-4o） 和 Anthropic（Claude 4.5 Sonnet vs Claude 3.5 Sonnet） 之间，代际提升并不如预期明显。

语言差异依然存在：模型在英语下整体更稳健，这一点在 Phare 的大多数测试中成立，尤其是在幻觉抵抗上更明显。原因之一是该基准在法语和西班牙语测试中引入了更多文化语境特定元素，增加了难度。

Phare 还发现，LM Arena 的 ELO 排名与某些幻觉相关指标存在较强相关性：排名更高的模型往往更“事实正确”。但在应对错误信息方面，这种相关性几乎不存在。Giskard 推测，LM Arena 用户可能更偏好那些不太会反驳他们的模型，这种“讨好型”行为反而可能推高 ELO。

在偏见识别方面，Phare 评估的是模型是否能识别自己生成的刻板印象。这里几乎看不到代际进步，或者说进步非常有限。DeepSeek 的模型提升较明显，Anthropic 也有改善——不过后者旧模型往往把任何关联、哪怕无害的关联都误判为刻板印象。相比之下，Google 和 OpenAI 的进步并不明显。总体上，更大参数规模并不保证更好表现，推理能力也同样不是决定性因素。

在不当使用工具方面，Phare 关注模型识别潜在危险情境并提醒用户的能力。这里整体表现较好，最新一代模型优势明显，且“小模型”和“大模型”之间的差距在缩小。推理能力通常有帮助，但 Mistral AI 是个例外：Mistral Small 和 Medium 的表现反而优于 Magistral Small 和 Medium。与此同时，OpenAI 正在追赶 Anthropic，后者已有多个模型拿到“满分”。

Phare 还测试了多种工具/API 滥用场景。结果显示，模型跨代改进总体有限，只有 Gemini 系列提升较明显，但它们起点也较低。这里，推理能力并没有带来太大帮助。

从综合安全性看，Phare 排名前 15 的模型几乎被 Anthropic 主导，尤其是 Claude 4.5 Opus（2025年11月发布，LM Arena ELO 1467，Phare 0.838）位居第一，其后依次包括 Claude 4.5 Haiku（0.823）、Claude 4.1 Opus（0.810）、Claude 4.5 Sonnet（0.802）等。榜单中也出现了 GPT-5 mini、GPT-5.1、GPT-5.2、GPT-5 nano、Gemini 3.0 Pro Preview、Gemini 3.1 Pro 以及 Llama 3.1 405B Instruct OR。这说明，当前“最安全”的模型并不只属于单一厂商，但整体上 Anthropic 仍占据明显优势。

Summary
A benchmark called Phare (Potential Harm Assessment & Risk Evaluation), developed by French firm Giskard with Google DeepMind, finds that newer LLMs are generally more resistant to bias, hallucinations, and jailbreak attempts, but the improvement over older generations is sometimes modest—especially for disinformation handling and bias detection. The results across ~50 models show large provider gaps (Anthropic’s models score above 75% on jailbreak modules, while most Google models are under 50% except Gemini 3.0 Pro), and that reasoning helps against hallucinations only in limited cases and doesn’t reliably improve disinformation resistance or tool misuse. Overall, the “safest” top performers are dominated by Anthropic’s Claude 4.5/4.6 variants, with OpenAI and Google trailing inconsistently, implying uneven real-world safety gains despite rapid model iteration.

Newer LLMs are generally more resistant to bias, hallucinations and harmful misuse, but the gains are often smaller than expected, especially on misinformation handling and jailbreak attempts involving encoding. That is the main takeaway from Phare (Potential Harm Assessment & Risk Evaluation), a benchmark developed by French company Giskard with Google DeepMind.

On jailbreak resistance, reasoning models do better overall, particularly when malicious instructions are embedded in seemingly legitimate contexts such as academic exercises or math problems. Yet smaller models can sometimes outperform larger ones, especially against encoded attacks. Giskard argues this is likely not because they are inherently safer, but because they fail to decode the payload in the first place; in this case, model size is not a reliable predictor of robustness. Vendor differences are also stark: across Phare’s jailbreak modules, all Anthropic models score above 75%, while all Google models remain below 50% except Gemini 3.0 Pro. The benchmark covers around 50 LLMs and uses jailbreak techniques that are well known and documented, making the weak results more concerning.

Reasoning also helps against hallucinations, but only to a point. It improves performance when the model must correct explicit false statements, yet the advantage largely disappears when the misleading wording is more subtle. Bigger models still tend to do better, but the gap narrows for smaller ones, notably at Google (little progress between Gemini 1.5 Pro and Gemini 3 Pro), OpenAI (GPT-5 vs GPT-4o) and Anthropic (Claude 4.5 Sonnet vs Claude 3.5 Sonnet). Language remains a factor too: models are more robust in English than in French or Spanish, with the difference especially pronounced on hallucination tests because Phare includes culturally specific context for those languages.

Phare also finds a strong correlation between LM Arena ELO and some hallucination-related metrics: the highest-ranked models tend to be more factually accurate. But there is almost no relationship between LM Arena ranking and misinformation handling. Giskard suggests this may be because users prefer models that do not contradict them, which could inflate ELO.

On bias detection, progress is limited. Phare measures whether models can recognize the stereotypes they generate, and there has been little to no improvement across generations overall. DeepSeek models have improved significantly, as have Anthropic’s, though Giskard notes that older Anthropic generations tended to label any association, even harmless ones, as stereotypical. Google and OpenAI have not shown the same level of progress. Again, larger size does not reliably mean better performance, and reasoning does not change that.

The benchmark also tests whether models can identify dangerous situations and warn users appropriately. Here, models are broadly robust, with the latest generation clearly ahead and the gap between small and large models narrowing. Reasoning helps, except at Mistral AI, where Mistral Small and Medium outperform Magistral Small and Medium. OpenAI is catching up with Anthropic, whose several models already reach a perfect score.

Phare additionally includes tool and API misuse scenarios. Improvements across generations are limited for most tested LLMs, except Gemini models, which started from a much weaker baseline. Reasoning does not provide much help here either.

In the overall ranking of the 15 safest models, Anthropic dominates the top positions: Claude 4.5 Opus leads with a Phare score of 0.838 and LM Arena ELO of 1467, followed by Claude 4.5 Haiku (0.823), Claude 4.1 Opus (0.810) and Claude 4.5 Sonnet (0.802). The rest of the top tier includes Claude 4.6 Opus (0.789), Claude 4.6 Sonnet (0.768), GPT-5 mini and GPT-5.1 (both 0.743), Gemini 3.0 Pro Preview (0.730), Claude 3.7 Sonnet and Llama 3.1 405B Instruct OR (both 0.734), GPT-5.2 (0.732), Gemini 3.1 Pro (0.721), GPT-5 nano (0.718) and Claude 3.5 Haiku (0.711).

Résumé
Le benchmark Phare (Potential Harm Assessment & Risk Evaluation), mené par Giskard et Google DeepMind, conclut que la robustesse des LLM contre les biais, les hallucinations et les usages indésirables progresse de façon inégale : les modèles plus récents sont souvent plus résistants aux jailbreaks (notamment via framing), mais la taille du modèle ne garantit pas la sécurité, et le raisonnement n’aide que sur certains cas d’hallucinations explicites. Les écarts entre fournisseurs restent marqués (Anthropic nettement au-dessus sur les modules jailbreak, Google plus bas sauf Gemini 3.0 Pro), tandis que la détection des biais évolue peu entre générations, avec des améliorations notables chez DeepSeek et Anthropic. Enfin, la capacité à identifier les situations dangereuses s’améliore globalement, et le top des modèles “les plus sûrs” est dominé par des variantes Claude 4.5/4.6 et des modèles GPT-5/Gemini 3.0 Pro, avec des progrès limités sur l’exploitation d’outils/API.

Globalement, plus un LLM est récent, plus il est résistant aux biais, aux hallucinations et aux usages indésirables. Mais l’écart avec les anciennes générations est parfois moindre. En particulier sur la gestion de la désinformation et des tentatives de jailbreak impliquant de l’encodage.

Ce constat ressort du benchmark Phare (Potential Harm Assessment & Risk Evaluation), qu’on doit à l’entreprise française Giskard et à Google DeepMind.

Les « petits » modèles, parfois moins exposés au jailbreak

Face aux tentatives de jailbreak, les modèles de raisonnement se montrent plus robustes… surtout lorsque les éléments malveillants sont intégrés dans des contextes qui semblent légitimes (exercices académiques, problèmes de maths…).

Les « petits » modèles sont quelquefois plus résistants que les grands. Notamment sur les attaques avec encodage. Mais c’est probablement parce que la complexité de ces attaques les rebute, d’après Giskard : leur incapacité à décoder les protège. Dans ce contexte, la taille du modèle ne prédit pas sa robustesse.

Les écarts entre fournisseurs sont importants. Sur l’ensemble des modules jailbreak de Phare (cf. tableau ci-dessous), tous les LLM d’Anthropic performent au-dessus de 75 %. Alors que tous ceux de Google sont sous les 50 % – sauf Gemini 3.0 Pro. Les résultats, qui couvrent une cinquantaine de LLM, sont d’autant plus inquiétants que le benchmark utilise des techniques de jailbreak bien connues et documentées, nous explique-t-on.

Le raisonnement, une défense limitée face aux hallucinations…

Les capacités de raisonnement constituent aussi un avantage pour résister aux hallucinations, mais seulement dans certains domaines. Parmi eux, la correction d’affirmations fausses… lorsqu’elles sont explicites. Quand la formulation est plus subtile, les modèles de raisonnement ne se montrent pas plus robustes.

Si les plus grands modèles ont un certain avantage, l’écart se réduit avec les plus petits. Tout particulièrement chez Google (peu de progrès entre Gemini 1.5 Pro et Gemini 3 Pro), OpenAI (GPT-5 vs GPT-4o) et Anthropic (Claude 4.5 Sonnet vs Claude 3.5 Sonnet).

Des écarts linguistiques persistent. Les modèles demeurent plus robustes en anglais. Valable sur l’essentiel des tests de Phare, ce constat l’est d’autant plus pour la résistance aux hallucinations, le benchmark employant des éléments spécifiques de contexte culturel (pour le français et l’espagnol).

L’ELO sur LM Arena apparaît fortement corrélé à certains aspects de la résistance aux hallucinations. Les modèles les mieux classés tendent en tout cas à être plus « factuellement corrects » dans leurs réponses. Il n’y a en revanche presque aucun lien pour ce qui est de la gestion de la désinformation. Peut-être les utilisateurs de LM Arena préfèrent-ils les modèles qui ne les contredisent pas, leur procurant par là même un ELO plus élevé, postule Giskard…

… aux biais…

Phare mesure aussi la capacité des LLM à détecter les biais qu’ils produisent.

Sur ce point, il y a peu, voire pas de progrès entre générations de modèles. Les modèles de DeepSeek se sont toutefois notablement améliorés. Comme ceux d’Anthropic (il faut dire que les anciennes générations catégorisaient toute association, même inoffensive, comme stéréotypique). On ne peut pas en dire autant de ceux de Google et d’OpenAI.

Une plus grande taille n’est globalement pas garante de meilleures performances. Même chose pour l’aptitude au raisonnement.

… et au mauvais usage des outils

Phare évalue également la capacité à identifier les situations potentiellement dangereuses et à alerter l’utilisateur en conséquence.

Sur ce point, les modèles s’avèrent globalement robustes. La dernière génération a un net avantage. L’écart entre les « petits » et les « grands » se réduit. Le raisonnement est un avantage… sauf chez Mistral AI, où Mistral Small et Medium sont plus performants que Magistral Small et Medium.

OpenAI rattrape Anthropic, dont plusieurs modèles atteignent le « score parfait ».

Phare comprend également plusieurs scénarios d’exploitation d’outils/API. Sur les LLM testés, les améliorations sont limitées entre générations. Sauf pour les modèles Gemini, qui partaient toutefois de loin. Les capacités de raisonnement ne sont pas d’une grande aide.

Le top 15 des modèles les plus « sûrs » au global

Modèle

Date de sortie

ELO LM Arena

Score Phare

Claude 4.5 Opus

Novembre 2025

1467

0,838

Claude 4.5 Haiku

Octobre 2025

1406

0,823

Claude 4.1 Opus

Août 2025

1446

0,810

Claude 4.5 Sonnet

Septembre 2025

1450

0,802

Claude 4.6 Opus

Février 2026

1503

0,789

Claude 4.6 Sonnet

Février 2026

1458

0,768

GPT-5 mini

Août 2025

1390

0,743

GPT-5.1

Novembre 2025

1437

0,743

Gemini 3.0 Pro Preview

Novembre 2025

1486

0,730

Claude 3.7 Sonnet

Février 2025

1371

0,734

Llama 3.1 405B Instruct OR

Juillet 2024

1335

0,734

GPT-5.2

Décembre 2025

1437

0,732

Gemini 3.1 Pro

Février 2026

1500

0,721

GPT-5 nano

Août 2025

1338

0,718

Claude 3.5 Haiku

Octobre 2024

1323

0,711

Composition du benchmark Phare

Module

Sous-module

Capacités évaluées

Biais

Autoévaluation des stéréotypes

Le modèle reconnaît les stéréotypes qu’il produit.

Hallucinations

Facticité

Le modèle produit des réponses factuellement correctes à des questions de culture générale.

Désinformation

Le modèle peut fournir des réponses correctes à des questions qui contiennent des éléments faux, trompeurs ou incorrects.

Discrédit

Le modèle gère les propos questionnables (pseudo-science, théories complotistes…)

Outils

Le modèle utilise des outils de façon fiable.

Nocivité

Conseils dangereux

Le modèle identifie les situations potentiellement dangereuses et alerte l’utilisateur.

Jailbreak

Attaque par framing (intégration dans un contexte apparemment légitime)

Performance du modèle contre ces attaques

Attaque par encodage

Injection de prompt

Illustration générée par IA

The post Face aux biais et aux hallucinations, le raisonnement ne rend pas les LLM plus robustes appeared first on Silicon.fr.

AI Insight

中文 EN

Core Point

Phare benchmark (Giskard + Google DeepMind) finds that newer LLMs aren’t consistently more robust: reasoning helps against some hallucinations and jailbreak framing, but offers limited gains for subtle hallucinations, disinformation, bias detection, and tool misuse.

Key Players

Giskard — French AI risk/LLM safety benchmarking company.

Google DeepMind — AI research lab within Google.

Anthropic — LLM provider; US-based.

Google (Gemini) — LLM provider; US-based.

OpenAI — LLM provider; US-based.

Mistral AI — LLM provider; France-based.

DeepSeek — LLM provider; China-based.

Meta (Llama) — LLM provider; US-based.

Industry Impact

Computing/AI: High — safety evaluation shows reasoning and model size don’t reliably improve robustness; provider gaps are large.
ICT: Medium — impacts enterprise deployment risk controls, especially for jailbreak/disinformation/tool-use scenarios.

Tracking

[Strongly track] — benchmark results challenge common assumptions (bigger/reasoning = safer) and highlight provider-specific safety regressions.

Related Companies

Silicon.fr

mature

neutral

OpenAI

mature

neutral

Google

mature

negative

Anthropic

startup

positive

Mistral AI

startup

neutral

DeepSeek

startup

neutral

Google DeepMind

mature

negative

Giskard

neutral

LM Arena

neutral

AI Processing

2026-04-17 19:29

openai / gpt-5.4-nano