Highlights 92 items
Filters
Biais, hallucinations… Les LLM les plus « robustes » en français
法国公司Giskard与Google DeepMind合作开发的基准测试Phare显示,主流大语言模型在英语表现通常优于法语,但存在例外。测试涵盖偏见、幻觉、抗越狱等10个模块,结果显示:在偏见检测中,Llama模型在法语表现反超英语;在事实性方面,Gemini模型领先;而Anthropic的Claude系列在识别虚假信息方面表现突出。该评估揭示了不同模型在多语言环境下的性能差异与特定优势。
Avec Muse Spark, Meta signe un modèle rapide, multimodal et… propriétaire
Meta发布了其超级智能实验室团队的首个AI模型Muse Spark,旨在追赶AI领域的竞争对手。该模型将作为Meta生态系统的通用智能层,未来几周内将部署于WhatsApp、Instagram等旗下平台,并计划通过API向开发者提供付费访问。Muse Spark在多项基准测试中表现优异,尤其注重计算效率,但其专有模式与以往开源策略不同,Meta表示未来仍会开源部分更强大的版本。