Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅

人工智能公司伽利略（galileo）刚刚公布了其最新的幻觉指数，这是一个评估当今世界 22 种领先的生成式人工智能大模型的框架。

模型使用一种称为“情境依从性”的指标进行测试，该指标测量“闭域幻觉：模型说出情境中未提供内容的情况”。

https://www.rungalileo.io/hallucinationindex

根据排名，RAG 总体表现最佳的模型是 Anthropic 的 Claude 3.5 Sonnet。Galileo 表示，该模型和 Anthropic 的另一个模型 Claude 3 Opus 的得分接近完美，击败了去年获胜的 OpenAI 闭源大语言模型。

从成本角度来看，性能最好的型号是谷歌的 Gemini 1.5 Flash。

而阿里巴巴的 Qwen2-72B-Instruct 是总体性能最好的开源模型；在短上下文 RAG 测试中，Meta 的 llama-3-60b-instruct 是最好的。

按上下文长度细分，短上下文 RAG 中最佳闭源模型是 Claude 3.5 Sonnet，中上下文 RAG 中最佳闭源模型是 Google 的 Gemini-1.5-flash-001（成本是与其他同样获得满分的模型的决胜因素），大上下文 RAG 中再次是 Claude 3.5 Sonnet。

Galileo 首席执行官兼联合创始人 Vikram Chatterji 表示：

“在当今快速发展的人工智能领域，开发人员和企业面临着一个关键挑战：如何在平衡成本、准确性和可靠性的同时，充分利用生成式人工智能的力量。当前的基准通常基于学术用例，而不是实际应用。

我们的新指数试图通过在需要 LLM 检索数据的实际用例中测试模型来解决这一问题，这是企业人工智能实施中的常见做法，由于幻觉仍然是一个主要障碍，我们的目标不仅仅是对模型进行排名，而是为人工智能团队和领导者提供他们所需的实际数据，以便他们以合适的价格采用合适的模型，完成合适的任务。”

关于Claude 3.5 Sonnet

Anthropic 在 6 月最新发布的 AI 模型 Claude 3.5 Sonnet，是 OpenAI 的 GPT-4o 和 Google 的 Gemini 1.5 的竞争对手。该模型在性能、速度和成本效益方面有着显着改善，已经成为 AI 领域值得关注的新成员。

Claude 3.5 Sonnet 执行速度超群，其已在多个领域表现出色，包括文本和图像分析、代码编写和多步骤工作流程。

据 Anthropic 称，该模型超越了其前身 Claude 3 Opus，甚至在多个基准测试中优于 GPT-4o 和 Gemini 1.5 等领先模型。该模型还因其对幽默的理解能力和以更像人类的方式写作的能力而闻名。

作者：场长
参考：
https://docs.rungalileo.io/galileo/gen-ai-studio-products/guardrail-store/context-adherence

本文为 @ 万能的大雄创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

04月14日

评论