17611538698
webmaster@21cto.com

如何选择合适的大语言模型

图片

现在,各个国内外大厂纷纷推出各种大模型(LLM)。

那么,哪种模型最适合自己呢?我们是只要单独一种模型,还是应该混合搭配以完成不同的工作?答案并不总是那么显而易见,请你别担心——我们已经为你做好了一些功课。

在这篇文章中,我们将分解这些 AI 助手的模型,解释它们最擅长什么以及如何充分利用它们。

有助于比较大语言模型的指标

首先,让我们先来定义有助于比较大模型的指标。 

  • 速度– 模型生成响应的速度有多快?

     

    如果一个模型比另一个模型慢,那也不一定是坏事。有些模型需要额外的时间,因为它们使用基于推理的方法,这可以得到更精确的答案。根据你想要达成的任务,这个指标可能比较重要。比如,如果你绝对需要快速响应。

    在本文中,我们将以每秒令牌数(TPS)计算的内部速度之数据。 

     

  • 幻觉率——人工智能很强大,但仍然不完美

     

    有些大语言模型更容易产生错误或误导性的答案。幻觉率越低越好。在今天这篇文章中,我们采用GitHub 的幻觉率数据。 

     

    地址:https://github.com/vectara/hallucination-leaderboard

     

  • 上下文窗口大小——这定义了模型一次可以处理多少代码。

     

    上下文窗口越大,AI 一次可以“记住”的内容就越多,这对于处理复杂项目至关地重要。

     

  • 编码性能– 此指标突出显示模型处理编码任务的能力。

 

几个可靠的基准有助于我们评估大语言模型: 

  • HumanEval+

    https://openlm.ai/coder-evalplus/

     

    它衡量 LLM 在一定尝试次数内解决 Python 编码问题的能力。最高分为 100,高分意味着模型可靠,可以一次性生成正确的代码。

     

  • ChatBot Arena

    https://openlm.ai/chatbot-arena/

     

    根据真实用户反馈对 LLM 进行排名,使其成为当今最具活力和实用性的 AI 基准之一。如果您在这里看到更高的数字,则表示该模型在基于投票的正面比较中始终优于其他模型。

     

  • Aider 的多语言基准测试

    https://aider.chat/docs/leaderboards/#polyglot-leaderboard

     

    通过检查其解决方案是否正确运行来评估 LLM 用多种编程语言编写和修复代码的能力。高分表明 LLM 在使用多种编程语言进行编码时具有高度准确性和可靠性,这意味着它是各种开发任务的不二之选。

 

哪种 LLM 适合用于你的编码任务

 

现在,我们已经定义了指标,让我们看看 AI 助手(Assistant) 支持的 LLM 进行的比较吧。 

 

大语言模型

编码性能

速度(TPS

幻觉发生率

上下文窗口

OpenAI

GPT-4o

OpenAI 当前最先进、最可靠的 GPT 模型, GPT-4o 提供深度理解与闪电般的响应。

HumanEval+87.2

ChatBot Arena1,377

Aider27.1%

53.20 ±15.57

1.5

128K Tokens

GPT-4o mini

这是一个较小的模型,将 GPT-4o 的功能提炼到一个紧凑、低延迟的封装中。

HumanEval+83.5

ChatBot Arena1,283

Aider55.6%

62.78 ±19.72

1.7

128K Tokens

o1

o1系列模型经过强化学习训练,能够处理复杂的推理。它们先思考,再做出反应,形成详细的内部思路,从而提供更准确、更合乎逻辑、结构更合理的答案。

HumanEval+89

ChatBot Arena1,358

Aider61.7%

134.96 ±35.58

2.4%

10 万个Tokens

o1-mini

这是一个更小、更经济的推理模型,其编码性能几乎与完整的 o1 模型相当。尽管其规模较小,但它处理编码挑战的能力几乎与 o1 模型相当,这一点从它们在 ChatBot Arena 上的得分可以看出。

HumanEval+89

ChatBot Arena1,353

Aider32.9%

186.98 ±47.55

1.4

10 万个Tokens

o3-mini

最新的小型推理模型 o3-mini 具有出色的 STEM 功能,尤其擅长编码。它保持了 o1‑mini 的低成本和速度,同时匹配大型 o1 模型的编码性能并提供更快的响应。这使其成为编码和逻辑问题解决任务的非常有效的选择。

HumanEval+-

ChatBot Arena1,353

Aider60.4%

155.01 ±45.11

0.8

10 万个Tokens

Google

Gemini 2.0 Flash

这是一种针对效率和性能进行了优化的高速、低延迟模型。它是实现动态、代理驱动体验的理想选择。

HumanEval+-

ChatBot Arena1,356

Aider22.2%

103.89 ±23.60

0.7%

100 万个Tokens

Gemini 1.5 Flash

这是 Google 的轻量级 AI 模型,针对速度和效率至关重要的任务进行了优化。Gemini 1.5 Flash 在大多数任务上都能提供高质量的性能,可与更大的模型相媲美,同时具有更高的成本效益和响应速度。

HumanEval+75.6

ChatBot Arena1,254

助手:-

112.57 ±24.03

0.7%

100 万个Tokens

Gemini 1.5 专业版

Gemini 1.5 Pro 是一款强大的 AI 模型,专为对大规模数据进行深度推理而构建,擅长分析、分类和总结大量内容。它可以处理超过 100,000 行代码,并具有高级理解能力,非常适合复杂的多模式任务。

HumanEval+79.3

ChatBot Arena1,291

助手:-

45.47 ±7.78

0.8

1-200 万个Tokens

Anthropic

Claude 3.7 Sonnet

这是 Anthropic 最先进的编码模型。它在速度和质量之间取得了平衡,它擅长通过编码代理、深度问题解决和智能自动化进行全周期的软件开发。

HumanEval+-

ChatBot Arena1,364

Aider64.9%

46.43 ±7.35

20 万个Tokens

Claude 3.5 Sonnet

迄今为止最智能的 Anthropic 模型 Claude 3.5 Sonnet 是一款多功能的 LLM,可用于编码、代码迁移、错误修复、重构和翻译。它支持代理工作流,提供深入的代码理解以及强大的解决问题的能力。

HumanEval+-

ChatBot Arena1,327

Aider51.6%

43.07 ±7.03

4.6

20 万个Tokens

Claude 3.5 Haiku

这项快速、经济高效的 LLM 课程擅长实时编码、聊天机器人开发、数据提取和内容审核等。

HumanEval+-

ChatBot Arena1,263

Aider28.0%

42.90 ±6.83

4.9

20 万个Tokens

 

LLM 领域广阔且发展迅速,没有一种模式在各个方面都表现出色。根据我们的基准,以下是各个关键类别的领先者:

  • 幻觉发生率:Gemini 2.0 Flash

  • 速度:GPT-4o-mini、Gemini 1.5 Flash 和 Gemini 2.0 Flash

  • 通用智能(非推理模型):GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku 和 Gemini 1.5 Pro

  • 具有推理能力的一般智能:Claude 3.7 Sonnet、o1、o1-mini 和 o3-mini

 

本地大模型

 

如果你需要 AI Assistant 离线工作或希望避免与 LLM API 提供商共享代码,你也可以选择此选项!AI Assistant 支持本地模型,通过ollama和LM Studio提供。

 

 

目前最强大的模型是 Qwen-2.5-Coder 和 Deepseek R1,但你可以使用 ollama 系列中任何足够小以适合自己硬件的模型。


作者:场长

评论