Meta 的新 Llama 3.1 模型发布

17611538698

webmaster@21cto.com

登录注册

Meta 的新 Llama 3.1 模型发布

场长

资讯 0 1197 2024-07-24 09:49:46

导读：Meta 的新 Llama 3.1 模型已经发布，开始与 GPT-4o 和 Claude 3.5 Sonnet 竞争。

Meta 在 23 号宣布其开源 AI 模型 Llama 已发布最新版本。据 Meta 称，随着 Llama 3.1 405B 的发布，该公司正试图证明开放大语言模型可以与封闭大语言模型一样强大，甚至更好。

Meta 在一篇博文中写道：

“Llama 3.1 405B 是第一个公开可用的大语言模型，在常识、可操纵性、数学、工具使用和多语言翻译等最先进的能力方面可与顶级 AI 模型相媲美。随着 405B 模型的发布，我们已准备好增强创新能力，带来前所未有的增长和探索机会。我们相信最新一代的 Llama 将激发新的应用程序和建模范式，包括合成数据生成，以便改进和训练较小的模型，以及模型提炼，这是开源中从未如此大规模实现的功能。”

该公司将 Llama 3.1 与 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 进行了比较。它在数学、推理和编码等多项评估中表现优于这些模型，或与这些模型相当。

该模型在超过 15 万亿个标签上进行了训练，这需要 Meta 优化其训练堆栈并使用超过 16K H100 GPU。

主要特性和功能

Llama 3.1 405B 可以执行各种任务，例如编码、回答数学问题以及可以用八种语言总结文档。但是，它仅支持文本，无法处理基于图像的查询。Meta 还在开发可以识别图像、视频和生成语音的多模态 Llama 模型，但这些模型暂时尚未公开。

该模型使用15 万亿个 token的数据集进行训练，相当于 7500 亿个单词。Meta 改进了该模型的数据管理和质量保证流程。其他 AI 模型生成的合成数据也用于微调 Llama 3.1 405B。然而目前，Meta 以竞争和法律原因为由，没有透露其训练数据的具体来源。

上下文窗口和工具

Llama 3.1 405B 具有更大的上下文窗口，包含 128,000 个标记，因此它能够总结较长的文本，并且比之前的模型更好地保持对话中的上下文。Meta 还发布了两个较小的模型，Llama 3.1 8B 和 Llama 3.1 70B，它们共享相同的上下文窗口。这些模型可以使用第三方工具和 API 来执行诸如回答有关最近事件的问题、解决数学问题和验证代码等任务。

性能和许可证

Llama 3.1 405B 的性能与 OpenAI 的 GPT-4 相当，与GPT-4o和Claude 3.5 Sonnet相比，结果好坏参半。它在执行代码和生成图表方面表现出色，但在多语言能力和一般推理方面较弱。由于其规模庞大，它需要大量硬件才能运行。Meta 正在推广其用于通用应用的较小模型，并认为 Llama 3.1 405B 适合模型蒸馏和生成合成数据。

Meta 已更新 Llama 的许可证，允许开发人员使用 Llama 3.1 模型系列的输出来开发第三方 AI 模型。不过，应用程序月用户量超过 7 亿的开发人员必须向 Meta 申请特殊许可证。

除了 405B 版本，Llama 3.1 还提供 8B 和 70B 选项。该公司还宣布，随着此版本的发布，它还将更改 Llama 的许可证，以允许开发者使用其输出来改进其他型号。

Meta 在Llama3 的相关博文中写道：

“尽管许多人可能认为封闭模型更具成本效益，但根据人工智能分析的测试，Llama 模型的每Token成本是业内最低的。马克·扎克伯格说，开源将确保全世界更多的人能够享受人工智能的好处和机会，权力不会集中在少数人手中，而且这项技术可以更均匀、更安全地部署到整个社会。这就是为什么我们继续采取措施，让开放式人工智能成为行业的标准，”

这些模型现在可以在Meta 的网站或Hugging Face上下载。

https://llama.meta.com/
https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f

本文为 @ 场长创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

评论

场长

标准用户

最新文章

微软 CTO 凯文·斯科特：未来AI将涌现大量专业Agent

微软 CTO 凯文·斯科特：未来AI将...

04月21日

Agentic IDE：智能编码的下一个前沿

Agentic IDE：智能编码的下一个...

04月21日

了解 PHP 中的继承

了解 PHP 中的继承

04月21日

对开发者的警告：远离这 10 个 VSCode 扩展

对开发者的警告：远离这 10 个 V...

04月21日

数据库正确的选型艺术

数据库正确的选型艺术

04月21日

AI 头条：新的 OpenAI 模型、NVIDIA AI-Q 蓝图以及 Anthropic 的 Google Workspace 集成

AI 头条：新的 OpenAI 模型、NVI...

04月21日

NativePHP桌面版V1.0正式发布

NativePHP桌面版V1.0正式发布

04月14日

OpenAI 推出其 GPT-4.1 旗舰 AI 模型

OpenAI 推出其 GPT-4.1 旗舰 AI...

04月18日

“人类测试员”在利用AI能进行软件测试中的作用

“人类测试员”在利用AI能进行软件...

04月15日

AI 头条：谷歌用于构建 AI 代理的新工具、GitHub Copilot 中的代理模式等

AI 头条：谷歌用于构建 AI 代理...

04月14日

FreeDOS 1.4来了：仍然是 DOS，比以往更加现代

FreeDOS 1.4来了：仍然是 DOS，...

04月11日

我认识的最好的程序员

我认识的最好的程序员

04月14日

AI 正在重新定义软件开发

AI 正在重新定义软件开发

04月17日

开源电子书管理软件“Calibre 8.2.1”发布

开源电子书管理软件“Calibre 8.2...

04月08日

Oracle 云透露其被攻击

Oracle 云透露其被攻击

04月11日

Python 发布新的标准包锁文件格式

Python 发布新的标准包锁文件格...

04月07日