马斯克开源Grok：参数3140亿，免费可商用

17611538698

webmaster@21cto.com

登录注册

马斯克开源Grok：参数3140亿，免费可商用

场长

人工智能 0 225 2024-03-19 08:35:11

导读：马斯克前几天刚刚放完火箭，然后又讯雷不及掩耳之势，将Grok 项目正式开源，目标直指OpenAI。

伊隆·马斯克 (Elon Musk) 的另一家AI初创公司 xAI ，于3月17日正式宣布第一个大型语言模型 (LLM) Grok 开源。

马斯克此前曾宣称将于本周进行开源行动，并未食言。

此举动表示将让全球的任何程序员、公司都能够使用 Grok 的“权重”，感受大模型的人工“神经元”或者软件模块之间的连接强度，让大语言模型能够做出更佳决策。

Grok接收输入并以文本和其他相关文档的形式提供输出，我们可以将模型的副本用于想要的任何用途，包括商业应用程序内。

https://x.ai的介绍

xAI 团队表示，开源的 Grok-1 是预训练阶段的原始基础模型检查点，该阶段已经于 2023 年 10 月结束。这意味着该模型没有针对任何特定应用（例如对话和对话）进行微调。

该模型在成立后仅 3 个月内就由 xAI 从头开始训练。

与一些具有使用限制的开源版本（例如 Gemma 和 Llama）不同，Grok 的开源版本提供了对底层技术的广泛访问。然而，它缺乏 Pythia、Bloom 和OLMo等模型提供的完全透明性，其中包括训练代码和用于训练模型的数据集。

“我们正在发布我们的大型语言模型 Grok-1 的基本模型权重和网络架构，”该公司在一篇博客文章中宣布。“Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型。”

Grok权重和架构，现在可以在GitHub上获取，其中包括了模型和入门说明：

https://github.com/xai-org/grok-1

要下载该模型，包括大约 300GB ，并包含 773 个 torrent “磁力”文件。

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

这个“足够的GPU”，YC上有网友推测，如果是8bit量化的话，可能需要8块H100。

在工程架构上，Grok选用了Rust编程语言以及深度学习框架新秀JAX。

Grok 的开源意味着什么

参数是指控制模型的权重和偏差。参数越多，通常模型越先进、复杂和高性能。

Grok 拥有 3140 亿个参数，远远领先于Meta 的 Llama 2（700 亿个参数）和Mistral 8x7B（120 亿个参数）等开源竞争对手。如下图：

Grok 根据Apache License 2.0许可证开源，允许商业使用、修改和分发，但不能注册商标，并且用户不会收到任何责任或保证。

Grok 的架构于 2023 年 10 月使用 JAX 和 Rust 之上的自定义训练堆栈开发，融合了神经网络设计的创新方法。该模型将 25% 的权重用于给定代币（Token），这是一种提高其效率和有效性的策略。

Grok最初于 2023 年 11 月作为专有或“闭源”模型发布，到目前为止，只能在马斯克的社交网络 X（以前称为 Twitter）上访问，特别是通过 X Premium+ 付费订阅服务，该服务的费用为每月 16 美元或每年 168 美元。

目前，Grok 虽然开源发布，但并不包括其训练数据的完整语料库。这对于使用模型来说并不重要，因为它已经经过训练，但它不允许用户看到它从中学到了什么——大概是 X 上的用户文本帖子（xAI 博客文章不透明地将其表述为“基础模型”）经过大量文本数据的训练，没有针对任何特定任务进行微调。”

它还不包含与 X 上可用的实时信息连接，马斯克最初将其定位为 Grok 相对于其他模型的主要属性。因此，用户需要时仍然要在 X 上订阅付费的版本。

开发者与社区的反应

X 上的人工智能和技术社区已经对此次发布做出了好奇、激动和兴奋等等反应。在该平台的年轻网友 Andrew Kean Gao 第一时间进行了“查验”。

他是斯坦福大学大二的学生，主修计算机科学与技术，并且主攻人工智能。他的推文原文与翻译如下：

here's your DEEP DIVE into @grok 's architecture!
I just went through the model.py, for this 314B open source behemoth with *no strings attached*.

这里是深度研究@grok的架构！
我分析了 .py 文件，这是一个 314B 的模型，并且“没有任何附加条款”：

Basics: 314 B, mixture of 8 experts (2 active) 86B active parameters It's using Rotary Embeddings #rope instead of fixed positional embeddings

基础信息：314B 的模型，由 8 专家组成（2 活跃状态）86B 活跃参数，使用Rotary Embeddings

Tokenizer vocab size: 131,072 (similar to GPT-4) 2^17 btw embedding size: 6,144 (48*128) 64 transformer layers (sheesh) Each layer has a decoder layer: Multihead attention block and denseblock Key value size : 128

词汇量：131,072 个，与 GPT-4 类似，实际上是 2 的 17 次方
词嵌入维度：6,144（由 48 乘以 128 计算得来）

Transformer 层：64
Key value size : 128

Multihead Attention block: There are 48 heads for queries and 8 for keys/values (KV) KV size is 128. The Dense block (dense feedforward block): widening factor: 8 hidden layer size is 32768 2 experts out of 8 selected per token.
Multihead Attention
查询部分：48 个注意力头
键/值（KV）部分：8 个注意力头
键/值的维度：128
Dense block
扩展因子：8
隐藏层：32,768
每个token，从 8 个专家中选择 2 个

rotary positional embeddings size 6144, which makes sense, it's the same as the model's input embedding size Context length: 8,192 tokens precision bf16. There's something in here about 8bit quantization for the weights

旋转位置嵌入的维度为 6144，这与模型输入嵌入的维度一致，因此这一设计非常地合理。上下文长度为 8192 个令牌，计算精度采用 bf16 格式。这里使用了 8 bit 量化：

还有他将Grok与其它模型的比较图，请参见上半部分。

技术社区中的人们指出了该模型在前馈层中使用 GeGLU 及其归一化方法，并对有趣的三明治归一化技术表示了认可。

甚至有的 OpenAI 员工也表达了他们对该模型的浓厚兴趣。

不仅是技术举措，还包括商业与公关策略

马斯克此举非常明确——旨在与 OpenAI 制造的 ChatGPT 模型竞争。

几年前，马斯克与他人共同创立了OpenAI这家公司，并在 2018 年剧烈地举动离开了该公司，现在又与之展开竞争。

马斯克将 Grok 定位为经 ChatGPT 和其他大数据模型“更幽默”、“更未经审查的版本”，鉴于对人工智能审查制度的抱怨以及像Google Gemini令人尴尬的混乱图像生成和可疑的意识形态立场，这一立场将会在更广泛的用户中重新焕发吸引力。

Grok 的开源，显然对马斯克对OpenAI的诉讼和对 OpenAI 的普遍批评来说也是一个有益的“意识形态”立场。他在之前起诉了 OpenAI，指责他的前公司放弃了“创始协议”，应该以非营利组织的形式运营。OpenAI 在公众舆论法庭上发布了辩护电子邮件，表明马斯克也意识到并可能支持其转向专有、营利性技术。

在Grok发布后，马斯克不忘@OpenAI：“请告诉我们更多关于开发的部分”：