17611538698
webmaster@21cto.com

马斯克开源Grok:参数3140亿,免费可商用

人工智能 0 225 2024-03-19 08:35:11

图片

导读:马斯克前几天刚刚放完火箭,然后又讯雷不及掩耳之势,将Grok 项目正式开源,目标直指OpenAI。

伊隆·马斯克 (Elon Musk) 的另一家AI初创公司 xAI ,于3月17日正式宣布第一个大型语言模型 (LLM) Grok 开源。

图片

马斯克此前曾宣称将于本周进行开源行动,并未食言。

此举动表示将让全球的任何程序员、公司都能够使用 Grok 的“权重”,感受大模型的人工“神经元”或者软件模块之间的连接强度,让大语言模型能够做出更佳决策。

Grok接收输入并以文本和其他相关文档的形式提供输出,我们可以将模型的副本用于想要的任何用途,包括商业应用程序内。

图片

https://x.ai的介绍

xAI 团队表示,开源的 Grok-1 是预训练阶段的原始基础模型检查点,该阶段已经于 2023 年 10 月结束。这意味着该模型没有针对任何特定应用(例如对话和对话)进行微调。

该模型在成立后仅 3 个月内就由 xAI 从头开始训练。

与一些具有使用限制的开源版本(例如 Gemma 和 Llama)不同,Grok 的开源版本提供了对底层技术的广泛访问。然而,它缺乏 Pythia、Bloom 和OLMo等模型提供的完全透明性,其中包括训练代码和用于训练模型的数据集。

“我们正在发布我们的大型语言模型 Grok-1 的基本模型权重和网络架构,”该公司在一篇博客文章中宣布。“Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型。”

Grok权重和架构,现在可以在GitHub上获取,其中包括了模型和入门说明:

https://github.com/xai-org/grok-1

要下载该模型,包括大约 300GB ,并包含 773 个 torrent “磁力”文件。

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

图片

这个“足够的GPU”,YC上有网友推测,如果是8bit量化的话,可能需要8块H100。

图片

在工程架构上,Grok选用了Rust编程语言以及深度学习框架新秀JAX。

Grok 的开源意味着什么

参数是指控制模型的权重和偏差。参数越多,通常模型越先进、复杂和高性能。

图片

Grok 拥有 3140 亿个参数,远远领先于Meta 的 Llama 2(700 亿个参数)和Mistral 8x7B(120 亿个参数)等开源竞争对手。如下图:

图片

Grok 根据Apache License 2.0许可证开源,允许商业使用、修改和分发,但不能注册商标,并且用户不会收到任何责任或保证。

此外,使用者分发时必须复制原始许可和版权声明,并说明所做的更改。

图片

Grok 的架构于 2023 年 10 月使用 JAX 和 Rust 之上的自定义训练堆栈开发,融合了神经网络设计的创新方法。该模型将 25% 的权重用于给定代币(Token),这是一种提高其效率和有效性的策略。

Grok最初于 2023 年 11 月作为专有或“闭源”模型发布,到目前为止,只能在马斯克的社交网络 X(以前称为 Twitter)上访问,特别是通过 X Premium+ 付费订阅服务,该服务的费用为每月 16 美元或每年 168 美元。

目前,Grok 虽然开源发布,但并不包括其训练数据的完整语料库。这对于使用模型来说并不重要,因为它已经经过训练,但它不允许用户看到它从中学到了什么——大概是 X 上的用户文本帖子(xAI 博客文章不透明地将其表述为“基础模型”)经过大量文本数据的训练,没有针对任何特定任务进行微调。”

它还不包含与 X 上可用的实时信息连接,马斯克最初将其定位为 Grok 相对于其他模型的主要属性。因此,用户需要时仍然要在 X 上订阅付费的版本

开发者与社区的反应

X 上的人工智能和技术社区已经对此次发布做出了好奇、激动和兴奋等等反应。在该平台的年轻网友 Andrew Kean Gao 第一时间进行了“查验”。

图片

他是斯坦福大学大二的学生,主修计算机科学与技术,并且主攻人工智能。他的推文原文与翻译如下:

here's your DEEP DIVE into @grok 's architecture!

I just went through the model.py, for this 314B open source behemoth with *no strings attached*.

这里是深度研究@grok的架构!

我分析了 .py 文件,这是一个 314B 的模型,并且“没有任何附加条款”:

图片

Basics: 314 B, mixture of 8 experts (2 active) 86B active parameters It's using Rotary Embeddings #rope instead of fixed positional embeddings

基础信息:314B 的模型,由 8 专家组成(2 活跃状态)86B 活跃参数,使用Rotary Embeddings

Tokenizer vocab size: 131,072 (similar to GPT-4) 2^17 btw embedding size: 6,144 (48*128) 64 transformer layers (sheesh) Each layer has a decoder layer: Multihead attention block and denseblock Key value size : 128

词汇量:131,072 个,与 GPT-4 类似,实际上是 2 的 17 次方

词嵌入维度:6,144(由 48 乘以 128 计算得来)

Transformer 层:64

Key value size : 128

图片


Multihead Attention block: There are 48 heads for queries and 8 for keys/values (KV) KV size is 128. The Dense block (dense feedforward block): widening factor: 8 hidden layer size is 32768 2 experts out of 8 selected per token.

Multihead Attention

  • 查询部分:48 个注意力头

  • 键/值(KV)部分:8 个注意力头

  • 键/值的维度:128

Dense block

  • 扩展因子:8

  • 隐藏层:32,768

每个token,从 8 个专家中选择 2 个

图片

rotary positional embeddings size 6144, which makes sense, it's the same as the model's input embedding size Context length: 8,192 tokens precision bf16. There's something in here about 8bit quantization for the weights


旋转位置嵌入的维度为 6144,这与模型输入嵌入的维度一致,因此这一设计非常地合理。上下文长度为 8192 个令牌,计算精度采用 bf16 格式。这里使用了 8 bit 量化:

图片


还有他将Grok与其它模型的比较图,请参见上半部分。

技术社区中的人们指出了该模型在前馈层中使用 GeGLU 及其归一化方法,并对有趣的三明治归一化技术表示了认可。

图片

甚至有的 OpenAI 员工也表达了他们对该模型的浓厚兴趣。

图片

图片

不仅是技术举措,还包括商业与公关策略

马斯克此举非常明确——旨在与 OpenAI 制造的 ChatGPT 模型竞争。

几年前,马斯克与他人共同创立了OpenAI这家公司,并在 2018 年剧烈地举动离开了该公司,现在又与之展开竞争 。

马斯克将 Grok 定位为经 ChatGPT 和其他大数据模型“更幽默”、“更未经审查的版本”,鉴于对人工智能审查制度的抱怨以及像Google Gemini令人尴尬的混乱图像生成和可疑的意识形态立场,这一立场将会在更广泛的用户中重新焕发吸引力。

Grok 的开源,显然对马斯克对OpenAI的诉讼和对 OpenAI 的普遍批评来说也是一个有益的“意识形态”立场。他在之前起诉了 OpenAI,指责他的前公司放弃了“创始协议”,应该以非营利组织的形式运营。OpenAI 在公众舆论法庭上发布了辩护电子邮件,表明马斯克也意识到并可能支持其转向专有、营利性技术。

在Grok发布后,马斯克不忘@OpenAI:“请告诉我们更多关于开发的部分”:

图片

才发布不到1天,目前Grok的Star数量已经超过22K,并不断在向上攀升,由此可见受欢迎程度一斑。

图片

可以确定的是,Grok 的发布将给其它大模型提供商(尤其是其它竞争对手的开源提供商)带来压力,这要求他们向用户证明自己技术的优越性。

各位开发者怎么看?欢迎留言~

作者:校长
参考:
https://x.ai/blog/grok-os

评论