GPT-4，下周就要来了！

17611538698

webmaster@21cto.com

登录注册

GPT-4，下周就要来了！

万能的大雄

资讯 0 847 2023-03-12 12:00:30

3 月 9 日，微软德国 CTO Andreas Braun 在一场名为 “AI in Focus - Digital Kickoff” 的活动中表示，GPT-4 将在下周发布，将提供多模态模型。自 3 月初发布 Kosmos-1 以来，微软正在与 OpenAI 微调多模态这一事实应该不再是一个秘密。

此前《财富》杂志曾报道，OpenAI 在 beta 测试版 GPT-4 中采用了更强大的大语言模型，相较前代，GPT-4 可能不会有参数量上的巨幅提升，而是在其他方向寻求提高，“OpenAI 也确实在开发一款通过文字能生成视频的 AI 模型”。
今年 1 月，OpenAI CEO Sam Altman 在回应 “GPT-4 可能拥有 100 万亿参数” 的说法时，称其为“完全是胡说”。这也暗示了即将到来的 GPT-4 不会一味地扩大参数量，而可能向其他方向寻求提升。

转向多模态，更具颠覆性影响

“我们将在下周推出 GPT-4，我们将有多模态模型，提供完全不同的可能性——如视频，”Braun 说。这位首席技术官称大型语言模型是 “游戏规则的改变者”，因为它们教机器理解自然语言，然后以统计学方式理解以前只能由人类阅读和理解的内容。同时，该技术已经发展到了基本上 “适用于所有语言” 的程度。“你可以用德语问一个问题，得到意大利语的回答。通过多模态，微软/OpenAI 将 “使模型变得全面”。

此次 GPT4 转向多模态，未来的输入输出将出现图像、视频等形态，或将在业内产生更具颠覆性的影响。OpenAI 此前推出的 DALL-E 2 和 CLIP 便是一次很好的尝试。

近期，微软在多模态方向也动作频频，其推出了全能型人工智能模型——Kosmos-1。与局限于文本内容（ LLM）的 ChatGPT 相比，Kosmos-1 属于多模态大型语言模型（MLLM），目前能同时理解文字与图像内容，未来会整合更多的输入模式，如音频、视频。

此外，微软也于 3 月 8 日提出了 Visual ChatGPT，其包含不同的视觉基础模型，可以使用户通过以下方式与 ChatGPT 互动：

（1）不仅发送和接收语言，而且发送和接收图像；
（2）提供复杂的视觉问题或视觉编辑指令，这需要多个人工智能模型的协作和多步骤；
（3）提供反馈并要求纠正结果。

微软研究人员在发表于预印本网站 arXiv 上的论文中写道，“ChatGPT 正在吸引跨领域的兴趣，因为它提供的语言界面具有强大的对话能力和在许多领域的推理能力。然而，由于 ChatGPT 是用语言数据来训练的，它目前还不能处理或生成图像。同时，视觉基础模型，如 Visual Transformers 或 Stable Diffusion，虽然显示了强大的视觉理解和生成能力，但它们只是特定任务的“专家”，具有一轮次固定的输入和输出。”

这是一个“iPhone时刻”

在此次活动中，Braun 和微软德国 CEO Marianne Janik 一起，全面谈到了人工智能对公司的颠覆。Janik 强调了人工智能创造价值的潜力，并谈到了一个时间的转折点——目前的人工智能发展和 ChatGPT 是 “一个 iPhone 时刻”。她说，这并不是要取代工作，而是要以不同于以往的方式完成重复性任务。

颠覆不一定意味着工作的损失。Janik 强调说，“需要许多专家来使人工智能的使用产生价值”。传统的工作正在改变，由于新的丰富的可能性，令人兴奋的新职业正在出现。她建议公司形成内部的 “能力中心”，可以培训员工使用人工智能并形成捆绑式项目创意。在这样做时，“应该考虑到旧宠的迁移”。

Janik 还强调，微软不使用客户的数据来训练模型（然而，根据其 ChatGPT 政策，这一点至少在过去和现在不适用于他们的研究伙伴 OpenAI）。Janik 谈到了 “民主化”——她承认这只是指这些模型在微软产品范围内的直接可用性，特别是通过在 Azure 平台、Outlook 和 Teams 中整合人工智能而广泛使用。

GPT-4 究竟会展现出怎样的能力？值得期待。

参考链接：
https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html

本文为 @ 万能的大雄创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

评论

万能的大雄

标准用户

最新文章

OpenAI 推出其 GPT-4.1 旗舰 AI 模型

OpenAI 推出其 GPT-4.1 旗舰 AI...

04月18日

NativePHP桌面版V1.0正式发布

NativePHP桌面版V1.0正式发布

04月14日

“人类测试员”在利用AI能进行软件测试中的作用

“人类测试员”在利用AI能进行软件...

04月15日

AI 头条：谷歌用于构建 AI 代理的新工具、GitHub Copilot 中的代理模式等

AI 头条：谷歌用于构建 AI 代理...

04月14日

FreeDOS 1.4来了：仍然是 DOS，比以往更加现代

FreeDOS 1.4来了：仍然是 DOS，...

04月11日

AI 正在重新定义软件开发

AI 正在重新定义软件开发

04月17日

我认识的最好的程序员

我认识的最好的程序员

04月14日

谷歌发布推理模型 Gemini 2.5，这是其迄今为止“最智能的 AI 模型”

谷歌发布推理模型 Gemini 2.5，...

03月27日

Oracle 云透露其被攻击

Oracle 云透露其被攻击

04月11日

开源电子书管理软件“Calibre 8.2.1”发布

开源电子书管理软件“Calibre 8.2...

04月08日

Cloudflare 开源 OPKSSH，具备单点登录SSO等功能

Cloudflare 开源 OPKSSH，具备单...

04月07日

Python 发布新的标准包锁文件格式

Python 发布新的标准包锁文件格...

04月07日

JetBrains 宣布推出 AI 工具免费套餐

JetBrains 宣布推出 AI 工具免费...

04月17日

了解当前 AI 开发者工具生态系统

了解当前 AI 开发者工具生态系统

04月09日

如何成为顶尖 1% 程序员：你必须走的路

如何成为顶尖 1% 程序员：你必须...

04月09日

OpenAI 反诉马斯克，谴责其“虚假”收购

OpenAI 反诉马斯克，谴责其“虚假...

04月11日