导读:用户和开发者们很快就可以将图像输入 Grok 获得基于文本的答案啦。
以下内容是根据xAI公开的开发者门户中文档创作。其网站地址为:
https://developers.x.ai/python-sdk/sampler/
以下是xAI 开发者平台的屏幕截图:
这表示,埃隆·马斯克 (Elon Musk) 的人工智能企业 xAI 在为自己的 Grok 聊天机器人添加多模式输入方面,取得了突破性进展。
从技术进展上,很快用户就可以将图片上传到 Grok 并接收到基于文本的答案。
xAI 在前不久的一篇博客(https://x.ai/blog/grok-1.5v)中首次透露了这一消息,该团队称 Grok-1.5V 将提供“多个领域的多模态模型”。从此次开发者文档的最新更新中,展示了推出新语言模型的进展。
在开发者文档中,示例 Python 脚本演示了开发者如何使用 xAI 软件开发工具包库根据文本与图像生成返回内容。
以下的Python代码是读取图像文件,然后设置文本提示语,并使用 xAI SDK 生成响应和返回。
这将是 Grok 模型的一次重大更新。
xAI 于 2023 年 11 月首次发布,可供付费订阅 X Premium Plus 的用户使用。其上一次更新是 3 月份的 Grok 1.5,其推理能力亦有所提升。
根据 X 上的一篇博客文章指出,该语言模型“基于截至 2023 年第三季度的互联网公开来源,包括各种文本数据以及由……人类审阅者和策划的数据集”进行了训练。
而前一版本的 Grok -1 未经过太多的数据训练。而如今的Grok 确实拥有“关于世界的最新实时知识”,包括 X 上的最新帖子。
xAI 由埃隆·马斯克 (Elon Musk) 于 2023 年 3 月创立,在人工智能领域相对较新,目前落后于 OpenAI 的 ChatGPT 等产品。
根据xAI 的博客文章所描述,他们的 Grok 1.5 模型正在缩小与 GPT-4 在各种基准上的差距,例如涵盖小学到高中各种竞赛问题。值得开发者注意的是,大型语言模型的基准经常受到人们批评,因为如果这些基准包含在训练数据中,模型就可以在基准上表现良好。这有点像记住考试的标准答案,而不是实际学习中的材料。
多模态会话聊天机器人大概率是人工智能的下一个前沿领域,这在前几天的Google I/O 大会上可见一斑,Google宣布了多项技术进步,而 OpenAI 也发布了 GPT-4o,
而 Grok 正在一直缺乏多模态功能,导致它落后于其它大语言模型的技术能力。
而现在,它正在加上速度追赶行业领先者,到达最新大语言模型的里程碑~
作者:场长
本文为 @ 万能的大雄 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。