OpenAI 推出多模态的 ChatGPT，新增语音与图像功能

场长

资讯 0 1899 2023-09-27 11:16:24

21CTO导读：ChatGPT这个超级流行的人工智能聊天机器人一直只是一个文本框。而现在，它正在学习以新的方式理解人们的问题。

背景

OpenAI 对 ChatGPT 新特性涉及 AI 驱动的聊天机器人可执行的操作做进一步调整：包括可以回答的问题、可以访问的信息以及改进的底层模型。

这一次，它调整了使用 ChatGPT 本身的方式。这次它推出新版本的服务，让人们不仅可以通过在文本框中输入句子做提示语，还可以通过大声说话或上传图片来做提示语。

OpenAI 的行动

9月25日，OpenAI 宣布为流行的对话式AI机器人ChatGPT推出新的语音与图像功能。

这些新功能标志着 ChatGPT 功能的重大扩展，它允许用户通过与 AI 助手对话并为其显示图像，用来进行更自然的对话。

OpenAI 如此宣布道：“我们开始在 ChatGPT 中推出新的语音与图像功能。它们提供了一种新的、更直观的界面，允许您进行语音对话或向 ChatGPT 展示您正在谈论的内容” 。

详细描述“多模态” ChatGPT 新增的功能：

新的语音功能，将允许用户通过大声说话与 ChatGPT 进行互动对话。用户可以在五种不同的人工智能生成的声音中进行选择，然后提出问题或给出指示语。

OpenAI 这样提示用户：

“与 ChatGPT 交谈并让它回复。可以随时随地与它交谈，为家人申请一个睡前故事，或者解决餐桌上的争论，”

用户感觉就像与苹果的siri或 Alexa 以及Google Assistant 交谈一样，只是——OpenAI 是由底层技术的改进，答案会更加精确。由此大多数虚拟助手正在被大语言模型重建，而 OpenAI 开始处于领先地位。

而图像功能允许用户上传 ChatGPT 照片，用以获取有关视觉内容的信息或提出问题。

例如，用户可以向 ChatGPT 展示自己的冰箱和食品储藏室的照片，并询问它食谱创意。在旅行时，你可以向 ChatGPT 发送一张地标照片并进行有关它的实时对话。该移动应用程序还包含一个绘图工具，可将人工智能集中在特定的图像区域。

OpenAI 表示，这些新功能由其最新的自然语言人工智能模型 GPT-3.5 和 GPT-4 提供支持，这些模型可以将推理技能应用于视觉与音频输入。当前的 ChatGPT 现在可以用五种合成声音之一进行可倾听响应。

该公司计划在未来两周内向 Plus 和 Enterprise 用户开始逐步推出语音与图像功能。OpenAI 表示说，这样一种方法将使团队能够进一步完善安全措施，并让用户使用更先进的人工智能做好准备。

OpenAI 还表示：“OpenAI 的目标是构建安全且有益的 AGI。我们相信逐步提供新的工具，使我们能够随着时间的推移进行改进和完善，包括风险缓解措施，同时也让每个人为未来更强大的人工智能系统做好准备。”

结语

ChatGPT 在推出近一年后，OpenAI 仍在试图找出为机器人提供更多特性和功能，同时又不会产生新的问题和缺点，提供新的解决方案。

随着越来越多的人使用语音控制和图像搜索，并且 ChatGPT 越来越接近成为真正的多模式以及更有用的虚拟助手，其技术门槛的跨越将变得越来越难。

作者：场长
参考：
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

本文为 @ 场长创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

微软开源Agent操作系统：深度集...

04月28日